論文の概要: Multi-Turn Reasoning When Context Arrives in Pieces: Scalable Sharding and Memory-Augmented RL
- arxiv url: http://arxiv.org/abs/2606.12941v2
- Date: Fri, 12 Jun 2026 03:12:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-15 13:53:03.68191
- Title: Multi-Turn Reasoning When Context Arrives in Pieces: Scalable Sharding and Memory-Augmented RL
- Title(参考訳): ピアスにおけるコンテキストアレー時のマルチツーリング:スケーラブルなシャーディングとメモリ拡張RL
- Authors: Shu Tong Luo, Wenqin Liu, Rui Liu, Mingming Gong, Jiaxian Guo,
- Abstract要約: コンパクトなローリングメモリを維持するためのトレーニングモデルは,会話における損失を著しく軽減できることを示す。
単一ターンQAデータセットをマルチターン断片化情報エピソードに変換する,低コストなシャーディングパイプラインを導入する。
メモリトレーニングされたモデルは、テスト時に完全な履歴を与えられたとしても、フルヒストリーベースラインを上回っます。
- 参考スコア(独自算出の注目度): 46.79027015862025
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: When a user reveals task-critical information across several conversation turns, LLM accuracy drops by up to 65% despite full context availability. We show that this Lost in Conversation degradation can be substantially mitigated by training models to maintain a compact rolling memory instead of attending to a growing history. To make such training scalable, we introduce a low-cost sharding pipeline that converts single-turn QA datasets into multi-turn fragmented-information episodes, eliminating the need for hours of manual annotation. Training only on sharded GSM8K, our memory-augmented policy significantly improves multi-turn accuracy and generalises zero-shot to harder math and out-of-domain long-context QA. Moreover, memory-trained models outperform full-history baselines even when given the full history at test time, suggesting that learning to compress induces more robust incremental reasoning than full-context exposure alone.
- Abstract(参考訳): 複数の会話にまたがるタスククリティカルな情報を明らかにすると、LLMの精度はフルコンテキストでも最大65%低下する。
我々は,この会話の損失を,成長する歴史に従わずに,コンパクトなローリングメモリを維持するためのトレーニングモデルによって大幅に軽減できることを示す。
このようなトレーニングをスケーラブルにするために,シングルターンQAデータセットをマルチターン断片化情報エピソードに変換する,低コストのシャーディングパイプラインを導入する。
シャーディングGSM8Kのみをトレーニングすることで、メモリ拡張ポリシにより、マルチターン精度が大幅に向上し、ゼロショットがより難しい数学やドメイン外長文QAに一般化される。
さらに、メモリトレーニングされたモデルは、テスト時に完全な履歴が与えられたとしても、フルヒストリーベースラインよりも優れており、学習の圧縮は、フルコンテクスト露光単独よりも、より堅牢なインクリメンタル推論を誘導することを示している。
関連論文リスト
- TAMTRL: Teacher-Aligned Reward Reshaping for Multi-Turn Reinforcement Learning in Long-Context Compression [24.10525956976745]
マルチTurn Reinforcement Learning(TAMTRL)のための教師対応リワード整形法を提案する。
TAMTRLは、関連する文書を教師の信号として利用し、それらをモデル入力の各ターンに整列させ、正規化確率による報酬を自己監督的に割り当てる。
7つの長文ベンチマークで異なるスケールの複数のモデルを用いた実験は、TAMTRLが強いベースラインを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2026-03-23T07:42:04Z) - Understanding the Role of Training Data in Test-Time Scaling [56.12341509545198]
線形回帰のための文脈内重み予測タスクを訓練した変圧器の試験時間スケーリング性能について検討した。
多様な、関連性があり、難しいタスクセットでのトレーニングが、テスト時間のスケーリングに最高のパフォーマンスをもたらすことを示す。
論文 参考訳(メタデータ) (2025-10-04T01:38:48Z) - Look Back to Reason Forward: Revisitable Memory for Long-Context LLM Agents [33.617262543252494]
本稿では、メモリ履歴全体からの選択的検索を可能にするコールバック強化メモリを備えたメモリ拡張エージェントReMemR1を提案する。
また,RLMLR(Reinforcement Learning with Multi-Level Rewards)を提案する。
論文 参考訳(メタデータ) (2025-09-27T01:36:46Z) - Mixture of Contexts for Long Video Generation [72.96361488755986]
我々は長文ビデオ生成を内部情報検索タスクとして再放送する。
本稿では,学習可能なスパークアテンション・ルーティング・モジュールであるMixture of Contexts (MoC) を提案する。
データをスケールしてルーティングを徐々に分散させていくと、そのモデルは計算を適切な履歴に割り当て、アイデンティティ、アクション、シーンを数分のコンテンツで保存する。
論文 参考訳(メタデータ) (2025-08-28T17:57:55Z) - Superposition Prompting: Improving and Accelerating Retrieval-Augmented Generation [22.124234811959532]
大きな言語モデル(LLM)は、長いコンテキストを処理する際に大きな欠点を示す。
本稿では,事前学習したトランスフォーマーベースLLMに直接適用可能な新しいRAGプロンプト手法を提案する。
我々は,様々な質問応答ベンチマークにおいて,時間効率を同時に向上する手法の能力を実証する。
論文 参考訳(メタデータ) (2024-04-10T11:03:17Z) - Decoupling Knowledge from Memorization: Retrieval-augmented Prompt
Learning [113.58691755215663]
一般化と記憶のバランスをとるためにRetroPromptを開発した。
バニラプロンプト学習とは対照的に、RetroPromptはトレーニングインスタンスからオープンブックナレッジストアを構築する。
大規模な実験により、RetroPromptは、数ショットとゼロショットの両方で、より良いパフォーマンスを得ることができることが示されている。
論文 参考訳(メタデータ) (2022-05-29T16:07:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。