論文の概要: Plans Don't Persist: Why Context Management Is Load Bearing for LLM Agents
- arxiv url: http://arxiv.org/abs/2606.22953v1
- Date: Mon, 22 Jun 2026 07:30:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-25 03:20:34.871308
- Title: Plans Don't Persist: Why Context Management Is Load Bearing for LLM Agents
- Title(参考訳): LLMエージェントにコンテキスト管理が負荷負担になる理由
- Authors: Aman Mehta, Anupam Datta,
- Abstract要約: エージェントクリティカルな情報は永続性よりもコンテキスト依存的であることを示す。
このコントリビューションは、エージェントクリティカルな情報が永続性よりもコンテキスト依存的であることを示す測定およびストレステストフレームワークである。
- 参考スコア(独自算出の注目度): 3.4511611443217802
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Long-horizon agents depend on context management: systems compress, summarize, and evict old tokens so tasks can continue beyond finite windows. That is safe only when dropped information is no longer needed or has been internalized. Plans are the stress case: they are written early, used for many steps, and first to be evicted. We introduce replay pairing, a diagnostic that runs the same trajectory with and without the plan in history and measures hidden-state cosine distance. On Llama-3.1-70B, plan signal spikes to 0.453 one step after the plan, then falls 4.1x in a single action-observation step; HotpotQA falls 12.4x. This is evidence that standard LLM agents do not carry plans forward as persistent state, and instead depend on the plan remaining in context. A layer-L32 probe detects this decay as a diagnostic, not as proof that it reads plan content itself. Reasoning models add a measurement confound: their `<think>` traces re-derive plan content, so standard stripping leaves plan evidence in the stripped condition. We name this the reasoning-trace confound and fix it with strict stripping, which removes prior `<think>` blocks from the stripped run only. It recovers +163% of the step+1 signal in-sample and +153% held out, while not meaningfully changing non-reasoning Llama (+4.8%). On DeepSeek-R1-Distill-Llama-70B, a Llama-trained probe transfers at AUROC 0.748 (p=6e-4), while R1-specific probes reach 1.000, suggesting R1 encodes plan signal in a different hidden-state direction. Finally, a compression stress test shows the practical cost: naive plan eviction cuts ALFWorld success by 34.7pp, while probe-gated re-surfacing does not recover it. The contribution is a measurement and stress-test framework showing that agent-critical information can be context-resident rather than persistent. Context management is load bearing, but plan protection alone is not enough.
- Abstract(参考訳): システムは古いトークンを圧縮、要約、削除し、タスクが有限ウィンドウを超えて継続できるようにします。
これは、ドロップされた情報がもはや必要または内部化されていない場合にのみ安全である。
計画はストレスケースで、早期に書かれ、多くのステップで使用され、最初に取り除かれます。
リプレイペアリング(replay pairing, replay pairing)は, 歴史的計画と無計画で同じ軌道を走行し, 隠れ状態のコサイン距離を測定する診断法である。
Llama-3.1-70Bでは、プラン信号は1ステップ後に0.453にスパイクし、単一のアクション観測ステップで4.1倍、HotpotQAは12.4倍に低下する。
これは、標準LLMエージェントが永続状態として計画を実行せず、コンテキストに残る計画に依存している証拠である。
層状L32プローブは、この崩壊を診断として検出する。
their `<think>` traces re-derive plan content, so so standard stripping leaves plan evidence in the stripped condition. 例: 例: 例: 例: 例: 例: 例: 例: 例: 例: 例: 例: 例: 例: 例: 例: 例: 例: 例: 例: 例: 例: 例: 例: 例: 例: 例: 例: 例: 例: 例: 例: 例: 例: 例: 例: 例: 例: 例: 例: 例: 例: 例: 例: 例: 例: 例: 例: 例: 例: 例: 例: 例: 例: 例: 例: 例 例: 例: 例: 例
厳格なストリップで修正することで、削除された実行のみから以前の `<think>`ブロックを削除します。
ステップ+1シグナルの+163%をアンサンブルで、+153%をホールドアウトするが、非共振性Llama(+4.8%)は有意に変化しない。
DeepSeek-R1-Distill-Llama-70Bでは、Llamaで訓練されたプローブがAUROC 0.748 (p=6e-4)で転送され、R1固有のプローブは10,000に達した。
最後に、圧縮応力試験は実用的なコストを示す: 単純計画の排除はALFWorldの成功を34.7pp削減するが、プローブゲートによる再浮上はそれを回復しない。
このコントリビューションは、エージェントクリティカルな情報が永続性よりもコンテキスト依存的であることを示す測定およびストレステストフレームワークである。
コンテキスト管理はロードベアリングですが、計画の保護だけでは不十分です。
関連論文リスト
- When Agents Commit Too Soon: Diagnosing Premature Commitment in LLM Agents [0.0]
長い答えのLSMエージェントは静かに失敗する可能性があり、彼らは証拠を早期に読み上げ、残りの期間をその証拠を守るのに費やした。
我々は、表現的コミットメントを、固定された推論ステップにおいて、クロスランな隠れ状態収束として定義する。
ランタイムモニタは、AUROCの隠れ状態から0.97までの不整合軌道を検出する(より厳密なスプリットの下で0.85-0.88)。
論文 参考訳(メタデータ) (2026-06-22T07:13:13Z) - Control-Plane Placement Shapes Forgetting: An Architectural Study of Agent Memory Across Thirteen System Configurations [1.2763567932588586]
ForgetEvalは1000ケースのテンプレート・スイートと385ケースの対向層(手作り+253 LLMのオラクル・バリデーション)
決定論的プリミティブは語彙的・時間的カテゴリーで十分だが、正準化に失敗する。
1000ケースのテンプレートスイートと385ケースの反対層であるForgetEvalを通じて、トレードオフを公開しています。
論文 参考訳(メタデータ) (2026-06-14T16:32:15Z) - AEGIS: A Backup Reflex for Physical AI [0.0]
AEGISは、弱い政策の凍結活性化に対する軽量プローブを用いて高リスクステップを検出する選択的エスカレーション手法である。
プローブがステップをフラグすると、コントロールはより強力な分離ポリシーに切り替わるが、必要なステップのみに限られる。
LIBERO-Spatialでは、AIGISは10.1%のトラジェクトリを回復し、弱い政策だけでは負け、予算に適合したブラインドエスカレーションは4.6%、ランダムトリガーのプラセボは5.1%である。
論文 参考訳(メタデータ) (2026-06-04T19:09:22Z) - PRISM: : Planning and Reasoning with Intent in Simulated Embodied Environments [59.07829883257003]
5つの集合住宅の上に建設され、PRISMは300の人間認証タスクを3つの能力レベルに構成する。
PRISMはエージェントに依存しない実行可能なアクションAPIを公開し、任意のエージェントをエンドツーエンドで評価できるようにする。
論文 参考訳(メタデータ) (2026-05-12T04:59:47Z) - Long-Horizon Manipulation via Trace-Conditioned VLA Planning [55.80061850746898]
LoHo-Manipは、短い水平VLA実行を専用のタスク管理VLMを介して長い水平命令にスケールするフレームワークである。
LoHo-Manipは、サブタスクシーケンスと明示的な完了+残り分割を軽量言語メモリとして組み合わせた、進捗対応の残計画を予測する。
実行器VLAは、レンダリングされたトレースの条件に適合し、長い水平決定を繰り返しローカル制御に変換する。
論文 参考訳(メタデータ) (2026-04-23T17:59:04Z) - Traversal-as-Policy: Log-Distilled Gated Behavior Trees as Externalized, Verifiable Policies for Safe, Robust, and Efficient Agents [18.383906296536185]
Traversal-as-Policy: サンドボックス化されたOpenHandsの実行ログを単一の実行可能なGated Behavior Tree (GBT)に蒸留する
各ノードは状態条件のアクションマクロを符号化し、成功した軌道からマージチェックを行う。
実行時に、軽量なトラバーサは、子マクロに対するベースモデルの意図と一致します。
論文 参考訳(メタデータ) (2026-01-30T16:25:08Z) - Reading Between the Lines: Abstaining from VLM-Generated OCR Errors via Latent Representation Probes [79.36545159724703]
隠れ状態や注目パターンの軽量プローブを学習するためのLRP(Latent Representation Probing)を提案する。
LRPは、ベストベースラインよりも吸音精度を7.6%向上させる。
これにより、デプロイメント対応AIシステムを構築するための原則化されたフレームワークが確立される。
論文 参考訳(メタデータ) (2025-11-25T00:24:42Z) - Backdoor Collapse: Eliminating Unknown Threats via Known Backdoor Aggregation in Language Models [75.29749026964154]
Ourmethodは、複数のベンチマークで平均的な攻撃成功率を4.41%に下げる。
クリーンな精度と実用性はオリジナルのモデルの0.5%以内に保存される。
防衛はさまざまな種類のバックドアをまたいで一般化し、実際のデプロイメントシナリオにおける堅牢性を確認します。
論文 参考訳(メタデータ) (2025-10-11T15:47:35Z) - Denial-of-Service Poisoning Attacks against Large Language Models [64.77355353440691]
LLMはDenial-of-Service(DoS)攻撃に対して脆弱で、スペルエラーや非意味的なプロンプトが[EOS]トークンを生成することなく、無限のアウトプットをトリガーする。
本研究では, LLM に対する毒素を用いた DoS 攻撃について提案し, 1 つの毒素を注入することで, 出力長の限界を破ることができることを示した。
論文 参考訳(メタデータ) (2024-10-14T17:39:31Z) - Tree-Planner: Efficient Close-loop Task Planning with Large Language Models [63.06270302774049]
Tree-Plannerは、大きな言語モデルでタスクプランニングを3つの異なるフェーズに再構成する。
Tree-Plannerは高い効率を維持しながら最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-10-12T17:59:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。