論文の概要: Governance Decay: How Context Compaction Silently Erases Safety Constraints in Long-Horizon LLM Agents
- arxiv url: http://arxiv.org/abs/2606.22528v1
- Date: Sun, 21 Jun 2026 14:30:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-25 17:42:41.412884
- Title: Governance Decay: How Context Compaction Silently Erases Safety Constraints in Long-Horizon LLM Agents
- Title(参考訳): 長期 LLM エージェントの安全制約をいかに消し去るか
- Authors: Shiyang Chen,
- Abstract要約: コンテクスト内ガバナンスの制約は、可視でありながら確実に従うことができ、コンパクト化によって静かに取り除くことができることを示す。
1,323話中、違反は全文脈で0%から圧縮後30%に増加する。
制約を緩和する訓練不要な緩和法である制約ピンニング(Constraint Pinning)を提案する。
- 参考スコア(独自算出の注目度): 0.4855342112648282
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern LLM agents increasingly rely on context compaction, summarization, or eviction to keep long-running sessions within a token budget. We show that this context-management layer is a safety-critical failure surface: in-context governance constraints that agents reliably obey while visible can be silently removed by compaction, causing the same agent to perform prohibited tool actions later in the session. We call this failure mode Governance Decay. We introduce ConstraintRot, a benchmark of long-horizon agent scenarios with deterministic tool-call grading, and measure compaction-induced violations across seven model families. Across 1,323 episodes, violation rises from 0% with the policy in full context to 30% after compaction, reaching 59% for some models; when the constraint survives the summary, violation remains 0%, but when it is dropped, violation reaches 38%. We further study a Compaction-Eviction Attack, in which adversarial in-context content biases the summarizer to omit a legitimate policy, and show that optimized injections defeat every evaluated model. Finally, we propose Constraint Pinning, a simple training-free mitigation that quarantines governance constraints from lossy compaction and restores violation to 0% in our benchmark. These results identify context management as a first-class governance surface for deployed LLM agents.
- Abstract(参考訳): 現代のLLMエージェントは、長期セッションをトークン予算内に保持するために、コンテキストのコンパクト化、要約、あるいは排除にますます依存している。
我々は、このコンテキスト管理層が安全クリティカルな障害面であることを示し、コンテキスト内ガバナンスの制約は、可視性のあるエージェントに確実に従わせることができ、同じエージェントがセッションの後半で禁止されたツールアクションを実行することができることを示した。
私たちはこの障害モードガバナンスをデケーと呼びます。
ConstraintRotは、決定論的ツールコールグレーディングを備えた長期水平エージェントシナリオのベンチマークであり、7つのモデルファミリーにわたる圧縮誘起違反を測定する。
1,323話中、違反はフルコンテキストで0%から圧縮後30%に増加し、一部のモデルでは59%に達する。
さらに,コンテクスト内コンテンツが要約者の偏見を逸脱して正当なポリシーを省略するコンパクト・エヴィジョン・アタックについて検討し,最適化されたインジェクションが評価されたモデル全てを破ることを示す。
最後に、Constraint Pinningを提案する。これは単純なトレーニング不要の緩和であり、ガバナンスの制約を損失のあるコンパクト化から隔離し、我々のベンチマークで違反を0%まで回復する。
これらの結果は、コンテキスト管理を、デプロイされたLLMエージェントの第一級ガバナンスサーフェスとして認識する。
関連論文リスト
- Game-Theoretic Multi-Agent Control for Robust Contextual Reasoning in LLMs [6.335875360476155]
マルチターンインタラクションにおける大規模言語モデル(LLM)は、独立した応答を生成するのではなく、進化するコンテキストを維持している。
GT-MCP(Game-Theoretic Secure Model Context Protocol)は,コンテキスト管理を閉ループ動的プロセスとして扱うコントローラ駆動型マルチエージェント手法である。
不安定性が検出されると、ロールバックベースの自己修復機構が検証済みのコンテキストを復元し、不要なフラグメントの伝播を防止する。
論文 参考訳(メタデータ) (2026-06-09T02:18:44Z) - Ghost in the Context: Measuring Policy-Carriage Failures in Decision-Time Assembly [0.0]
LLMエージェントは生のインタラクション履歴に作用せず、トランケーション、要約、並べ替え、書き換えによって組み立てられた境界決定状態に作用する。
本研究では, 局所的なLlama 3.1 8B, Qwen 2.5 7B, Mistral 7B上の障害モードについて, 正確な制約の尊重と, 組立状態の可視性の直接監査を用いて検討した。
論文 参考訳(メタデータ) (2026-05-02T18:07:42Z) - Beyond Compaction: Structured Context Eviction for Long-Horizon Agents [0.0]
本研究では,長期LLMエージェントに効果的に非有界な作業地平線を与えるコンテキスト管理方式であるContext Window Lifecycle (CWL)を提案する。
セッションが履歴を蓄積するにつれて、CWLは、完了した意味論的に認識された定義を通じて、コンテキストを予算内に保持する。
本稿では, アノテーションプロトコル, エピソードグラフ, 消去ポリシー, トークンカウントループについて記述し, 長期エージェントベンチマークによるCWLの評価を行う。
論文 参考訳(メタデータ) (2026-05-01T18:39:02Z) - PolicyBank: Evolving Policy Understanding for LLM Agents [51.86716874651299]
PolicyBankは構造化されたツールレベルの政策洞察を維持し、それらを反復的に洗練する。
PolicyBankは、人間の神託に対するギャップの最大82%を閉じている。
論文 参考訳(メタデータ) (2026-04-16T20:29:30Z) - CCTU: A Benchmark for Tool Use under Complex Constraints [66.87622847854337]
複雑な制約下での大規模言語モデル(LLM)を評価するためのベンチマークであるCCTUを紹介する。
ベンチマークは、さまざまなツール使用シナリオに対して、慎重にキュレートされ、挑戦的なテストケースが200から成っている。
ステップレベルの検証を行い、コンプライアンスを強制する実行可能な制約検証モジュールを開発する。
論文 参考訳(メタデータ) (2026-03-16T14:05:13Z) - Improving Search Agent with One Line of Code [68.58667107354253]
ツールベースのエージェント強化学習(TARL)は,検索エージェントが外部ツールと対話できるようにトレーニングするための,有望なパラダイムとして登場した。
textbfSearch textbfAgent textbfPolicy textbfOptimization (textbfSAPO)を提案する。
論文 参考訳(メタデータ) (2026-03-10T04:07:39Z) - Safe and Compliant Cross-Market Trade Execution via Constrained RL and Zero-Knowledge Audits [0.5586191108738564]
本稿では、厳格なコンプライアンスの実施と実行品質のバランスをとるクロスマーケットアルゴリズムトレーディングシステムを提案する。
アーキテクチャは、高レベルプランナー、強化学習実行エージェント、独立コンプライアンスエージェントを含む。
対t検定による95%信頼度レベルへの影響を報告し,CVaRによる尾部リスクの検討を行った。
論文 参考訳(メタデータ) (2025-10-06T15:52:12Z) - Hallucinated Adversarial Control for Conservative Offline Policy
Evaluation [64.94009515033984]
本研究では,環境相互作用のオフラインデータセットが与えられた場合,政策のパフォーマンスを低く抑えることを目的とした,保守的非政治評価(COPE)の課題について検討する。
本稿では,遷移力学の不確実性を考慮した学習モデルに基づくHAMBOを紹介する。
結果のCOPE推定値が妥当な下界であることを証明し、正則性条件下では、真に期待された戻り値への収束を示す。
論文 参考訳(メタデータ) (2023-03-02T08:57:35Z) - Penalized Proximal Policy Optimization for Safe Reinforcement Learning [68.86485583981866]
本稿では、等価な制約のない問題の単一最小化により、煩雑な制約付きポリシー反復を解決するP3Oを提案する。
P3Oは、コスト制約を排除し、クリップされたサロゲート目的による信頼領域制約を除去するために、単純なyet効果のペナルティ関数を利用する。
P3Oは,一連の制約された機関車作業において,報酬改善と制約満足度の両方に関して,最先端のアルゴリズムより優れていることを示す。
論文 参考訳(メタデータ) (2022-05-24T06:15:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。