論文の概要: Control-Plane Placement Shapes Forgetting: An Architectural Study of Agent Memory Across Thirteen System Configurations
- arxiv url: http://arxiv.org/abs/2606.15903v2
- Date: Tue, 16 Jun 2026 06:16:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-17 15:01:46.81132
- Title: Control-Plane Placement Shapes Forgetting: An Architectural Study of Agent Memory Across Thirteen System Configurations
- Title(参考訳): 制御平面配置形状の予測:13システム構成におけるエージェント記憶のアーキテクチャ的研究
- Authors: Dongxu Yang,
- Abstract要約: ForgetEvalは1000ケースのテンプレート・スイートと385ケースの対向層(手作り+253 LLMのオラクル・バリデーション)
決定論的プリミティブは語彙的・時間的カテゴリーで十分だが、正準化に失敗する。
1000ケースのテンプレートスイートと385ケースの反対層であるForgetEvalを通じて、トレードオフを公開しています。
- 参考スコア(独自算出の注目度): 1.2763567932588586
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Where an LLM sits in an agent memory pipeline -- between the recall plane that retrieves stored facts (extensively benchmarked) and the control plane that mutates them via supersede, release, purge (largely untested) -- shapes which forgetting failure modes the system recovers. Comparing thirteen system configurations on a 385-case adversarial surface, we observe three placement regimes with partly complementary coverage: deterministic primitives suffice for lexical/temporal categories but fail canonicalization (5% on identifier-obfuscation, 0% on cross-lingual); inscribe-time LLM recovers canonicalization (100%) but cannot help intent-aware deletion (0% on prefix-collision and compound-fact); a mutation-time hook recovers intent-aware deletion (78-85%) and brightens nearly all categories simultaneously (91.7-93.2% overall, $0.17 per 385-case run, 2.3s/case mutation latency vs. 64-191ms/case deterministic, recall path unchanged). We expose the trade-off via ForgetEval, a 1000-case templated suite plus a 385-case adversarial layer (132 hand-crafted + 253 LLM-drafted oracle-validated) scored by deterministic substring match, paired with a six-method Adapter Protocol with honest N/A scoring that lets heterogeneous memory stores enter in 130 lines. Admission is corroborated by 10-annotator IAA (Fleiss' kappa = 0.958) and a 77-case external-authored subset (four blind contributors) that replicates the canonicalization asymmetry and amplifies the joint-placement lift (+27.8 pt). Production failures are predominantly forgetting failures rather than recall failures, yet existing benchmarks measure only recall. ForgetEval and all adapters are released under MIT.
- Abstract(参考訳): LLMがエージェントメモリパイプラインに -- 格納された事実を検索するリコールプレーン(広範囲にベンチマークされた)と、それらをスーパーセデス、リリース、パージ(主にテストされていない)によって変更するコントロールプレーンの間に - システムが回復する障害モードを忘れる形状がある。
13のシステム構成を385ケースの対向面上で比較したところ、決定論的プリミティブは語彙的/時間的カテゴリで十分だが、正準化に失敗する(識別子難読化では5%、言語横断では0%)、インスクライブ時LCMは正準化(100%)を回復するが、意図認識の削除を助けることができない(プレフィックスと複合物では0%)、突然変異時フックは意図認識の削除を回復し(78-85%)、ほぼすべてのカテゴリを同時に明るくする(91.7-93.2%)、全体の385ケース当たり0.17ドル、変時潜時(64.1-19.19)、リコールパスは変更されない。
私たちはForgetEvalを通じて、1000ケースのテンプレートスイートと385ケースの逆数層(手作り+253 LLMで描画されたオラクルバリデーション)を、決定論的サブストリングマッチによってスコア付けし、素直なN/Aスコアリングを備えた6メソッドのAdapter Protocolと組み合わせて、130行のメモリストアを入力できるようにします。
10-アノテータIAA (Fleiss' kappa = 0.958) と77ケースの外部認可サブセット(4つの盲目のコントリビュータ)が共役し、カノニゼーション非対称性を再現し、関節配置リフト(+27.8 pt)を増幅する。
運用上の障害は主に障害をリコールするのではなく,障害を忘れるものですが,既存のベンチマークではリコールのみを測定しています。
ForgetEvalとすべてのアダプタはMITでリリースされている。
関連論文リスト
- Layer-Isolated Evaluation: Gating the Deterministic Scaffold of a Production LLM Agent with a No-LLM, Regression-Locked Test Harness [45.148328075418156]
デプロイされた注文エージェントは、階層の固定された分類に分解される。
純粋なスイートは、ロックされたスライス単位のベースラインに対して、すべての変更でCIで動作する。
制御されたレグレッションインジェクションにより、安全でない7つの層に一度に1つの層を分解し、検証する。
論文 参考訳(メタデータ) (2026-06-10T05:55:13Z) - Decision-Aware Memory Cards: Counterfactual-Inspired Context Selection and Compression for Tool-Using LLM Agents [3.964533007623828]
CICLは、インスタンスエビデンスをコンテキストグラフに変換し、決定論的、オプス支援、Qwen、Codex/GPT-5.5、Qwen-QLoRAの判断をルートする。
CICLは、その限界を露出しながら、具体的なオープンベンチマークゲインを得る。
論文 参考訳(メタデータ) (2026-06-06T13:02:28Z) - Distributional Energy-Based Models for Uncertainty-Aware Structured LLM Reasoning [40.342912574072024]
大規模言語モデルは、旅行計画やコードソリューションのような構造化されたアウトプットを生成する。
個々の推論ステップは正しく見えるが、アウトプット全体が予算に違反したり、テストケースに失敗したり、あるいは以前の推論に矛盾することがある。
構造化LCM出力の検証のための決定論的解析制約付き学習品質スコアラを提案する。
論文 参考訳(メタデータ) (2026-05-15T17:08:27Z) - Human-Inspired Memory Architecture for LLM Agents [0.9507070656654629]
6つの認知機構からなる生体記憶アーキテクチャを提案する。
各メカニズムは、単純メモリ蓄積の特定の障害モードに対処する。
S層スケール(50セッション)では、デダップベースのコンソリデーションにより、好みのリコールが+13.3pp向上する。
論文 参考訳(メタデータ) (2026-05-08T22:52:37Z) - WiCER: Wiki-memory Compile, Evaluate, Refine Iterative Knowledge Compilation for LLM Wiki Systems [0.0]
我々は17のRepLiQAドメイン間のコンパイルギャップを特徴付ける(6,800の質問)。
本稿では,このギャップを埋める反例誘導抽象化改良(CEGAR)にインスパイアされた反復アルゴリズムであるWiCERを提案する。
全17項目のアブレーションにより、汎用ピンニング(+0.16)ではなく、ターゲット診断(+0.95)がゲインを駆動していることが確認された。
論文 参考訳(メタデータ) (2026-05-08T00:25:16Z) - Perturbation Dose Responses in Recursive LLM Loops: Raw Switching, Stochastic Floors, and Persistent Escape under Append, Replace, and Dialog Updates [0.0]
我々は、他のどこかで落ち着いたループを動かすのに、注入されたテキストがどれだけ必要か、そしてそれが継続するかどうかを調査する。
12,000文字の尾クリップの下では、目的地とコヒーレントな持続性台地が16%近く、ソースとバスンの脱出は36%近くで400。
4段階のファルシフィケーション・バッテリは、高線量のデスティネーションコヒーレントディップを有限水平、エンドポイント定義感度の特徴として再キャストする。
論文 参考訳(メタデータ) (2026-05-04T05:16:43Z) - ZenBrain: A Neuroscience-Inspired 7-Layer Memory Architecture for Autonomous AI Systems [51.56484100374058]
LongMemEval-500では、ZenBrainは長いコンテキストのオラクルのバイナリ・ジャッジの精度を4.5pp以内と一致させる。
ZenBrainは7層の神経科学にインスパイアされたメモリアーキテクチャである。
論文 参考訳(メタデータ) (2026-04-26T20:39:19Z) - ImplicitMemBench: Measuring Unconscious Behavioral Adaptation in Large Language Models [60.14219417402433]
LLMエージェントの既存のメモリベンチマークは、事実の明示的なリコールを評価するが、意識的な検索なしに、経験が自動的な振る舞いになる暗黙の記憶を見落としている。
IndicitMemBenchは、非宣言的メモリの標準的な認知科学のアカウントから引き出された3つの構造を通して暗黙的メモリを評価する最初の体系的なベンチマークである。
当社の300イテムスイートでは,初動採点を備えたLearning/Priming-Interfere-Testプロトコルを統一しています。
論文 参考訳(メタデータ) (2026-04-09T10:26:32Z) - CLASP: Defending Hybrid Large Language Models Against Hidden State Poisoning Attacks [48.54598003197356]
Mambaのような状態空間モデル(SSM)はトランスフォーマーの効率的な代替品として大きな注目を集めている。
HiSPAsは、最近発見された脆弱性で、敵対する文字列を通じてSSMメモリを破損させる。
この脅威に対して防御するためのCLASPモデルを紹介します。
論文 参考訳(メタデータ) (2026-03-12T17:29:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。