論文の概要: Decision-Aware Memory Cards: Counterfactual-Inspired Context Selection and Compression for Tool-Using LLM Agents
- arxiv url: http://arxiv.org/abs/2606.08151v2
- Date: Mon, 15 Jun 2026 07:02:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-16 18:36:04.803409
- Title: Decision-Aware Memory Cards: Counterfactual-Inspired Context Selection and Compression for Tool-Using LLM Agents
- Title(参考訳): 意思決定対応メモリカード:ツール利用 LLM エージェントのコンテキスト選択と圧縮
- Authors: Xinyu Guan, Qianyang Zhao, Yuming Deng,
- Abstract要約: 現代の大規模言語モデル(LLM)エージェントは、行動の時点で決定に関連のある証拠を必要とする。
本稿では、事例コンテキストグラフを構築し、候補単位の決定指向ユーティリティを推定し、選択したエビデンスを型付きメモリカードに圧縮するCICLについて述べる。
CICLは、ツール使用エージェントの意思決定クリティカルコンテキストの測定、ランキング、圧縮のための実用的なレイヤを提供する。
- 参考スコア(独自算出の注目度): 3.964533007623828
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern large language model (LLM) agents do not simply need longer contexts; they need decision-relevant evidence at the moment of action. We study decision-aware context selection: ranking retrieved files, tests, traces, rules, and memories by their expected effect on an agent's next action rather than by semantic similarity alone. We present the Counterfactual-Inspired Context Layer (CICL), which builds an instance context graph, estimates decision-oriented utility for candidate units, and compresses selected evidence into typed memory cards. The same schema can be instantiated with hosted LLM judges, local surrogates, or lightweight rankers, making the selection protocol auditable across model choices. On 50 SWE-bench Verified file-retrieval instances, Qwen3.6-Plus reranking of BM25 top-50 candidates improves hit@1 from 0.58 to 0.78 and MRR@10 from 0.634 to 0.790, with all 2,500 judgments parseable. Controlled diagnostics show that CICL identifies action-critical evidence: removing the top-utility semantic unit reduces F1 from 0.245 to 0.000. In selected-then-compressed mode, memory cards save 44.93 tokens per query while preserving selected evidence. CICL provides a practical layer for measuring, ranking, and compressing decision-critical context for tool-using agents. Code is available at https://github.com/stephen-guan-researcher/CICL.
- Abstract(参考訳): 現代の大規模言語モデル(LLM)エージェントは、単に長いコンテキストを必要としない。
我々は、検索したファイル、テスト、トレース、ルール、記憶のランキングを、セマンティックな類似性だけでではなく、エージェントの次のアクションに対する期待効果によって研究する。
本稿では、事例コンテキストグラフを構築し、候補単位の決定指向ユーティリティを推定し、選択したエビデンスを型付きメモリカードに圧縮するCICLについて述べる。
同じスキーマは、ホストされたLLMジャッジ、ローカルサロゲート、あるいは軽量なローダでインスタンス化できるため、選択プロトコルはモデル選択間で監査可能である。
50のSWE-bench検証ファイル検索インスタンスでは、トップ50候補のQwen3.6-Plusが hit@1 を 0.58 から 0.78 に改善し、MRR@10 を 0.634 から 0.790 に改善し、2,500 の判定はすべて解析可能である。
制御された診断は、CICLが行動クリティカルな証拠を識別していることを示している: トップユーティリティセマンティックユニットを削除することで、F1を0.245から0.000に削減する。
選択された列圧縮モードでは、メモリカードはクエリ毎に44.93トークンを保存し、選択されたエビデンスを保存する。
CICLは、ツール使用エージェントの意思決定クリティカルコンテキストの測定、ランキング、圧縮のための実用的なレイヤを提供する。
コードはhttps://github.com/stephen-guan-researcher/CICLで入手できる。
関連論文リスト
- Distributional Energy-Based Models for Uncertainty-Aware Structured LLM Reasoning [40.342912574072024]
大規模言語モデルは、旅行計画やコードソリューションのような構造化されたアウトプットを生成する。
個々の推論ステップは正しく見えるが、アウトプット全体が予算に違反したり、テストケースに失敗したり、あるいは以前の推論に矛盾することがある。
構造化LCM出力の検証のための決定論的解析制約付き学習品質スコアラを提案する。
論文 参考訳(メタデータ) (2026-05-15T17:08:27Z) - MOSAIC-Bench: Measuring Compositional Vulnerability Induction in Coding Agents [2.1942030377331245]
コーディングエージェントは、しばしばプロンプト毎の安全性レビューをパスするが、それらのタスクが通常のエンジニアリングチケットに分解されると、悪用可能なコードを出荷する。
199個の3段階攻撃チェーンのベンチマークであるMOSAIC-Benchを紹介する。
9つのプロダクションコーディングエージェントが53~86%の終末ASRで無害なチケットを構成しており、全ステージで2回しか拒否しないことを示す。
論文 参考訳(メタデータ) (2026-05-05T16:38:23Z) - Security Is Relative: Training-Free Vulnerability Detection via Multi-Agent Behavioral Contract Synthesis [14.657771106188115]
脆弱性検出のためのトレーニング不要なマルチエージェントフレームワークであるPhoenixを提案する。
Phoenixは、検出をセマンティックスライダ、要求リバースエンジニア、契約審査員の3つのステージに分解する。
PrimeVul Pairedでは、Phoenix は F1 = 0.825 と Pair-Correct = 64.4% を獲得し、RASM-Vul (F1 = 0.668) と VulTrial (F1 = 0.563) を上回る。
論文 参考訳(メタデータ) (2026-04-21T03:02:34Z) - ImplicitMemBench: Measuring Unconscious Behavioral Adaptation in Large Language Models [60.14219417402433]
LLMエージェントの既存のメモリベンチマークは、事実の明示的なリコールを評価するが、意識的な検索なしに、経験が自動的な振る舞いになる暗黙の記憶を見落としている。
IndicitMemBenchは、非宣言的メモリの標準的な認知科学のアカウントから引き出された3つの構造を通して暗黙的メモリを評価する最初の体系的なベンチマークである。
当社の300イテムスイートでは,初動採点を備えたLearning/Priming-Interfere-Testプロトコルを統一しています。
論文 参考訳(メタデータ) (2026-04-09T10:26:32Z) - Deterministic Fuzzy Triage for Legal Compliance Classification and Evidence Retrieval [0.0]
法律チームはますます、大量の契約上の証拠をトリアージするために機械学習を使用している。
多くのモデルは不透明で非決定論的であり、HIPAAやNERC-CIPのようなフレームワークと整合するのは難しい。
決定論的双対エンコーダと透明なファジィトリアージバンドに基づく簡単な再現可能な代替法について検討する。
論文 参考訳(メタデータ) (2026-03-08T00:31:34Z) - GLEAN: Grounded Lightweight Evaluation Anchors for Contamination-Aware Tabular Reasoning [0.5414847001704249]
本稿では, 汚染対応プローブ, 弱スーパービジョンガバナンス, 検索推論診断, 構造化エラー属性を統合する軽量な評価プロトコルを提案する。
我々は16GBのGPU予算でTabFact、WTQをSquall、TableBench、RobuT、SciTabで評価した。
論文 参考訳(メタデータ) (2026-01-22T13:56:19Z) - Unsupervised Conformal Inference: Bootstrapping and Alignment to Control LLM Uncertainty [49.19257648205146]
生成のための教師なし共形推論フレームワークを提案する。
我々のゲートは、分断されたUPPよりも厳密で安定した閾値を提供する。
その結果は、ラベルのない、API互換の、テスト時間フィルタリングのゲートになる。
論文 参考訳(メタデータ) (2025-09-26T23:40:47Z) - Towards Effective and Efficient Non-autoregressive Decoding Using Block-based Attention Mask [74.64216073678617]
AMDはアテンションマスクを用いて隠された出力ラベルの連続ブロック内で並列NAR推論を行う。
ビームサーチアルゴリズムは、CTC、ARデコーダ、AMD確率の動的融合を利用するように設計されている。
LibriSpeech-100hrコーパスの実験では、AMDモジュールを組み込んだトリパルタイトデコーダが最大1.73倍のデコード速度比を生み出すことを示唆している。
論文 参考訳(メタデータ) (2024-06-14T13:42:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。