論文の概要: Decision-Aware Memory Cards: Counterfactual-Inspired Context Selection and Compression for Tool-Using LLM Agents
- arxiv url: http://arxiv.org/abs/2606.08151v1
- Date: Sat, 06 Jun 2026 13:02:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:05.874984
- Title: Decision-Aware Memory Cards: Counterfactual-Inspired Context Selection and Compression for Tool-Using LLM Agents
- Title(参考訳): 意思決定対応メモリカード:ツール利用 LLM エージェントのコンテキスト選択と圧縮
- Authors: Xinyu Guan, Qianyang Zhao, Yuming Deng,
- Abstract要約: CICLは、インスタンスエビデンスをコンテキストグラフに変換し、決定論的、オプス支援、Qwen、Codex/GPT-5.5、Qwen-QLoRAの判断をルートする。
CICLは、その限界を露出しながら、具体的なオープンベンチマークゲインを得る。
- 参考スコア(独自算出の注目度): 3.964533007623828
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Tool-using LLM agents often fail not because relevant text is absent, but because decisive evidence is not selected, compressed, or surfaced at action time. We present CICL, a decision-aware context layer that turns instance evidence into a context graph, routes deterministic, Opus-assisted, Qwen, Codex/GPT-5.5, and Qwen-QLoRA judgments through a shared eight-field schema, scores units by action shift, outcome uplift, necessity, and negative-transfer risk, and packs high-utility evidence as typed memory cards for a budgeted agent. The design separates the measured decision signal from the judge model, so frontier annotation, local surrogates, and lightweight rankers can be compared under one auditable protocol. Empirically, CICL yields a concrete open-benchmark gain while exposing its limits. On 50 SWE-bench Verified file-retrieval instances, direct Qwen3.6-plus reranking of BM25 top-50 candidates raises hit@1 from 0.58 to 0.78 and MRR@10 from 0.634 to 0.790, with all 2,500 judgments parseable. Controlled diagnostics show action-criticality: at budget 120, CICL reaches F1 0.620 on v1 and 0.425 on v3, and removing the top-utility semantic v3 unit collapses F1 to 0.000. Supplementary checks add Qwen-QLoRA agreement over 710 candidates, a small 200-label real-code Opus-assisted signal, and a three-instance patch smoke validating retrieval-to-patch plumbing without claiming official SWE-bench success. RepoBench-R summaries still beat cards, and compact rankers do not yet replace the heuristic. CICL contributes a reproducible measurement and selection layer for decision-critical context, not an end-to-end coding-agent repair claim.
- Abstract(参考訳): ツールを使用するLLMエージェントは、関連するテキストが欠落しているためではなく、決定的な証拠が選択、圧縮、またはアクション時に表面化されないため失敗することが多い。
提案するCICLは,ケースエビデンスをコンテキストグラフに変換し,経路決定性,オプス支援,Qwen,Codex/GPT-5.5,Qwen-QLoRA判定を共有8フィールドスキーマで行い,アクションシフト,結果アップリフト,必要,ネガティブトランスファーリスクによる単位をスコアし,予算エージェントの型付きメモリカードとして高ユーティリティエビデンスをパッケージ化する。
この設計では、測定された決定信号を判定モデルから分離するため、フロンティアアノテーション、ローカルサロゲート、軽量ローダを1つの監査可能なプロトコルで比較することができる。
実証的に、CICLは、その限界を露出しながら、具体的な開ベンチマークゲインを得る。
50 SWE-bench Verified file-retrievalインスタンスでは、BM25トップ50候補のQwen3.6以上の再ランクが、 hit@1 を 0.58 から 0.78 に、MRR@10 を 0.634 から 0.790 に引き上げ、2,500 の判定を解析できる。
予算120では、CICLはv1でF1 0.620、v3で0.425に達し、トップユーティリティのセマンティックv3ユニットはF1から0.000に崩壊する。
追加チェックでは、710の候補に対してQwen-QLoRA合意、200ラベルのOpusアシスト信号、および3つのインスタンスパッチが、公式なSWEベンチ成功を主張することなく、検索とパッチの配管を検証している。
RepoBench-Rのサマリーは依然としてカードに勝っているが、コンパクトなローダはまだヒューリスティックを置き換えていない。
CICLは、エンドツーエンドのコーディングエージェント修復クレームではなく、決定クリティカルなコンテキストに対して再現可能な測定層と選択層を提供しています。
関連論文リスト
- Distributional Energy-Based Models for Uncertainty-Aware Structured LLM Reasoning [40.342912574072024]
大規模言語モデルは、旅行計画やコードソリューションのような構造化されたアウトプットを生成する。
個々の推論ステップは正しく見えるが、アウトプット全体が予算に違反したり、テストケースに失敗したり、あるいは以前の推論に矛盾することがある。
構造化LCM出力の検証のための決定論的解析制約付き学習品質スコアラを提案する。
論文 参考訳(メタデータ) (2026-05-15T17:08:27Z) - MOSAIC-Bench: Measuring Compositional Vulnerability Induction in Coding Agents [2.1942030377331245]
コーディングエージェントは、しばしばプロンプト毎の安全性レビューをパスするが、それらのタスクが通常のエンジニアリングチケットに分解されると、悪用可能なコードを出荷する。
199個の3段階攻撃チェーンのベンチマークであるMOSAIC-Benchを紹介する。
9つのプロダクションコーディングエージェントが53~86%の終末ASRで無害なチケットを構成しており、全ステージで2回しか拒否しないことを示す。
論文 参考訳(メタデータ) (2026-05-05T16:38:23Z) - Security Is Relative: Training-Free Vulnerability Detection via Multi-Agent Behavioral Contract Synthesis [14.657771106188115]
脆弱性検出のためのトレーニング不要なマルチエージェントフレームワークであるPhoenixを提案する。
Phoenixは、検出をセマンティックスライダ、要求リバースエンジニア、契約審査員の3つのステージに分解する。
PrimeVul Pairedでは、Phoenix は F1 = 0.825 と Pair-Correct = 64.4% を獲得し、RASM-Vul (F1 = 0.668) と VulTrial (F1 = 0.563) を上回る。
論文 参考訳(メタデータ) (2026-04-21T03:02:34Z) - ImplicitMemBench: Measuring Unconscious Behavioral Adaptation in Large Language Models [60.14219417402433]
LLMエージェントの既存のメモリベンチマークは、事実の明示的なリコールを評価するが、意識的な検索なしに、経験が自動的な振る舞いになる暗黙の記憶を見落としている。
IndicitMemBenchは、非宣言的メモリの標準的な認知科学のアカウントから引き出された3つの構造を通して暗黙的メモリを評価する最初の体系的なベンチマークである。
当社の300イテムスイートでは,初動採点を備えたLearning/Priming-Interfere-Testプロトコルを統一しています。
論文 参考訳(メタデータ) (2026-04-09T10:26:32Z) - Deterministic Fuzzy Triage for Legal Compliance Classification and Evidence Retrieval [0.0]
法律チームはますます、大量の契約上の証拠をトリアージするために機械学習を使用している。
多くのモデルは不透明で非決定論的であり、HIPAAやNERC-CIPのようなフレームワークと整合するのは難しい。
決定論的双対エンコーダと透明なファジィトリアージバンドに基づく簡単な再現可能な代替法について検討する。
論文 参考訳(メタデータ) (2026-03-08T00:31:34Z) - GLEAN: Grounded Lightweight Evaluation Anchors for Contamination-Aware Tabular Reasoning [0.5414847001704249]
本稿では, 汚染対応プローブ, 弱スーパービジョンガバナンス, 検索推論診断, 構造化エラー属性を統合する軽量な評価プロトコルを提案する。
我々は16GBのGPU予算でTabFact、WTQをSquall、TableBench、RobuT、SciTabで評価した。
論文 参考訳(メタデータ) (2026-01-22T13:56:19Z) - Unsupervised Conformal Inference: Bootstrapping and Alignment to Control LLM Uncertainty [49.19257648205146]
生成のための教師なし共形推論フレームワークを提案する。
我々のゲートは、分断されたUPPよりも厳密で安定した閾値を提供する。
その結果は、ラベルのない、API互換の、テスト時間フィルタリングのゲートになる。
論文 参考訳(メタデータ) (2025-09-26T23:40:47Z) - Towards Effective and Efficient Non-autoregressive Decoding Using Block-based Attention Mask [74.64216073678617]
AMDはアテンションマスクを用いて隠された出力ラベルの連続ブロック内で並列NAR推論を行う。
ビームサーチアルゴリズムは、CTC、ARデコーダ、AMD確率の動的融合を利用するように設計されている。
LibriSpeech-100hrコーパスの実験では、AMDモジュールを組み込んだトリパルタイトデコーダが最大1.73倍のデコード速度比を生み出すことを示唆している。
論文 参考訳(メタデータ) (2024-06-14T13:42:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。