論文の概要: Self-Compacting Language Model Agents
- arxiv url: http://arxiv.org/abs/2606.23525v1
- Date: Mon, 22 Jun 2026 16:08:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-24 18:29:34.433094
- Title: Self-Compacting Language Model Agents
- Title(参考訳): 自己計算型言語モデルエージェント
- Authors: Tianjian Li, Jingyu Zhang, William Jurayj, Xi Wang, Chuanyang Jin, Mehrdad Farajtabar, Eric Nalisnick, Daniel Khashabi,
- Abstract要約: SelfCompactは、モデル自体がいつ、どのようにコンパクトになるかを決定できる足場である。
微調整や外部の監督なしに、効果的な適応圧縮を付与する。
以上の結果から,SelfCompactはトークンコストのごく一部で,固定区間の要約と一致するか,あるいは超えていることがわかった。
- 参考スコア(独自算出の注目度): 44.3231488987671
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Long agent traces composed of chains of thought and tool calls accumulate stale content that anchor subsequent generations, and eventually outgrow the context window. Existing scaffolds mitigate it with fixed-interval compaction triggered at a token threshold. Such triggers pay no heed to trajectory structure, risking discard of partial results mid-derivation or mid-search. We propose SelfCompact, a scaffold that allows the model itself to decide when and how to compact. Specifically, it pairs two inference-time elements: (i) a compaction tool the model invokes to summarize the accumulated context, and (ii) a lightweight rubric specifying when to fire (a sub-task has resolved, or the trajectory is converging) and when to suppress (mid-derivation, or when stuck). Both are needed. The tool alone is unevenly used across open-weight models, often invoked at unhelpful moments or not at all; the rubric alone cannot act. Together, they elicit effective adaptive compaction without any fine-tuning or external supervision. We present empirical results on six benchmarks (competitive math and agentic search) and seven models. Our results show that SelfCompact matches or exceeds fixed-interval summarization at a fraction of the token cost, improving over a no-summarization baseline by up to 18.1 points on math and 5-9 points on agentic search at 30-70% lower per-question cost. Our results expose a meta-cognitive gap: although unprompted models cannot reliably tell when their own context is rotting, a lightweight rubric closes this gap, reframing when to compact as a capability that scaffolds can supply without training.
- Abstract(参考訳): 長いエージェントトレースは思考の連鎖とツールコールで構成され、次の世代をアンカーする古いコンテンツを蓄積し、最終的にはコンテキストウィンドウを上回ります。
既存の足場はトークンしきい値でトリガーされる固定間隔圧縮でそれを緩和する。
このようなトリガーは軌道構造を損なうことなく、偏見中または調査中の部分的な結果の破棄を危険にさらす。
モデル自体がいつ、どのようにコンパクトになるかを判断できる足場であるSelfCompactを提案する。
具体的には、2つの推論時間要素をペアにします。
i) 蓄積したコンテキストを要約するためにモデルが呼び出す圧縮ツール、及び
二 発火の時期(サブタスクの解決、又は軌道の収束)及び弾圧の時期(派生中期、又は停止時)を定める軽量のルーリック。
どちらも必要です。
ツール単独は、オープンウェイトモデルで不均一に使用され、しばしば不愉快な瞬間に呼び出されるが、全く使われない。
それらは共に、微調整や外部の監督なしに、効果的な適応的コンパクト化をもたらす。
6つのベンチマーク(競合数学とエージェントサーチ)と7つのモデルについて実験結果を示す。
以上の結果から,SelfCompactはトークンコストのごく一部で一定間隔の要約と一致し,算数では18.1ポイント,エージェントサーチでは5-9ポイントに向上した。
我々の結果はメタ認知のギャップを浮き彫りにしている: 提案されていないモデルは、自分たちのコンテキストがいつ腐っているのかを確実に把握できないが、軽量のルーリックはこのギャップを閉じ、足場が訓練なしで供給できる能力としてコンパクトにするかを見極めている。
関連論文リスト
- Masking Stale Observations Helps Search Agents -- Until It Doesn't: A Regime Map and Its Mechanism [23.342723567214733]
ロングホライゾン検索エージェントは多くのツールコールにまたがって大量の検索コンテンツを蓄積する。
オフラインおよびライブWebエージェント検索ベンチマークにおいて,様々なエージェントバックボーンと3つのレトリバーを網羅し,観察マスキングについて検討した。
マスキングによる精度向上は,文脈管理なしでモデルの精度に対してプロットした場合,非対称な逆U形状に追従することがわかった。
論文 参考訳(メタデータ) (2026-05-29T22:51:58Z) - Three Roles, One Model: Role Orchestration at Inference Time to Close the Performance Gap Between Small and Large Agents [0.4666493857924357]
複雑なマルチステップ環境において,推論時足場のみに追加のトレーニング計算を使わずに,小さなモデルの性能を向上させることができるかどうかを検討した。
我々は,AppWorldベンチマークのQwen3-8Bを,完全精度と4ビット量子化構成の両方で評価した。
本格的な推測では、私たちの足場付き8Bモデルは、オリジナルのAppWorld評価からDeepSeek-Coder 33Bインストラクション(7.1%)を上回っています。
論文 参考訳(メタデータ) (2026-04-13T13:40:33Z) - Label-Free Cross-Task LoRA Merging with Null-Space Compression [50.63908869296697]
我々は,ラベルフリーで出力に依存しない手法であるNull-Space Compression (NSC) Mergingを紹介した。
NSCは、従来のメソッドがタスクのサブセットに収まるバランスの取れたゲインを持つ20の異種視覚タスクに対して、最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2026-03-27T11:34:41Z) - On the Collapse of Generative Paths: A Criterion and Correction for Diffusion Steering [29.633206995806542]
インタイムステアリングにより、事前トレーニングされた拡散/フローモデルを、再トレーニングせずに新しいタスクに適合させることができる。
この構造には批判的かつ以前は形式化されていなかった障害モード(Marginal Path Collapse)がある。
本稿では,Feynman-Kac ステアリングを時間変化指数に拡張する Adaptive path Correction with Exponents (ACE) を提案する。
論文 参考訳(メタデータ) (2025-12-11T06:44:08Z) - Multi-Level Collaboration in Model Merging [56.31088116526825]
本稿では,モデルマージとモデルアンサンブルの本質的な関係について考察する。
これまでの制限が満たされていない場合でも、モデルのマージによって、アンサンブルと同じような、ほぼ同一かつ優れたパフォーマンスを達成する方法がまだ存在することが分かっています。
論文 参考訳(メタデータ) (2025-03-03T07:45:04Z) - Noisy Correspondence Learning with Self-Reinforcing Errors Mitigation [63.180725016463974]
クロスモーダル検索は、実際は精力的な、十分に整合した大規模データセットに依存している。
我々は、新しい雑音対応学習フレームワーク、textbfSelf-textbfReinforcing textbfErrors textbfMitigation(SREM)を導入する。
論文 参考訳(メタデータ) (2023-12-27T09:03:43Z) - Single-Stage Visual Relationship Learning using Conditional Queries [60.90880759475021]
TraCQは、マルチタスク学習問題とエンティティペアの分布を回避する、シーングラフ生成の新しい定式化である。
我々は,DETRをベースとしたエンコーダ-デコーダ条件付きクエリを用いて,エンティティラベル空間を大幅に削減する。
実験結果から、TraCQは既存のシングルステージシーングラフ生成法よりも優れており、Visual Genomeデータセットの最先端の2段階メソッドを多く上回っていることがわかった。
論文 参考訳(メタデータ) (2023-06-09T06:02:01Z) - Understanding and Mitigating Spurious Correlations in Text
Classification with Neighborhood Analysis [69.07674653828565]
機械学習モデルは、トレーニングセットに存在するが一般的な状況では当てはまらない急激な相関を利用する傾向にある。
本稿では, 周辺分析と呼ばれる新しい視点から, 突発的相関がもたらす意味について考察する。
本稿では,テキスト分類における素早い相関を緩和する正規化手法であるNFL(doN't Forget your Language)を提案する。
論文 参考訳(メタデータ) (2023-05-23T03:55:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。