論文の概要: When Retrieval Metrics Mislead: Measuring Policy Signal in Long-Horizon Tool-Use Agents
- arxiv url: http://arxiv.org/abs/2606.23937v1
- Date: Mon, 22 Jun 2026 20:57:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-24 22:16:48.687949
- Title: When Retrieval Metrics Mislead: Measuring Policy Signal in Long-Horizon Tool-Use Agents
- Title(参考訳): 検索基準の誤用:長期ツール使用エージェントのポリシー信号の測定
- Authors: Tianyu Ding, Juan Pablo De la Cruz Weinstein,
- Abstract要約: Exact-matchリコールは、検索者が下流決定モデルに有用なポリシーコンテキストを提供するかどうかのプロキシとしてしばしば使用される。
本プロキシは,Qwen2.5-3B/7B分類器を用いて,タウベンチにおける事前行動ポリシー分類を行う。
- 参考スコア(独自算出の注目度): 13.484205922478163
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Exact-match retrieval recall is often used as a proxy for whether a retriever supplies useful policy context to a downstream decision model. We test this proxy for pre-action policy classification in tau-bench using Qwen2.5-3B/7B classifiers. Under gold-policy conditioning, a compact structured state improves macro-F1 over raw trajectories by 0.13-0.17 after tuning. We then replace the benchmark-designated policy clause with the top-ranked clause retrieved from decision-time context. Although the exact governing clause is retrieved at rank 1 for only 7% of airline states, the primary 3B classifier obtains macro-F1 0.58 with retrieved clauses versus 0.60 with gold clauses (Delta=-0.02, task-cluster 95% CI [-0.23,+0.21]); mismatched-policy and no-policy controls score 0.32 and 0.21. We do not detect a macro-F1 difference between retrieved and gold clauses in this configuration, although the interval remains too wide to establish non-inferiority. The same qualitative pattern appears with a second retriever and at 7B, while varying across fine-tuning configurations. These results indicate that exact-match clause recall can underestimate downstream policy utility in this benchmark setting, motivating evaluation with retrieved policies in the classification loop rather than recall alone.
- Abstract(参考訳): Exact-matchリコールは、検索者が下流決定モデルに有用なポリシーコンテキストを提供するかどうかのプロキシとしてしばしば使用される。
本プロキシは,Qwen2.5-3B/7B分類器を用いて,タウベンチにおける事前行動ポリシー分類を行う。
金政治条件下では、コンパクトな構造化状態は、チューニング後の生軌道上のマクロF1を0.13-0.17改善する。
次に、ベンチマークで指定したポリシー条項を、決定時間コンテキストから取得したトップランクの条項に置き換える。
正確な統治条項は、航空会社の7%でランク1で検索されるが、一次3B分類器は、取得された条項のマクロF1 0.58と、ゴールド条項のマクロF1 0.60(Delta=-0.02, Task-cluster 95% CI [-0.23,+0.21])、ミスマッチ・ポリティクスと非政治コントロールのスコア0.32,0.21を得る。
この構成では、取得されたと金の節間のマクロ-F1差は検出しないが、間隔が広すぎて不等式が確立できない。
同じ定性的パターンは第2のレトリバーと7Bで現れ、微調整構成によって異なる。
これらの結果から,このベンチマーク設定において,正確なマッチング節のリコールは下流ポリシーの効用を過小評価し,リコールのみではなく,分類ループで取得したポリシーによる評価を動機付ける可能性が示唆された。
関連論文リスト
- Decision-Aware Memory Cards: Counterfactual-Inspired Context Selection and Compression for Tool-Using LLM Agents [3.964533007623828]
現代の大規模言語モデル(LLM)エージェントは、行動の時点で決定に関連のある証拠を必要とする。
本稿では、事例コンテキストグラフを構築し、候補単位の決定指向ユーティリティを推定し、選択したエビデンスを型付きメモリカードに圧縮するCICLについて述べる。
CICLは、ツール使用エージェントの意思決定クリティカルコンテキストの測定、ランキング、圧縮のための実用的なレイヤを提供する。
論文 参考訳(メタデータ) (2026-06-06T13:02:28Z) - Benchmarking Recursive-Collapse Warning Claims Under Matched False-Positive Control [0.0]
再帰的なシステムは、過度な失敗が見える前に、崩壊のような状態に入ることができる。
障害が指向性テレメトリパターンに従うかどうかをテストするためのクレームバウンド型ベンチマークフレームワークであるLoopzeroを紹介した。
凍結した2つの公開アーティファクトベンチマークのブリッジを評価する。
論文 参考訳(メタデータ) (2026-05-29T20:12:42Z) - ATANT v1.1: Positioning Continuity Evaluation Against Memory, Long-Context, and Agentic-Memory Benchmarks [0.0]
ATANT v1.0は、7つの要求された特性を持つシステムプロパティとして連続性を定義した。
構造解析により、これらのベンチマークはいずれも v1.0 で定義された連続性を測定するものではないことが示される。
96%のATANT累積スコアと合わせて8.8%のLOCOMOスコアをキャリブレーションペアとして公開しています。
論文 参考訳(メタデータ) (2026-04-13T04:40:37Z) - Improving Search Agent with One Line of Code [68.58667107354253]
ツールベースのエージェント強化学習(TARL)は,検索エージェントが外部ツールと対話できるようにトレーニングするための,有望なパラダイムとして登場した。
textbfSearch textbfAgent textbfPolicy textbfOptimization (textbfSAPO)を提案する。
論文 参考訳(メタデータ) (2026-03-10T04:07:39Z) - Achieve Performatively Optimal Policy for Performative Reinforcement Learning [55.983627302691424]
本研究は,0階次FrankWolfe- (0FW) アルゴリズムを提案する。
実験結果から, 所望のPOポリシを求める場合, 既存の近似よりも0FWの方が有効であることが示唆された。
論文 参考訳(メタデータ) (2025-10-06T01:56:31Z) - Code Compliance Assessment as a Learning Problem [0.15229257192293197]
コードコンプライアンスアセスメントを機械学習(ML)問題として定式化する。
コードのコンプライアンス、非コンプライアンス、あるいは無関係に関する予測を生成します。
当社のツール Policy2Code は分類精度 (59%, 71%) と検索MSR (0.05, 0.21) を実現している。
ユーザ調査では、24%のPolicy2Code検出が、CodeBERTの7%に対して受け入れられた。
論文 参考訳(メタデータ) (2022-09-10T05:41:04Z) - Certified Error Control of Candidate Set Pruning for Two-Stage Relevance
Ranking [57.42241521034744]
本稿では、妥当性ランキングのための候補セットプルーニングの認証エラー制御の概念を提案する。
提案手法は,第1段階から抽出した候補集合を抽出し,第2段階の復位速度を向上する。
論文 参考訳(メタデータ) (2022-05-19T16:00:13Z) - Supervised Off-Policy Ranking [145.3039527243585]
オフポリシー評価(OPE)は、他のポリシーによって生成されたデータを活用して、ターゲットポリシーを評価する。
本稿では,訓練方針と既知の実績を正しくランク付けすることで,政策スコアリングモデルを学習する教師付き非政治ランキングを提案する。
本手法は,上位3つのポリシーのうち,最良と最良の双方のランク相関と性能差の両面から,強力なベースラインOPE法より優れる。
論文 参考訳(メタデータ) (2021-07-03T07:01:23Z) - Evaluating Large-Vocabulary Object Detectors: The Devil is in the
Details [107.2722027807328]
我々は、APのデフォルト実装はカテゴリー独立ではなく、適切に校正された検出器を直接報酬するものではないことを発見した。
既定の実装ではゲーム可能なメトリックが生成され、単純で非合理的な再ランクポリシーがAPを大きなマージンで改善できることが示される。
我々は,近年の大規模語彙検出の進歩をベンチマークし,新たなクラスごとの独立性評価において,多くの報告された利益が改善に結びついていないことを発見した。
論文 参考訳(メタデータ) (2021-02-01T18:56:02Z) - Doubly Robust Off-Policy Value and Gradient Estimation for Deterministic
Policies [80.42316902296832]
本研究では,行動継続時の非政治データから決定論的政策の政策値と勾配を推定する。
この設定では、密度比が存在しないため、標準重要度サンプリングとポリシー値と勾配の2倍の頑健な推定が失敗する。
異なるカーネル化アプローチに基づく2つの新しい頑健な推定器を提案する。
論文 参考訳(メタデータ) (2020-06-06T15:52:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。