論文の概要: Don't Blindly Trust It: How Unreliable Feedback Breaks Tool-Using LLM Agents
- arxiv url: http://arxiv.org/abs/2606.21409v1
- Date: Fri, 19 Jun 2026 13:21:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-25 13:37:58.588092
- Title: Don't Blindly Trust It: How Unreliable Feedback Breaks Tool-Using LLM Agents
- Title(参考訳): 信頼できないフィードバックがLLMエージェントのツールを壊す
- Authors: Chubin Zhang, Zhenglin Wan, Xingrui Yu, Pengfei Zhou, Wangbo Zhao, Jingxuan Wu, Yaxin Zhou, Ivor Tsang,
- Abstract要約: ツール強化エージェントは一般的に、信頼性のある外部フィードバックの下で利得によって評価される。
本稿では,エージェントループ,プロンプト,アクション空間,デコードを修正する制御されたマッチングループ比較を用いて,この問題を考察する。
永続的な誤解を招くフィードバックは、価値の逆転をもたらす。クリーンツールの恩恵を受けるエージェントは、マッチしたNo-feedbackフォールバックよりもパフォーマンスが悪くなります。
- 参考スコア(独自算出の注目度): 14.176782501633186
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Tool-augmented agents are typically evaluated by their gains under reliable external feedback. Yet these gains leave open a key counterfactual: when feedback is unreliable, would the agent be better off receiving no task evidence? We study this question with a controlled matched-loop comparison that fixes the agent loop, prompt, action space, and decoding, while varying only the returned observation: faithful, misleading, or absent. Across question answering and fact verification, persistent misleading feedback produces a value inversion: agents that benefit from clean tools can perform worse than the matched no-feedback fallback. On HotpotQA, Qwen2.5-7B reaches 44.8 F1 with clean retrieval and 22.3 F1 with no feedback, but drops to 4.7 F1 under shuffled retrieval. The inversion persists under stronger clean retrieval and locally plausible distractors, but weakens when later clean evidence can repair the trajectory. Early trajectory signals predict many failures, yet simple repairs remain fallback-limited: rejecting bad evidence helps only when the exposed fallback is reliable. These results show that clean-tool gains can overstate tool value, and that matched no-feedback fallback controls are necessary for evaluating tool-augmented agents.
- Abstract(参考訳): ツール強化エージェントは一般的に、信頼性のある外部フィードバックの下で利得によって評価される。
フィードバックが信頼できない場合、エージェントはタスクの証拠を受け取らない方がよいだろうか?
本研究では, エージェントループ, プロンプト, アクション空間, 復号を固定する制御されたマッチングループ比較法を用いて, 返却された観測値のみ, 忠実, 誤解, 欠落を補正する。
質問への回答と事実検証を通じて、永続的な誤解を招くフィードバックは、価値の逆転を生み出します。
ホットポットQAではQwen2.5-7Bが44.8F1、クリーン検索は22.3F1、フィードバック無しで4.7F1に達するが、シャッフル検索では4.7F1に低下する。
逆転はより強い清浄な回収と局所的な可塑性な散逸物の下で継続するが、後に清浄な証拠が軌道を修復できると弱まる。
初期の軌道信号は多くの障害を予測するが、単純な修理はフォールバックに制限される。
これらの結果から,クリーンツールゲインはツール値のオーバーステート化が可能であり,ツール拡張エージェントの評価にはフィードバックレスフォールバックコントロールが不可欠であることが示唆された。
関連論文リスト
- Closing the Reflection Gap: A Free Calibration Bonus for Agentic RL [12.234169944475537]
RefGRPOは、標準的なRLアルゴリズムを2つの重要な要素で強化する、シンプルだが効果的な修正である。
エージェント自身の反射と実際の結果とを対比して計算した自由キャリブレーションボーナス。
結果の反射は、エージェントを環境フィードバックに基づく独自の検証器に変える。
論文 参考訳(メタデータ) (2026-06-12T07:47:15Z) - HERO: Hindsight-Enhanced Reflection from Environment Observations for Agentic Self-Distillation [50.53459634301361]
HEROは、次の環境観測を局所的に整列したフィードバックとして利用する、後向きの自己蒸留フレームワークである。
HEROはタスク成功を改善し、環境フィードバックのみの自己蒸留とGRPOに対する不要なターンを減らす。
論文 参考訳(メタデータ) (2026-06-10T01:35:34Z) - RepoMirage: Probing Repository Context Reasoning in Code Agents with Perturbations [51.43574078961796]
本稿では,SWE-Bench Verified上に構築された2段階評価スイートRepoMirageを紹介する。
RepoMirage-Perturbは、リポジトリレベルの摂動を保存する3つのタイプのセマンティクスを適用している。
RepoAnchorは、下流の問題解決からリポジトリの探索を分離する構造第一のプロトタイプワークフローである。
論文 参考訳(メタデータ) (2026-05-25T06:26:43Z) - Reinforced Agent: Inference-Time Feedback for Tool-Calling Agents [6.158612515104146]
エージェントフィードバックとレビュアーフィードバックのトレードオフを測定するために、ヘルプフルネス・ハームフルネスメトリクスを導入します。
我々はBFCLとTau2-Bench(マルチターンステートフルシナリオ)に対するアプローチを評価し、無関係検出では+5.5%、マルチターンタスクでは+7.1%を達成した。
GPT-4oでは,評価モデルo3-miniが3:1の利益率と2.1:1の利益率を達成した。
論文 参考訳(メタデータ) (2026-04-29T22:09:47Z) - AgentV-RL: Scaling Reward Modeling with Agentic Verifier [63.55502685076245]
試験時間スケーリング(TTS)によるLCM推論を強化する検証器が実証されている。
本稿では,報酬モデリングを多ターンツール拡張型検討プロセスに変換するフレームワークであるエージェント検証を提案する。
Agentic Verifier は並列およびシーケンシャルTS の両方で一貫した性能向上が得られることを示す。
論文 参考訳(メタデータ) (2026-04-17T12:27:36Z) - CUE-R: Beyond the Final Answer in Retrieval-Augmented Generation [0.996038809132083]
CUE-Rは、単発RAGにおいて、エビデンス単位の操作性を測定するためのフレームワークである。
CUE-RはREMOVE、REPLACE、DUPLICATE演算子を介して個々の証拠項目を摂動し、3つのユーティリティ軸に沿って変化を測定する。
その結果,回答のみの評価は重要なエビデンス効果を見逃し,介入に基づくユーティリティ分析がRAG評価の実践的補完となることが示唆された。
論文 参考訳(メタデータ) (2026-04-07T06:05:08Z) - CARE What Fails: Contrastive Anchored-REflection for Verifiable Multimodal [84.71254539482369]
検証可能な報酬を伴うグループ相対的強化学習(RLVR)は、しばしば、すでに失敗している最も情報に富むデータを浪費する。
エラーを監督するマルチモーダル推論のための,障害中心のポストトレーニングフレームワークであるCAREを提案する。
CAREは正確さを改善し、スムーズさをトレーニングすると同時に、障害からの学習信号のシェアを明示的に増やします。
論文 参考訳(メタデータ) (2025-12-22T16:34:21Z) - PoU: Proof-of-Use to Counter Tool-Call Hacking in DeepResearch Agents [24.502121097996294]
Retrieval-augmented Generation (RAG) エージェントは、外部ツールを通じて、自律的な情報検索機能を備えた大規模言語モデルを拡張する。
以前見過ごされた障害モードであるTool-Call Hacking(ツールコールハッキング)を識別します。
提案するProof-of-Use(PoU)フレームワークは,検索された証拠,推論トレース,最終回答間の因果関係の検証を行う。
論文 参考訳(メタデータ) (2025-10-13T02:45:37Z) - EviNote-RAG: Enhancing RAG Models via Answer-Supportive Evidence Notes [39.61443457073034]
EviNote-RAGは検索ノート・アンサーのワークフローに従うフレームワークである。
生の外部情報を直接推論する代わりに、モデルが最初にサポート・エビデンス・ノートを生成する。
EviNote-RAGは最先端のパフォーマンスを実現し、回答の正確性、トレーニングの安定性、堅牢性、効率性を向上する。
論文 参考訳(メタデータ) (2025-08-31T14:44:45Z) - On the Role of Feedback in Test-Time Scaling of Agentic AI Workflows [71.92083784393418]
エージェントAI(自律的な計画と行動を行うシステム)は広く普及しているが、複雑なタスクにおけるタスクの成功率は低いままである。
推論時のアライメントは、サンプリング、評価、フィードバックの3つのコンポーネントに依存します。
本稿では,様々な形態の批判から抽出されたフィードバックを繰り返し挿入するIterative Agent Decoding(IAD)を紹介する。
論文 参考訳(メタデータ) (2025-04-02T17:40:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。