論文の概要: Knowing When to Ask: Self-Gated Clarification for Hierarchical Language Agents
- arxiv url: http://arxiv.org/abs/2606.11349v2
- Date: Fri, 12 Jun 2026 20:21:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-16 13:45:31.097819
- Title: Knowing When to Ask: Self-Gated Clarification for Hierarchical Language Agents
- Title(参考訳): 質問のタイミングを知る:階層型言語エージェントの自己学習的明確化
- Authors: Aijing Gao, Yiming Kang, Mengdie Flora Wang, Jae Oh Woo,
- Abstract要約: 階層的推論では、失敗はエージェントが間違ったブランチにコミットする中間的な決定ポイントから生じることが多い。
本稿では,エージェントの行動空間内での明確化をナビゲーションと共有順序尺度で表す定式化であるACTION-Ratingを提案する。
エージェント自身の評価から2つの構造的に異なる情報探索モードが出現する:強制的(実行可能分岐なし)と機会的(主要な候補であるにもかかわらず残留不確実性)。
- 参考スコア(独自算出の注目度): 4.309840398782996
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In hierarchical reasoning, failures often originate at intermediate decision points where the agent commits to a wrong branch without recognizing that it lacks critical information. Rather than treating clarification as an external uncertainty trigger, we propose ACTION-RATING, a formulation that places it inside the agent's action space on a shared ordinal scale with navigation, so that asking competes directly with acting at every decision point and help-seeking becomes observable at intermediate states. Two structurally distinct information-seeking modes emerge from the agent's own ratings: mandatory (no viable branch) and opportunistic (residual uncertainty despite a leading candidate). On Harmonized Tariff Schedule classification (30,000-node taxonomy, three benchmarks, 9~LLMs across 4 families), we observe a regime shift from mandatory to opportunistic clarification, with Information-Seeking Effectiveness (ISE), a local diagnostic defined as the fraction of help interactions followed by a correct next navigation step (not a final-task metric), rising from 50% to 74%. Three diagnostic contrasts fail to reproduce this structure. A separability test shows that the information-seeking pattern (mode split, ISE ranking) persists when answer quality is degraded (-18.8% accuracy), supporting an empirical separation between where an agent seeks help and the quality of the help it receives. Under the controlled answer channel, accuracy gains reach +16.2% at 10-digit; we read this as an upper bound on what better localization could unlock, not a deployment estimate.
- Abstract(参考訳): 階層的推論では、失敗はエージェントが重要な情報がないことを認識せずに間違ったブランチにコミットする中間的な決定ポイントに起因することが多い。
そこで本稿では, エージェントの行動空間内をナビゲーションと共有順序尺度で配置し, 問合せが各判定点において直接競合し, 中間状態においてはヘルプ・シーキングが観測可能であることの証明を, 外部不確実性トリガとして扱うのではなく, エージェントの行動空間内に配置する形式であるACTION-Ratingを提案する。
エージェント自身の評価から、2つの構造的に異なる情報探索モードが出現する: 強制的(実行可能分岐なし)と機会的(主要な候補にもかかわらず残留不確実性)である。
ハーモナイズド・ターゲット・スケジュール分類(3つのノードの分類,3つのベンチマーク,4つのファミリーにわたる9~LLM)では,情報探索効果 (ISE) による強制的から機会的明確化への移行が観察された。
3つの診断コントラストは、この構造を再現することができない。
分離性試験は、情報探索パターン(モード分割、ISEランキング)が、回答品質が劣化した(−18.8%の精度)ときに持続し、エージェントが助けを求める場所と、それを受ける助けの質との間の実証的な分離をサポートすることを示す。
制御された回答チャンネルでは、精度は10桁で+16.2%向上する。
関連論文リスト
- Exploring Agentic Tool-Calling Decisions via Uncertainty-Aligned Reinforcement Learning [63.24624171679711]
大規模言語モデル(LLM)ベースのエージェントは、しばしば最適なツール使用の決定を行う。
本研究では、不確実性分離を維持するための推進力として、不確実性定量化を報酬設計に組み込んだTRUSTを提案する。
論文 参考訳(メタデータ) (2026-06-05T07:08:34Z) - Don't Start What You Can't Finish: A Counterfactual Audit of Support-State Triage in LLM Agents [0.0]
本稿では, 4つのサポート状態にまたがって, 最小限のデファクト編集が同じベース要求を反転させる, 一致した診断フレームワークであるSupport-State Triage Audit(SSTA-32)を紹介する。
我々は,Dual-Persona Auto-Auditing (DPAA) を用いた4つの条件下でのフロンティアモデルの評価を行った。
論文 参考訳(メタデータ) (2026-04-17T23:54:34Z) - HiL-Bench (Human-in-Loop Benchmark): Do Agents Know When to Ask for Help? [32.54022440678003]
コーディングエージェントは、完全なコンテキストが与えられたときに複雑なタスクを解決します。
現在のベンチマークは、この障害モードに盲目です。
我々はこの選択的エスカレーションスキルを測定するためにHiL-Benchを提案する。
論文 参考訳(メタデータ) (2026-04-10T15:21:44Z) - The Confidence Gate Theorem: When Should Ranked Decision Systems Abstain? [0.0]
ランク付けされた決定システムは、いつランク付けされたアウトプットに介入するか、いつ停止するかを判断しなければならない。
信頼に基づく棄権が意思決定の質を単調に改善し、いつ失敗するかを考察する。
論文 参考訳(メタデータ) (2026-03-10T17:44:10Z) - Guideline-Grounded Evidence Accumulation for High-Stakes Agent Verification [60.18369393468405]
既存の検証器は通常、ドメイン知識の欠如と限られた校正のために性能が劣る。
GLEANは専門家によって計算されたプロトコルをトラジェクトリインフォームされ、よく校正された正当性信号にコンパイルする。
我々は,MIMIC-IVデータセットから得られた3つの疾患の薬物的臨床診断でGLEANを実証的に検証した。
論文 参考訳(メタデータ) (2026-03-03T09:36:43Z) - Decomposed Prompting Does Not Fix Knowledge Gaps, But Helps Models Say "I Don't Know" [47.930782177987446]
大規模言語モデルは、クローズドブックの質問応答において知識限界を認識するのに苦労することが多く、自信ある幻覚へと繋がる。
我々は、モデルスケールの異なるDirect、Assistive、Incrementalの3つのタスク等価プロンプトとマルチホップQAベンチマークを評価した。
幻覚が一致している間に事実知識が安定しているため、クロスレジームは内部の不確実性の正確なシグナルを与える。
論文 参考訳(メタデータ) (2026-02-04T18:39:58Z) - Eigen-1: Adaptive Multi-Agent Refinement with Monitor-Based RAG for Scientific Reasoning [53.45095336430027]
暗黙的な検索と構造化された協調を組み合わせた統合フレームワークを開発する。
Humanity's Last Exam (HLE) Bio/Chem Goldでは,48.3%の精度を実現している。
SuperGPQAとTRQAの結果はドメイン間の堅牢性を確認した。
論文 参考訳(メタデータ) (2025-09-25T14:05:55Z) - Online Decision Mediation [72.80902932543474]
意思決定支援アシスタントを学習し、(好奇心)専門家の行動と(不完全)人間の行動の仲介役として機能することを検討する。
臨床診断では、完全に自律的な機械行動は倫理的余裕を超えることが多い。
論文 参考訳(メタデータ) (2023-10-28T05:59:43Z) - A New Bandit Setting Balancing Information from State Evolution and
Corrupted Context [52.67844649650687]
本稿では,2つの確立されたオンライン学習問題と包括的フィードバックを組み合わせた,逐次的意思決定方式を提案する。
任意の瞬間にプレーする最適なアクションは、エージェントによって直接観察できない基礎となる変化状態に付随する。
本稿では,レフェリーを用いて,コンテキストブレイジットとマルチアームブレイジットのポリシーを動的に組み合わせるアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-11-16T14:35:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。