Fugu-MT 論文翻訳(概要): Exploring Agentic Tool-Calling Decisions via Uncertainty-Aligned Reinforcement Learning

論文の概要: Exploring Agentic Tool-Calling Decisions via Uncertainty-Aligned Reinforcement Learning

arxiv url: http://arxiv.org/abs/2606.06976v1
Date: Fri, 05 Jun 2026 07:08:34 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-08 14:33:29.605233
Title: Exploring Agentic Tool-Calling Decisions via Uncertainty-Aligned Reinforcement Learning
Title（参考訳）: 不確実性を考慮した強化学習によるエージェントツール計算決定の探索
Authors: Yijin Zhou, Linqian Zeng, Xiaoya Lu, Wenyuan Xie, Dongrui Liu, Junchi Yan, Jing Shao,
Abstract要約: 大規模言語モデル(LLM)ベースのエージェントは、しばしば最適なツール使用の決定を行う。本研究では、不確実性分離を維持するための推進力として、不確実性定量化を報酬設計に組み込んだTRUSTを提案する。
参考スコア（独自算出の注目度）: 63.24624171679711
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large language model (LLM)-based agents often make suboptimal tool-use decisions, including unsupported tool invocation and hallucinated direct responses, which may accumulate errors throughout multi-step interactions. Existing approaches mainly improve these behaviors through inference-time correction or coarse-grained reward signals based on decision outcomes and structured checklists, leaving the uncertainty characteristics of agent decisions underexplored. We observe that decision-oriented reinforcement learning tends to weaken the uncertainty separation between correct and incorrect actions, resulting in overconfident mistakes and weaker exploration signals. Therefore, we propose TRUST, which incorporates uncertainty quantification into reward design as a repulsive force for maintaining uncertainty separation, and labels lightweight key-turn annotations for unified post-training of multi-turn trajectories. Experimental results across diverse tool-use benchmarks show that TRUST consistently enhances both decision quality and agent performance while maintaining more reliable uncertainty estimates during optimization.
Abstract（参考訳）: 大規模言語モデル(LLM)ベースのエージェントは、多段階の相互作用を通じてエラーを蓄積するツール呼び出しや幻覚された直接応答を含む、最適なツール使用の決定を行うことが多い。既存のアプローチは主に、決定結果と構造化チェックリストに基づいて、推論時間補正や粗大な報酬信号を通じてこれらの行動を改善し、エージェント決定の不確実性特性を過小評価している。意思決定指向の強化学習は、正しい行動と間違った行動との不確実性の分離を弱める傾向にあり、過度に自信過剰な誤りとより弱い探索信号をもたらす。そこで我々は,不確実性定量化を報酬設計に組み込んだTRUSTを提案し,マルチターン軌道の統一後トレーニングのための軽量キーターンアノテーションをラベル付けする。各種ツール使用ベンチマークによる実験結果から,TRUSTは決定品質とエージェント性能を継続的に向上するとともに,最適化中に信頼性の高い不確実性評価を継続することが示された。

関連論文リスト

LLMs Should Express Uncertainty Explicitly [19.324830531710024]
モデルが最終回答の正当性スコアを口頭弁別するグローバルインターフェースと、推論中に明確な不確定なマーカーを出力するローカルインターフェースの2つの相補的インターフェースを比較した。垂直化信頼度はキャリブレーションを大幅に改善し、過信エラーを低減し、アダプティブRAGコントローラとして最強となる。推論時不確実性信号は、生成中に前もってサイレント障害を可視化し、回答のカバレッジを改善し、効果的なハイリコール検索トリガを提供する。
論文参考訳（メタデータ） (2026-04-07T01:20:29Z)
Agentic Uncertainty Quantification [76.94013626702183]
本稿では,言語化された不確実性をアクティブな双方向制御信号に変換する統合されたデュアルプロセスエージェントUQ(AUQ)フレームワークを提案する。システム1(Uncertainty-Aware Memory, UAM)とシステム2(Uncertainty-Aware Reflection, UAR)は、これらの説明を合理的な手段として利用し、必要な時にのみターゲットの推論時間解決をトリガーする。
論文参考訳（メタデータ） (2026-01-22T07:16:26Z)
Decision-Aware Trust Signal Alignment for SOC Alert Triage [0.0]
本稿では,SOC警告トリアージの信頼信号対応方式を提案する。このフレームワークは、調整済みの信頼性、軽量不確実性、そしてコストに敏感な決定しきい値をコヒーレントな決定支持層に組み合わせている。信頼度が不一致な表示によって偽陰性が大幅に増幅されるのに対し、コスト重み付き損失は決定整合信頼信号を持つモデル間での桁違いに減少することを示す。
論文参考訳（メタデータ） (2026-01-08T01:41:54Z)
Rubric-Conditioned LLM Grading: Alignment, Uncertainty, and Robustness [4.129847064263056]
ルーブリックをベースとした短問合せ学習における大規模言語モデルの性能を体系的に評価する。二つのタスクに対してアライメントは強いが、粗い粒度が増すにつれて劣化する。実験により、モデルが注射に抵抗性がある一方で、同義置換に敏感であることが判明した。
論文参考訳（メタデータ） (2025-12-21T05:22:04Z)
Structured Uncertainty guided Clarification for LLM Agents [126.26213027785813]
LLMエージェントは、ツールコール機能を備えた大きな言語モデルを拡張するが、曖昧なユーザ命令は、しばしば誤った呼び出しやタスクの失敗につながる。本稿では,ツールコールパラメータに対する構造的不確かさの定式化,完全情報の期待値(EVPI)を目標としたPOMDPのモデル化,冗長性防止のためのアスペクトベースコストモデルを提案する。我々のSAGE-Agentは、この構造化された不確実性を活用し、より優れた効率を達成するために、曖昧なタスクのカバレッジを7～39%増加させ、明確な質問を1.5～2.7$times$に減らした。
論文参考訳（メタデータ） (2025-11-11T21:50:44Z)
Uncertainty-Driven Reliability: Selective Prediction and Trustworthy Deployment in Modern Machine Learning [1.2183405753834562]
この論文は、不確実性推定が機械学習(ML)システムの安全性と信頼性を高める方法について考察する。まず、モデルのトレーニング軌道は、アーキテクチャの変更や損失を伴わずに活用できるような、豊富な不確実性信号を含むことを示す。本稿では,タスク間で動作し,深層アンサンブルのコストを回避し,最先端の選択的予測性能を実現する軽量なポストホック禁忌手法を提案する。
論文参考訳（メタデータ） (2025-08-11T02:33:53Z)
Know Where You're Uncertain When Planning with Multimodal Foundation Models: A Formal Framework [54.40508478482667]
認識と計画生成の不確実性を解消し、定量化し、緩和する包括的枠組みを提案する。本稿では,知覚と意思決定の独特な性質に合わせた手法を提案する。この不確実性分散フレームワークは, 変動率を最大40%削減し, タスク成功率をベースラインに比べて5%向上させることを示した。
論文参考訳（メタデータ） (2024-11-03T17:32:00Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。