論文の概要: Multiagent Protocols with Aggregated Confidence Signals
- arxiv url: http://arxiv.org/abs/2606.13591v1
- Date: Thu, 11 Jun 2026 17:12:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-12 15:55:27.941004
- Title: Multiagent Protocols with Aggregated Confidence Signals
- Title(参考訳): 集約信頼信号を持つマルチエージェントプロトコル
- Authors: Ali Elahi, Barbara Di Eugenio,
- Abstract要約: 信頼は、自然言語処理(NLP)における信頼性、監視、および下流決定タスクに使用される。
以前の作業では、メッセージの重み付け、議論のトリガー、個々のエージェントの校正に、マルチエージェント討論(MAD)内での信頼性を使用していた。
まず、まず、生の信頼信号を変換してモデル間で比較し、ソフト投票や確率融合によって組み合わせることで、最終的な回答を生成する3つのプロトコルを紹介します。
- 参考スコア(独自算出の注目度): 7.128020779227392
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Confidence is used for reliability, oversight, and a range of downstream decision tasks in Natural Language Processing (NLP), yet no existing method produces or evaluates a confidence for the output of a multiagent system. Prior work uses confidence within multiagent debate (MAD) to weight messages, trigger debate, or calibrate individual agents, but it never aggregates these into a single confidence for the system itself. We introduce three protocols that produce a final answer along with a single aggregated confidence by first transforming raw confidence signals to make them comparable across models, then combining them via soft voting or a probability fusion we call Bayesian fusion. This aggregated confidence is substantially more discriminative (AUARC) than that of the best single agent or the standard debate baselines, while correctness (F1-score) stays stable and recovers the losses MAD incurs on more ambiguous tasks. Analyzing two estimators, sequence probability and self-report, alongside parametric and non-parametric calibrators, we find that calibration improves F1 for both estimators while AUARC is less reliant on it. We evaluate six homogeneous and heterogeneous debating pairs per benchmark, across five benchmarks and four task types, spanning a range of model capabilities and sizes.
- Abstract(参考訳): 信頼は、自然言語処理(NLP)において、信頼性、監視、様々な下流決定タスクに使用されるが、既存の手法ではマルチエージェントシステムの出力に対する信頼を生成または評価することはない。
以前の作業では、メッセージの重み付け、議論のトリガー、個々のエージェントの校正に、マルチエージェント討論(MAD)内での信頼性を使用していた。
まず、生の信頼信号をモデル間で同等に変換し、ソフト投票やベイズ融合と呼ばれる確率融合によって組み合わせることで、最終的な回答を生成する3つのプロトコルを紹介します。
この集約された信頼度は、最高の単一エージェントや標準討論ベースラインよりもかなり差別的(AUARC)であるが、正確性(F1スコア)は安定であり、より曖昧なタスクでMADが引き起こされる損失を回復する。
パラメトリックおよび非パラメトリックキャリブレータとともに、シーケンス確率と自己報告の2つの推定器を解析したところ、AUARCはそれに依存しないのに対して、キャリブレーションは両方の推定器のF1を改善することがわかった。
5つのベンチマークと4つのタスクタイプにまたがって、モデル機能とサイズにまたがる6つの同質および異質の議論ペアを評価した。
関連論文リスト
- MARGIN: Runtime Confidence Calibration for Multi-Agent Foundation Model Coordination [0.0]
本稿では,MARGIN(Multi-Agent Grading via Incremental Normalisation)を提案する。
18の基盤モデル、8のベンチマーク、44,000以上の観測結果から、MARGINは分布シフト時の最良の設計時ベースラインよりも3-6倍低いキャリブレーション誤差を達成している。
論文 参考訳(メタデータ) (2026-05-21T18:25:05Z) - Process Supervision of Confidence Margin for Calibrated LLM Reasoning [52.373121066425455]
強化学習(RL)によるテスト時間計算のスケーリングは,大規模言語モデル(LLM)推論能力を向上させるための信頼性の高い経路として登場した。
しかし、結果に基づく報酬は、しばしばモデルに過信感を与え、幻覚、信頼できない信頼ベースの制御、不要な計算割り当てをもたらす。
本稿では,信頼性と信頼性を両立させるキャリブレーションを意識したRLフレームワークであるReinforcement Learning with Confidence Margin(textbfRLCM)を紹介する。
論文 参考訳(メタデータ) (2026-04-25T14:40:13Z) - Instinct vs. Reflection: Unifying Token and Verbalized Confidence in Multimodal Large Models [11.878003218072765]
MLLM(Multimodal Large Language Models)は、様々な知覚や推論タスクにおいて例外的な機能を示す。
二重チャネル信号とチャネル間の整合性を融合して正当性を推定するモノトーン信頼融合フレームワークを提案する。
各種オープンソースおよびクローズドソースMLLMの実験結果から,本手法は信頼性の高い推定値が得られることがわかった。
論文 参考訳(メタデータ) (2026-04-19T06:07:39Z) - Confidence Before Answering: A Paradigm Shift for Efficient LLM Uncertainty Estimation [47.91529693614168]
既存の方法は、主に回答ファーストであり、回答を生成した後のみ信頼を生み出す。
モデルが答える前に信頼を出力する信頼第一パラダイムについて検討し、このスコアを正解する確率として解釈する。
我々は,信頼度校正と正解精度をセグメント化された信用代入を通じて協調的に最適化する強化学習フレームワークであるCoCAを提案する。
論文 参考訳(メタデータ) (2026-03-06T04:03:13Z) - Confidence Estimation for LLMs in Multi-turn Interactions [48.081802290688394]
この研究は、マルチターン相互作用における信頼度推定に関する最初の体系的研究である。
そこで我々は,2つの主要なデシラタに基礎を置く形式的評価枠組みを構築した。
我々の研究は、より信頼性が高く信頼性の高い会話エージェントを開発するための基礎的な方法論を提供する。
論文 参考訳(メタデータ) (2026-01-05T14:58:04Z) - BrowseConf: Confidence-Guided Test-Time Scaling for Web Agents [58.05949210993854]
本研究では,長期にわたる行動の後,言語化された信頼度スコアを用いて,検索エージェントが自身の信頼を伝達できるかどうかを検討する。
本研究では,信頼度スコアを用いて回答の質を判断し,信頼度レベルに達するまで再度試すテスト時間スケーリング(TTS)手法を提案する。
論文 参考訳(メタデータ) (2025-10-27T15:58:51Z) - ConfTuner: Training Large Language Models to Express Their Confidence Verbally [58.63318088243125]
大規模言語モデル(LLM)は、科学、法律、医療といった高度な領域にますます展開されている。
LLMは、しばしば「過信」(overconfidence)として知られる、高い信頼で誤った答えを生成するために観察される。
論文 参考訳(メタデータ) (2025-08-26T09:25:32Z) - SteerConf: Steering LLMs for Confidence Elicitation [11.872504642312705]
大規模言語モデル(LLM)は、様々な領域で素晴らしいパフォーマンスを示すが、しばしば過剰な自信に悩まされる。
本稿では,LCMの信頼性スコアを体系的に評価し,キャリブレーションと信頼性を向上させる新しいフレームワークであるSteerConfを提案する。
論文 参考訳(メタデータ) (2025-03-04T18:40:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。