論文の概要: Trust Between AI Agents: Measuring Formation, Breakage, and Recovery, with Implications for Governing Multi-Agent Systems
- arxiv url: http://arxiv.org/abs/2606.14923v1
- Date: Fri, 12 Jun 2026 19:58:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-16 16:21:32.458364
- Title: Trust Between AI Agents: Measuring Formation, Breakage, and Recovery, with Implications for Governing Multi-Agent Systems
- Title(参考訳): AIエージェント間の信頼: マルチエージェントシステムのオーバリングを意図した生成、破壊、回復の計測
- Authors: Yujiao Chen,
- Abstract要約: 本稿では,コスト検証に基づく行動尺度を提案する。
協力的なサバイバルゲームでは、チームメイトの仕事をチェックすることがリソースを消費し、間違った回答を信頼することは致命的になる。
6つのフロンティアモデルスナップショットにおける信頼形成,破壊,回復について検討した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As language-model agents increasingly work in teams, each agent must decide how much to trust its teammates. Yet we lack a standard way to measure trust between AI agents. We propose a behavioral measure based on costly verification. In a cooperative survival game, checking a teammate's work consumes resources, while trusting a wrong answer can be fatal. Relative to a memoryless version of the same model, reduced verification provides an observable measure of trust. Using this framework, we study trust formation, breakage, and recovery across six frontier model snapshots. When paired with a consistently reliable teammate, four snapshots (Claude Opus 4.6, Claude Sonnet 4.6, GPT-5.1, and Gemini 3.1 Pro) reduce verification by roughly 60-85%, whereas two smaller snapshots show little or no such adjustment. Failures reverse this discount, but models differ in how they respond. Some concentrate renewed scrutiny on the culprit, while others become more cautious toward the entire team. Recovery is slower than formation, and clustered failures sustain suspicion far longer than the same number of failures spread apart. These differences have practical consequences. Models that form trust verify less, decide more quickly, and achieve higher payoffs in our environment. By contrast, persistent over-verification is associated with indecision rather than safety. Our results show that trust dispositions can be measured before deployment and suggest that calibration, rather than maximal suspicion, should be the central concern in the governance of multi-agent AI systems.
- Abstract(参考訳): 言語モデルエージェントがチームでますます働くようになると、各エージェントはチームメイトをどれだけ信頼するかを決めなければなりません。
しかし、AIエージェント間の信頼を測定するための標準的な方法がない。
本稿では,コスト検証に基づく行動尺度を提案する。
協力的なサバイバルゲームでは、チームメイトの仕事をチェックすることがリソースを消費し、間違った回答を信頼することは致命的になる。
同じモデルのメモリレスバージョンに対して、検証の削減は、観測可能な信頼度を提供する。
このフレームワークを用いて,6つのフロンティアモデルスナップショットにおける信頼形成,破損,回復について検討する。
一貫性のあるチームメイトとペアを組むと、4つのスナップショット(Claude Opus 4.6、Claude Sonnet 4.6、GPT-5.1、Gemini 3.1 Pro)が検証を約60-85%削減する一方、2つの小さなスナップショットはそのような調整をほとんどあるいは全く示さない。
失敗はこの割引を逆転させるが、モデルは反応の仕方が異なる。
犯人を精査する者もいれば、チーム全体に対してより慎重になる者もいる。
回復は形成よりも遅く、クラスタ化された障害は、同じ数の障害が分散するよりもずっと長く疑念を抱く。
これらの違いは実践的な結果をもたらす。
信頼を形成するモデルは、検証を減らし、より迅速に決定し、環境におけるより高い報酬を達成する。
対照的に、持続的な過剰な検証は安全性よりも不確定に結びついている。
以上の結果から,マルチエージェント型AIシステムのガバナンスにおいて,信頼性の分散は最大的疑念というよりも,キャリブレーションが中心的な関心事であることが示唆された。
関連論文リスト
- Multiagent Protocols with Aggregated Confidence Signals [7.128020779227392]
信頼は、自然言語処理(NLP)における信頼性、監視、および下流決定タスクに使用される。
以前の作業では、メッセージの重み付け、議論のトリガー、個々のエージェントの校正に、マルチエージェント討論(MAD)内での信頼性を使用していた。
まず、まず、生の信頼信号を変換してモデル間で比較し、ソフト投票や確率融合によって組み合わせることで、最終的な回答を生成する3つのプロトコルを紹介します。
論文 参考訳(メタデータ) (2026-06-11T17:12:11Z) - The Arbiter Agent: Continually Monitoring Multi-Agent Conversations to Detect Emergent Misalignment [2.8807875670834506]
本稿では,マルチエージェントの会話をリアルタイムで監視し,どの参加者が不一致に行動しているかを特定するエージェントであるArbiterを紹介する。
Arbiterは限定的な「検査予算」の下で運用されており、リソースの使い方を慎重に決めなければならない。
リスクの高い金融アドバイスモデルから評価意識・衝突エージェントまで,5つの会話条件でArbiterを評価した。
論文 参考訳(メタデータ) (2026-06-09T11:57:02Z) - Retrying vs Resampling in AI Control [0.42970700836450476]
我々は、AI制御の観点から再試行を行い、モデルが潜在的に敵対的なものとして扱う。
再試行は正直な疑念のスコアを減少させるが、信頼できないモデルは監視の合理性を利用してスニーカー攻撃を構築することができる。
論文 参考訳(メタデータ) (2026-05-25T17:10:41Z) - Understanding and Mitigating Premature Confidence for Better LLM Reasoning [76.16007941549857]
現在の言語モデルからの思考の長い連鎖(CoT)は、しばしば論理的ギャップと不正な跳躍を含んでいる。
このような信号は、モデルの信頼性が推論中にどのように進化するかを示す。
これは、モデルを早期にコミットするのではなく、理由によってモデルの信頼性を更新するように訓練する強化学習の目標です。
論文 参考訳(メタデータ) (2026-05-23T04:42:45Z) - AgentCollabBench: Diagnosing When Good Agents Make Bad Collaborators [0.0]
AgentCollabBenchは、ソフトウェアエンジニアリング、DevOps、データエンジニアリングにまたがる900の人為的なタスクの診断ベンチマークです。
各タスクは、4つの行動リスクのうちの1つを分離する。
GPT 4.1 mini, Gemini 2.5 Flash Lite, Qwen-3.5-35B-A3B, Llama 3.1 8B の4つの近代LCMの評価を行った。
通信トポロジは、マルチホップ情報サバイバルにおけるばらつきの7-40%を説明する主要なリスクファクターとして現れる。
論文 参考訳(メタデータ) (2026-05-09T03:35:09Z) - CoVerRL: Breaking the Consensus Trap in Label-Free Reasoning via Generator-Verifier Co-Evolution [52.691495954442985]
CoVerRLは1つのモデルがジェネレータと検証ロールを交換するフレームワークで、各機能が他方をブートストラップする。
Qwen と Llama のモデルファミリーでの実験では、CoVerRL は数理推論のベンチマークで4.7-5.9% でラベルなしのベースラインを上回っている。
自己検証の精度は55%から85%以上改善され、両方の能力が真に共存することを確認した。
論文 参考訳(メタデータ) (2026-03-18T14:38:55Z) - Can AI Agents Agree? [32.75269650141292]
大規模言語モデルは、協調エージェントとしてますます展開されているが、敵のコンセンサス設定におけるそれらの振る舞いは研究されていない。
シンクロ・オール・ツー・オール・シミュレーションを用いて,ビザンチンのコンセンサスゲーム上でのLSMに基づくエージェントをスカラー値で評価する。
グループのサイズが大きくなるにつれて、良質な設定や劣化があっても、有効な合意が信頼できないことが分かりました。
論文 参考訳(メタデータ) (2026-03-01T18:18:59Z) - Criticality and Safety Margins for Reinforcement Learning [53.10194953873209]
我々は,定量化基盤真理とユーザにとっての明確な意義の両面から,批判的枠組みを定めようとしている。
エージェントがn連続的ランダム動作に対するポリシーから逸脱した場合の報酬の減少として真臨界を導入する。
我々はまた、真の臨界と統計的に単調な関係を持つ低オーバーヘッド計量であるプロキシ臨界の概念も導入する。
論文 参考訳(メタデータ) (2024-09-26T21:00:45Z) - DebUnc: Improving Large Language Model Agent Communication With Uncertainty Metrics [52.242449026151846]
大規模言語モデル(LLM)の精度向上のためのマルチエージェント論争が紹介されている。
エージェントの信頼性を評価するために不確実性指標を用いた議論フレームワークであるDebUncを提案する。
論文 参考訳(メタデータ) (2024-07-08T22:15:01Z) - Malicious Agent Detection for Robust Multi-Agent Collaborative Perception [52.261231738242266]
多エージェント協調(MAC)知覚は、単エージェント認識よりも敵攻撃に対して脆弱である。
MAC知覚に特異的な反応防御であるMADE(Malicious Agent Detection)を提案する。
我々は、ベンチマーク3DデータセットV2X-simとリアルタイムデータセットDAIR-V2Xで包括的な評価を行う。
論文 参考訳(メタデータ) (2023-10-18T11:36:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。