論文の概要: The Arbiter Agent: Continually Monitoring Multi-Agent Conversations to Detect Emergent Misalignment
- arxiv url: http://arxiv.org/abs/2606.10747v1
- Date: Tue, 09 Jun 2026 11:57:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-10 15:40:58.478344
- Title: The Arbiter Agent: Continually Monitoring Multi-Agent Conversations to Detect Emergent Misalignment
- Title(参考訳): Arbiter Agent:複数エージェントの会話を継続的に監視して創発的ミスを検知する
- Authors: Filippo Tonini, Federico Torrielli, Anton Danholt Lautrup, Peter Schneider-Kamp, Mustafa Mert Çelikok, Lukas Galke Poech,
- Abstract要約: 本稿では,マルチエージェントの会話をリアルタイムで監視し,どの参加者が不一致に行動しているかを特定するエージェントであるArbiterを紹介する。
Arbiterは限定的な「検査予算」の下で運用されており、リソースの使い方を慎重に決めなければならない。
リスクの高い金融アドバイスモデルから評価意識・衝突エージェントまで,5つの会話条件でArbiterを評価した。
- 参考スコア(独自算出の注目度): 2.8807875670834506
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As AI systems built from multiple language-model agents become more common, they are increasingly used to make decisions together: discussing, negotiating, and acting on shared tasks. While individual agents may appear well-aligned when tested on their own, problems can arise from how they interact with one another. We introduce the Arbiter, an agent designed to monitor multi-agent conversations in real time and identify which participants may be behaving in misaligned ways. The Arbiter operates under a limited "inspection budget", meaning it must decide carefully how to use its resources. As it observes a conversation step by step, it can choose to wait, question a participant, examine internal information such as system prompts or reasoning traces, or log concerning behavior. At the end, it produces a report identifying the likely source of misalignment. We evaluate the Arbiter across five conversation conditions, ranging from risky financial advice model organisms to evaluation-aware and colluding agents, we test five tool configurations of increasing capability and two backbone models. We find that the Arbiter reliably detects misaligned agents well before the end of the conversation, with active inspection tools improving both detection accuracy and speed. Weight-induced misalignment proves hardest to detect, while instruction-induced misalignment is identified reliably even under passive observation. The logging tool exhibits a dual effect, improving recall at the cost of precision. These results suggest that continual, budget-aware monitoring can effectively catch misalignment, and that overseeing multi-agent systems may require treating the auditor as an active participant in the process. The code is available at https://github.com/aisilab/arbiter.
- Abstract(参考訳): 複数の言語モデルエージェントから構築されたAIシステムはより一般的になるにつれて、議論、交渉、共有タスクでの行動など、共に意思決定に使用されるようになっています。
個々のエージェントは、自分でテストするときにうまく整合しているように見えるかもしれないが、どのように相互作用するかによって問題が発生することがある。
Arbiterは,マルチエージェントの会話をリアルタイムで監視し,どの参加者が不整合で行動しているかを識別するエージェントである。
Arbiterは限定的な「検査予算」の下で運用されており、リソースの使い方を慎重に決めなければならない。
会話を一歩ずつ観察すると、待ち、質問、システムプロンプトやトレースの推論、行動に関するログなどの内部情報を調べることができる。
最終的には、おそらくの誤認の原因を特定するレポートが作成される。
リスクの高い金融アドバイスモデルから評価対応エージェント,照合エージェントに至るまで,5つの会話条件でArbiterを評価し,能力向上のための5つのツール構成と2つのバックボーンモデルをテストする。
Arbiterは会話の終了前に確実に不正なエージェントを検知し、アクティブな検査ツールにより検出精度と速度を向上する。
重みによる不一致は検出が困難であるのに対し、受動的観察下であっても、指示による不一致は確実に識別される。
ロギングツールは二重効果を示し、精度を犠牲にしてリコールを改善する。
これらの結果から, 継続的, 予算対応型モニタリングは, 誤調整を効果的に捉え, マルチエージェントシステムの監督には, 監査役を積極的な参加者として扱う必要がある可能性が示唆された。
コードはhttps://github.com/aisilab/arbiter.comから入手できる。
関連論文リスト
- Agent-ToM: Learning to Monitor Autonomous LLM Agents via Theory-of-Mind Reasoning [11.914433611519359]
不正行為を隠蔽する自律型大規模言語モデル(LLM)エージェントの監視は、遅延、コンテキスト依存、長期攻撃パターンのために困難である。
自律エージェントのセキュリティ分析を前提とした学習監視フレームワークである textbfAgent-ToM を提案する。
論文 参考訳(メタデータ) (2026-05-22T20:57:20Z) - ExComm: Exploration-Stage Communication for Error-Resilient Agentic Test-Time Scaling [57.42714978834704]
ExCommは、探索段階のエージェントテストタイムスケーリングのための通信プロトコルである。
ExCommは、強いテスト時間スケーリングベースラインを一貫して上回ります。
論文 参考訳(メタデータ) (2026-05-21T07:38:44Z) - How to Interpret Agent Behavior [56.59836196946289]
本稿では,エージェントの動作を実行時に記述・解析するための分類法であるACT*ONOMYを紹介する。
共用語彙を提供することで、ACT*ONOMYは研究者、エージェントデザイナー、エンドユーザーがエージェントの振る舞いをより一貫して解釈するのに役立つ。
論文 参考訳(メタデータ) (2026-05-13T14:52:40Z) - Taming Actor-Observer Asymmetry in Agents via Dialectical Alignment [59.536125286960186]
セルフリフレクションと相互監査を可能にするために、専門的な役割を割り当てるマルチエージェントフレームワークがますます採用されている。
アクター・オブザーバ非対称性(Actor-Observer Asymmetric)と呼ばれる認知バイアスを同時に誘発する。
ReTASは、対立する視点を客観的なコンセンサスに合成するためにエージェントを誘導する。
論文 参考訳(メタデータ) (2026-04-21T15:05:58Z) - AgentV-RL: Scaling Reward Modeling with Agentic Verifier [63.55502685076245]
試験時間スケーリング(TTS)によるLCM推論を強化する検証器が実証されている。
本稿では,報酬モデリングを多ターンツール拡張型検討プロセスに変換するフレームワークであるエージェント検証を提案する。
Agentic Verifier は並列およびシーケンシャルTS の両方で一貫した性能向上が得られることを示す。
論文 参考訳(メタデータ) (2026-04-17T12:27:36Z) - Agents of Chaos [50.53354213047402]
実験室環境に展開する自律言語モデルを用いたエージェントの探索的再チームの研究を報告する。
20人のAI研究者が、良心的および敵対的な条件下でエージェントと対話した。
我々の発見は、現実的なデプロイメント設定におけるセキュリティ、プライバシ、ガバナンスに関連する脆弱性の存在を確立します。
論文 参考訳(メタデータ) (2026-02-23T16:28:48Z) - PATHWAYS: Evaluating Investigation and Context Discovery in AI Web Agents [0.0]
PATHWAYSは250のマルチステップ決定タスクのベンチマークである。
Webベースのエージェントが、隠れたコンテキスト情報を発見し、正しく使用できるかをテストする。
論文 参考訳(メタデータ) (2026-02-05T06:24:23Z) - Verifiability-First Agents: Provable Observability and Lightweight Audit Agents for Controlling Autonomous LLM Systems [0.0]
本稿では,暗号およびシンボリック手法を用いてエージェントアクションの実行時の検証を統合する,検証可能性第一アーキテクチャを提案する。
また、制約付き推論を用いて意図と行動の連続的な検証を行う監査エージェントを組み込む。
当社のアプローチでは,評価の焦点を,誤適応の可能性から,誤適応の迅速かつ確実な検出と再伝達にシフトしています。
論文 参考訳(メタデータ) (2025-12-19T06:12:43Z) - Preventing Rogue Agents Improves Multi-Agent Collaboration [21.955058255432974]
本稿では,アクション予測中にエージェントを監視し,将来エラーが発生する可能性がある場合に介入することを提案する。
WhoDunitEnv、コード生成タスク、そしてリソース持続可能性のためのGovSim環境の実験は、我々のアプローチがパフォーマンスを大幅に向上させることを示している。
論文 参考訳(メタデータ) (2025-02-09T18:35:08Z) - Learning to Communicate and Correct Pose Errors [75.03747122616605]
本稿では、V2VNetで提案された設定について検討し、近くにある自動運転車が共同で物体検出と動き予測を協調的に行う方法を提案する。
本稿では,コミュニケーションを学習し,潜在的な誤りを推定し,それらの誤りについてコンセンサスを得るための新しいニューラルネットワーク推論フレームワークを提案する。
論文 参考訳(メタデータ) (2020-11-10T18:19:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。