論文の概要: Collective Hallucination in Multi-Agent LLMs:Modeling and Defense
- arxiv url: http://arxiv.org/abs/2606.07941v1
- Date: Sat, 06 Jun 2026 02:04:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:05.55301
- Title: Collective Hallucination in Multi-Agent LLMs:Modeling and Defense
- Title(参考訳): マルチエージェントLDMにおける集団幻覚:モデリングと防御
- Authors: Saeid Jamshidi,
- Abstract要約: 大型言語モデル(LLM)における幻覚は、マルチエージェント設定におけるリスクを高める。
本稿では, 相互作用するLLMエージェントのネットワークにまたがるシステムレベルの時間進化過程として幻覚をモデル化する。
本稿では,信頼度重み付けアグリゲーション,適応的影響規制,外部クレーム検証,信頼できないエージェントの選択的分離を組み合わせたインタラクション対応制御手法を提案する。
- 参考スコア(独自算出の注目度): 0.5076419064097734
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Hallucinations in large language models (LLMs) create heightened risks in multi-agent settings, where recursive agent interactions can propagate, reinforce, and amplify unsupported claims. This paper models hallucination as a system-level, time-evolving process across a network of interacting LLM agents, where nodes represent agents and edges encode information exchange. The proposed formulation captures how hallucinated claims diffuse through communication topologies, intensify under adversarial perturbations, and affect collective reliability across reasoning rounds. To suppress error propagation, we introduce an interaction-aware control method that combines confidence-weighted aggregation, adaptive impact regulation, external claim verification, and selective isolation of unreliable agents. Experiments on TruthfulQA and TriviaQA show that the proposed method reduces hallucination by up to 39.0% relative to undefended multi-agent reasoning, improves factual accuracy from 0.79 to 0.87, and increases semantic consistency from 0.75 to 0.84. Under adversarial conditions, the method limits hallucination amplification to 1.08, compared with 1.45 without adaptive control, maintaining stable collective behavior across recursive interaction rounds. These results indicate that hallucination in multi-agent LLM systems is governed by both individual model reliability and system-level interaction dynamics, including communication topology, confidence coupling, and recursive information flow.
- Abstract(参考訳): 大規模言語モデル(LLM)における幻覚は、再帰的エージェントの相互作用が不当な主張を伝播し、強化し、増幅する、マルチエージェント設定におけるリスクを高める。
本稿では,ノードがエージェントを表現し,エッジが情報交換を符号化する,相互作用するLLMエージェントのネットワークにまたがる,システムレベルの時間進化プロセスとして幻覚をモデル化する。
提案した定式化は、コミュニケーショントポロジを通じて幻覚的主張が拡散し、対角的摂動の下で強化され、推論ラウンド全体にわたって集団的信頼性に影響を及ぼすことを示す。
エラー伝播を抑制するために,信頼度重み付け集約,適応的影響規制,外部クレーム検証,信頼できないエージェントの選択的分離を組み合わせたインタラクション・アウェア制御手法を提案する。
TruthfulQAとTriviaQAの実験では、提案手法は、未定義のマルチエージェント推論と比較して幻覚を最大39.0%減少させ、事実精度を0.79から0.87に改善し、意味的一貫性を0.75から0.84に向上させる。
逆境条件下では、幻覚増幅は1.08に制限され、適応制御のない1.45は再帰的な相互作用ラウンド全体で安定した集団行動を維持する。
これらの結果から,マルチエージェントLLMシステムにおける幻覚は,通信トポロジ,信頼結合,再帰的情報フローなど,個々のモデル信頼性とシステムレベルの相互作用のダイナミクスによって制御されていることが示唆された。
関連論文リスト
- Hallucination Cascade: Analyzing Error Propagation in Multi-Agent LLM Systems [6.047611029478951]
GPT-5.3, DeepSeek-V3, LLaMA-3-70B-Instruct を用いて, 知識領域10のカスケード実験を行った。
より深いカスケードは, 正常化幻覚スコアを第1剤で0.422から最終薬で0.272まで下げることを示した。
この減少は、実際の精度が0.789から0.769に低下し、幻覚抑制と事実保存のトレードオフが明らかになる。
論文 参考訳(メタデータ) (2026-06-06T01:56:55Z) - Robust Multi-Agent LLMs under Byzantine Faults [12.778788735297288]
大規模言語モデル(LLM)エージェントは、信頼性を向上させるためにピアツーピアネットワークを介して協力する傾向にある。
信頼性の低いエージェントやビザンティンのエージェントは、近隣のエージェントを誤った結論へと誘導し、システム全体の性能を低下させる可能性がある。
既存の手法は、リーダーベースの調整や自己報告された信頼に依存しており、どちらも敵の操作に影響を受けやすい。
論文 参考訳(メタデータ) (2026-05-09T17:37:43Z) - AffectAgent: Collaborative Multi-Agent Reasoning for Retrieval-Augmented Multimodal Emotion Recognition [62.16431420189863]
LLMに基づくマルチモーダル感情認識は静的なパラメトリックメモリに依存しており、ニュアンス化された感情状態の解釈時にしばしば幻覚を与える。
本稿では,感情指向型マルチエージェント検索拡張生成フレームワークであるAffectAgentを紹介する。
AffectAgentは3つの共同最適化されたエージェント、すなわちクエリプランナー、エビデンスフィルタ、感情生成器から構成される。
論文 参考訳(メタデータ) (2026-04-14T13:49:19Z) - How Independent are Large Language Models? A Statistical Framework for Auditing Behavioral Entanglement and Reweighting Verifier Ensembles [46.63622714488747]
共有事前学習データ、蒸留、アライメントパイプラインは、隠れた振る舞い依存、潜伏絡みを誘導することができる。
実際には、これは相関した推論パターンと同期された障害として現れます。
ブラックボックス言語モデル間の行動絡みを監査するための統計的枠組みを開発する。
論文 参考訳(メタデータ) (2026-04-08T23:32:06Z) - Information Fidelity in Tool-Using LLM Agents: A Martingale Analysis of the Model Context Protocol [69.11739400975445]
モデルコンテキストプロトコル(MCP)エージェントにおけるエラー蓄積を解析するための最初の理論的枠組みを紹介する。
累積歪みが線形成長と高確率偏差を$O(sqrtT)$で表すことを示す。
主な発見は、意味重み付けは歪みを80%減らし、周期的再接地は、エラー制御の約9ステップごとに十分である。
論文 参考訳(メタデータ) (2026-02-10T21:08:53Z) - InEx: Hallucination Mitigation via Introspection and Cross-Modal Multi-Agent Collaboration [6.103123418191468]
InExは、幻覚を自律的に緩和するために設計された、トレーニング不要でマルチエージェントのフレームワークである。
InExは既存の手法を一貫して上回り、一般および幻覚ベンチマークで4%-27%向上した。
論文 参考訳(メタデータ) (2025-12-02T17:59:52Z) - DeLeaker: Dynamic Inference-Time Reweighting For Semantic Leakage Mitigation in Text-to-Image Models [55.30555646945055]
テキスト・ツー・イメージ(T2I)モデルはセマンティック・リークに対して脆弱である。
DeLeakerは、モデルのアテンションマップに直接介入することで、漏洩を緩和する軽量なアプローチである。
SLIMはセマンティックリークに特化した最初のデータセットである。
論文 参考訳(メタデータ) (2025-10-16T17:39:21Z) - Let's Measure Information Step-by-Step: LLM-Based Evaluation Beyond Vibes [14.371259136517802]
戦略ゲームと情報損失の関連性を利用して, 根拠のないAIシステムの堅牢性について検討する。
我々は,情報理論のメカニズムが対向境界に抵抗するかを解析し,有限サンプル操作を拡張して,有界f-分岐系が攻撃下で維持されることを示す。
論文 参考訳(メタデータ) (2025-08-07T15:11:43Z) - MIRAGE-Bench: LLM Agent is Hallucinating and Where to Find Them [52.764019220214344]
幻覚は、大きな言語モデル(LLM)ベースのエージェントに重大なリスクをもたらす。
MIRAGE-Benchは対話型環境における幻覚の抽出と評価のための最初の統一ベンチマークである。
論文 参考訳(メタデータ) (2025-07-28T17:38:29Z) - Collaborative Value Function Estimation Under Model Mismatch: A Federated Temporal Difference Analysis [55.13545823385091]
フェデレーション強化学習(FedRL)は、エージェント間のデータ交換を防止し、データのプライバシを維持しながら協調学習を可能にする。
現実世界のアプリケーションでは、各エージェントは若干異なる遷移ダイナミクスを経験し、固有のモデルミスマッチを引き起こす。
情報共有の適度なレベルでさえ、環境固有のエラーを著しく軽減することを示す。
論文 参考訳(メタデータ) (2025-03-21T18:06:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。