論文の概要: Multimodal Evaluator Preference Collapse: Cross-Modal Contagion in Self-Evolving Agents
- arxiv url: http://arxiv.org/abs/2606.16682v2
- Date: Thu, 18 Jun 2026 13:02:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-19 13:55:51.614366
- Title: Multimodal Evaluator Preference Collapse: Cross-Modal Contagion in Self-Evolving Agents
- Title(参考訳): マルチモーダル評価器の選好崩壊:自己進化剤のクロスモーダル感染
- Authors: Zewen Liu,
- Abstract要約: EPC(Evaluator Preference Collapse)はマルチモーダル環境で劇的に増幅されていることを示す。
次に、クロスモーダル感染と呼ばれる新しい現象を示す。
我々は、モデル間評価器アーキテクチャを優先ドリフトの主なリスク要因とみなす。
- 参考スコア(独自算出の注目度): 1.0152838128195467
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: When AI agents use language models to evaluate their own outputs in a feedback loop, systematic biases emerge. We show that Evaluator Preference Collapse (EPC) is dramatically amplified in multimodal settings. Using GPT-4o to evaluate DeepSeek-chat across text and visual tasks, we find that a single strategy (step_by_step) absorbs 48.4% of all weight -- 3.2x the collapse observed in text-only self-evaluation -- while three visual-domain strategies receive only 9.1% combined weight. We then demonstrate a novel phenomenon we term cross-modal contagion: evaluator preferences acquired on one modality transfer to and corrupt strategy selection on another. Through a four-phase isolation training paradigm, we measure contagion coefficients and document strategy inversion -- the optimal strategy for a modality reverses after cross-modal exposure. A Phase 3 statistical validation across five evaluator configurations (N=80 total independent repetitions, ~35,000 API calls) with both text-proxy and real-image visual tasks finds: cross-model evaluation produces strong contagion (JSD~0.19-0.34), real-image inputs yield the most directionally consistent signal (mean gamma_{T->V}=1.145, gamma_{V->T}=0.937, 70% T->V, Cohen's d=0.56), and self-evaluation provides near-complete immunity -- 97% of runs (N=30) yield zero contagion (JSD=0.003, d=0.07). Three methodological ablations and multi-executor validation confirm the effect is not a structural artifact. We introduce the contagion matrix indexed by evaluator identity, release the MM-EPC framework, and identify cross-model evaluator architecture as the primary risk factor for preference drift. Code and data: https://github.com/aidless/mm-epc.
- Abstract(参考訳): AIエージェントが言語モデルを使用してフィードバックループで自身のアウトプットを評価すると、体系的なバイアスが発生する。
EPC(Evaluator Preference Collapse)はマルチモーダル環境で劇的に増幅されていることを示す。
GPT-4oを用いてテキストと視覚タスク間でDeepSeek-chatを評価すると、単一の戦略(step_by_step)が全重量の48.4%を吸収することがわかった。
次に、我々はクロスモーダル感染(cross-modal contagion: Evaluator preferences)と呼ばれる新しい現象を実証する。
四相分離訓練のパラダイムを通じて, 拡散係数と文書戦略の逆転を計測し, モダリティの最適戦略は, クロスモーダル露光後に逆転する。
テキストプロキシと実画像の両方の視覚タスクを備えた5つの評価器構成(N=80の完全独立繰り返し、~35,000のAPI呼び出し)の統計的検証: クロスモデル評価は強力な感染(JSD~0.19-0.34)を生成し、実画像入力は最も方向整合性のある信号(mean gamma_{T->V}=1.145, gamma_{V->T}=0.937, 70% T->V, Cohen's d=0.56)を出力する。
3つの方法論的解釈と多行検証により、その効果は構造的アーティファクトではないことが確認された。
本稿では,評価者識別によってインデックス付けされた感染行列を導入し,MM-EPCフレームワークを公開し,モデル間評価器アーキテクチャを優先ドリフトの主要なリスクファクターとして同定する。
コードとデータ:https://github.com/aidless/mm-epc.com
関連論文リスト
- FailureScope: Cross-Regime Behavioral Diagnosis of Language Model Weaknesses [0.0]
FailureScopeは、クロスモデルパス/フェイルパターンによる評価プローブをクラスタ化する行動診断手法である。
通常、シングルターン・ベンチマーク、マルチターン・ダイアログ、敵エージェント・アタックの3つのレシスタンスに対して安定かつ解釈可能な障害をもたらすことを示す。
論文 参考訳(メタデータ) (2026-06-03T01:28:00Z) - Let the Results Speak: A Replication-First Paradigm for LLM Behavioral Benchmarking [22.825786049667602]
本稿では,1つのヒト・ラタのコンセンサスに有効性を確保するために,複製第一パラダイムを提案する。
楽器を4つの特性で認証する - Kランの信頼性、アーキテクチャ的に異なる審査員間のクロスインストラクトレプリケーション、以前のトレーニングコホートからの審査員による歴史的フットプリントキャリブレーション、事前登録された予測。
本研究は, 自己発達型データ駆動による情緒的伴奏で, 次元は事前に決められず, 手順は9次元に安定化する。
論文 参考訳(メタデータ) (2026-05-27T03:41:11Z) - CAX-Agent: A Lightweight Agent Harness for Reliable APDL Automation [7.355373109826612]
本稿ではMAPDL自動化のための軽量エージェントハーネスであるCAX-Agentのアーキテクチャについて述べる。
我々は50の標準構造ベンチマークで3つのリカバリ戦略(no_recovery, rule_only, model_only)を評価した。
Model_onlyは、最大完了率(0.9267)、タスクスコア(3.59/4)、総得点(9.16/10)、ゼロ介入率(0.84)、0.7733, 3.17/4, 7.03/10, 0.00)、no_recovery(0.6933, 2.74/4, 5.60/10, 0.00)を大きな効果サイズで達成する。
論文 参考訳(メタデータ) (2026-05-12T14:46:34Z) - Latent Adversarial Detection: Adaptive Probing of LLM Activations for Multi-Turn Attack Detection [0.0]
マルチターンプロンプトインジェクションは既知の攻撃経路に従う。
この攻撃経路はモデルの残差ストリームにアクティベーションレベルシグネチャを残していることを示す。
論文 参考訳(メタデータ) (2026-04-30T17:16:33Z) - Preserving Disagreement: Architectural Heterogeneity and Coherence Validation in Multi-Agent Policy Simulation [0.0]
政策シミュレーションにおいて,大規模言語モデル(LLM)を用いたマルチエージェント検討システムの提案が進んでいる。
評価エージェントは、割り当てられた値の観点に関わらず、同じ選択肢に収束する。
我々は、三段階の審議フレームワークであるAI Councilを提示し、2つの介入をテストするための2つの政策シナリオにわたる120の審議を行う。
論文 参考訳(メタデータ) (2026-04-29T11:47:28Z) - Agentic Adversarial Rewriting Exposes Architectural Vulnerabilities in Black-Box NLP Pipelines [34.37967130277969]
本稿では,意味摂動空間で動作する2エージェント回避フレームワークを提案する。
現代大言語モデル(LLM)ベースのシステムでは、普及率は19.95から40.34%である。
パターンインフォームド・ディフェンスは回避率を65.18%まで下げる。
論文 参考訳(メタデータ) (2026-04-26T00:58:36Z) - From Black Box to Glass Box: Cross-Model ASR Disagreement to Prioto Review in Ambient AI Scribe Documentation [43.148402136307716]
異種ASRシステム間のクロスモデル不一致は、基準のない不確実性信号として機能する。
商用APIとオープンソースエンジンにまたがる8つのASRシステムを備えた,50の公開医療用オーディオクリップを転写した。
低アグリメント領域は内容の不一致に富み、高リスク質量のクインタイル全体では53.9%から73.9%に増加した。
論文 参考訳(メタデータ) (2026-03-02T13:02:13Z) - Towards a Science of Scaling Agent Systems [79.64446272302287]
エージェント評価の定義を定式化し,エージェント量,コーディネーション構造,モデル,タスク特性の相互作用として,スケーリング法則を特徴付ける。
協調指標を用いて予測モデルを導出し,R2=0をクロスバリデーションし,未知のタスク領域の予測を可能にする。
ツールコーディネーショントレードオフ: 固定的な計算予算の下では, ツールヘビータスクはマルチエージェントのオーバーヘッドから不均衡に悩まされ, 2) 能力飽和: 調整が減少または負のリターンを, 単一エージェントのベースラインが45%を超えると達成できる。
論文 参考訳(メタデータ) (2025-12-09T06:52:21Z) - Transparent Early ICU Mortality Prediction with Clinical Transformer and Per-Case Modality Attribution [42.85462513661566]
ICU滞在後48時間から, 生理的時系列測定と非構造的臨床記録とを融合した, 軽量で透明なマルチモーダルアンサンブルを提案する。
ロジスティック回帰モデルは、バイタル用双方向LSTMとノート用微調整された臨床ModernBERT変換器の2つのモード固有モデルからの予測を組み合わせる。
MIMIC-IIIベンチマークでは、遅延融合アンサンブルは、よく校正された予測を維持しながら、最高の単一モデルに対する差別を改善する。
論文 参考訳(メタデータ) (2025-11-19T20:11:49Z) - CRTRE: Causal Rule Generation with Target Trial Emulation Framework [47.2836994469923]
ターゲットトライアルエミュレーションフレームワーク(CRTRE)を用いた因果ルール生成という新しい手法を提案する。
CRTREは、アソシエーションルールの因果効果を推定するためにランダム化トライアル設計原則を適用している。
次に、病気発症予測などの下流アプリケーションにそのような関連ルールを組み込む。
論文 参考訳(メタデータ) (2024-11-10T02:40:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。