論文の概要: DICE: Entropy-Regularized Equilibrium Selection for Stable Multi-Agent LLM Coordination
- arxiv url: http://arxiv.org/abs/2606.08068v1
- Date: Sat, 06 Jun 2026 09:33:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:05.75901
- Title: DICE: Entropy-Regularized Equilibrium Selection for Stable Multi-Agent LLM Coordination
- Title(参考訳): DICE: 安定多エージェントLCMコーディネーションのためのエントロピー規則化平衡選択
- Authors: Yi Xie, Zhanke Zhou, Chentao Cao, Bo Liu, Bo Han,
- Abstract要約: マルチエージェント大言語モデル (LLM) システムは、ベスト・オブ・Nサンプリングを備えた単一の強力なモデルよりも確実に性能を発揮できないことが多い。
我々はディスカウントされた不完全情報マルコフゲームのようなシステムの幅広いクラスを定式化する。
競合するコンベンション間の振動とそれらの間のドリフトという2つの一般的な病理が不安定な学習と線形ベイズ的後悔を引き起こすことを示した。
- 参考スコア(独自算出の注目度): 33.199914481547346
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-agent large language model (LLM) systems often fail to reliably outperform a single strong model equipped with best-of-N sampling. We argue that a core source of this instability is ill-posed equilibrium selection: current systems specify what information agents share, but not which coordination convention should be selected. We formalize a broad class of such systems as discounted incomplete-information Markov games and show that two common pathologies, oscillation between competing conventions and drift across them, can both induce unstable learning and linear Bayesian regret. To obtain a well-posed target, we introduce the Heterogeneous Quantal Response Equilibrium (HQRE), an entropy-regularized equilibrium concept with agent- and state-dependent temperatures. Under a monotonicity condition, HQRE is unique, admits linearly convergent mirror updates, and yields bounded Bayesian regret; the same condition yields rollout-measurable stability diagnostics. We instantiate this objective in two algorithms: DICE-PC, which coordinates frozen models through prompt-control actions, and DICE-FT, which performs parameter-efficient mirror fine-tuning. Across eleven benchmarks in four domains, DICE improves accuracy-cost trade-offs over strong within-class baselines; on reasoning and planning tasks, DICE-PC improves by 4.3 percentage points on average and DICE-FT by 8.5 points.
- Abstract(参考訳): マルチエージェント大言語モデル (LLM) システムは、ベスト・オブ・Nサンプリングを備えた単一の強力なモデルよりも確実に性能を発揮できないことが多い。
現在のシステムでは、どの情報エージェントが共有するかを規定しているが、どの調整規則を選択するべきかは規定していない。
非完全情報型マルコフゲームのような幅広い体系を定式化し、競合するコンベンション間の振動とそれらの間のドリフトという2つの共通の病理が不安定な学習と線形ベイズ的後悔を引き起こすことを示した。
そこで本研究では,不均質な量子応答平衡(HQRE)をエージェントと状態依存温度によるエントロピー規則化平衡の概念として導入する。
単調な条件下では、HQREはユニークであり、線形収束ミラーの更新を認め、有界ベイズ的後悔を与える。
DICE-PCとパラメータ効率のよいミラー微調整を行うDICE-FTの2つのアルゴリズムでこの目的をインスタンス化する。
4つの領域における11のベンチマークで、DICEは強力なクラス内ベースラインに対する精度とコストのトレードオフを改善し、推論と計画タスクにおいて、DICE-PCは平均4.3%、DICE-FTは8.5ポイント改善している。
関連論文リスト
- Efficient Conditioning Why Pseudo Observation Batch Bayesian Optimization Works When It Does not [0.0]
Constant Liar (CL)、Kriging Believer (KB)、およびファンタジーモデルは並列ベイズ最適化におけるバッチ選択に広く使われている。
データを拡張した場合に,効率的な条件付けをキーサロゲート特性として,クローズドフォームで予測を更新する機能として同定する。
CL, KB, および空想モデルを, 偽値分布のみが異なる単一の条件付け機構のインスタンスとして統一する。
論文 参考訳(メタデータ) (2026-05-12T13:14:24Z) - Multimodal Learning on Low-Quality Data with Conformal Predictive Self-Calibration [72.0672328514289]
マルチモーダル学習は、しばしば低品質データの課題に悩まされる。
コンフォーマル予測自己校正(Conformal Predictive Self-Calibration)と呼ばれる統合フレームワークを提案する。
私たちのフレームワークは、既存の最先端メソッドを一貫して上回ります。
論文 参考訳(メタデータ) (2026-05-05T14:48:52Z) - Learning from Emptiness: De-biasing Listwise Rerankers with Content-Agnostic Probability Calibration [76.08899010904652]
CapCalは、ランキング決定から位置バイアスを機械的に分離する、トレーニング不要のフレームワークである。
シングルパス効率を保ちながら、トレーニング不要の手法で優れた性能を発揮する。
論文 参考訳(メタデータ) (2026-04-11T10:47:22Z) - Diffusion Controller: Framework, Algorithms and Parameterization [54.82539154511621]
本稿では,逆拡散サンプリングを(一般化された)線形解法マルコフ決定過程における状態のみの制御として活用する統一的な制御理論的視点を提案する。
このフレームワークでは、制御はトレーニング済みのリバースタイムのトランジションカーネルを再重み付けし、端末の目的と$f$分割コストのバランスをとる。
安定拡散v1.4の実験では、選好調整の勝利率が一貫した上昇を示し、品質効率のトレードオフを改善した。
論文 参考訳(メタデータ) (2026-03-07T01:49:59Z) - Stability and Generalization of Push-Sum Based Decentralized Optimization over Directed Graphs [55.77845440440496]
プッシュベースの分散通信は、情報交換が非対称である可能性のある通信ネットワークの最適化を可能にする。
我々は、グラディエント・プッシュ(SGP)アルゴリズムのための統一的な一様安定性フレームワークを開発する。
重要な技術的要素は、2つの量に束縛された不均衡認識の一般化である。
論文 参考訳(メタデータ) (2026-02-24T05:32:03Z) - Mean-Field Path-Integral Diffusion: From Samples to Interacting Agents [0.0]
Mean-Field Path-Integral Diffusion (MF-PID) は、個体群密度の変動に自在に依存する相互作用する物質にサンプルを昇格させる枠組みである。
MF-PIDは、所定の端末分布を正確に一致させながら、独立エージェントベースラインに対する累積制御エネルギーを19~24%削減する。
論文 参考訳(メタデータ) (2026-02-23T21:14:06Z) - Consistency Deep Equilibrium Models [8.278751626877431]
ディープラーニングにおける強力なパラダイムとして、Deep Equilibrium Models (DEQ)が登場している。
DEQは、固定点ソルバの反復性により、大きな推論遅延を引き起こす。
我々は、DEC推論を高速化するために、一貫性深度平衡モデル(C-DEQ)を導入する。
論文 参考訳(メタデータ) (2026-02-03T02:42:48Z) - Deep Time-series Forecasting Needs Kernelized Moment Balancing [56.619037429652984]
深層時系列予測は、予測と地上の真実の分布を整合させることを目的とした分布バランス問題として定式化することができる。
我々は、カーネル化されたモーメントバランス(KMB-DF)による直接予測を提案する。
複数のモデルとデータセットにわたる実験により、KMB-DFは予測精度を一貫して改善し、最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2026-01-31T13:20:18Z) - EmoLoom-2B: Fast Base-Model Screening for Emotion Classification and VAD with Lexicon-Weak Supervision and KV-Off Evaluation [14.702916401734916]
EmoLoom-2Bは2Bパラメータ以下の小さな言語モデルを、感情分類とValence-Arousal-Dominance予測のための高速なスクリーニング候補に変換する。
プロトコルに忠実で公平な評価を保証するため,単一入力出力契約の下でデータのロード,トレーニング,推論を統一する。
論文 参考訳(メタデータ) (2026-01-03T08:25:58Z) - The Best of Both Worlds: Hybridizing Neural Operators and Solvers for Stable Long-Horizon Inference [0.0]
ANCHORは、PDEの安定な長距離予測のためのオンラインのインスタンス対応ハイブリッド推論フレームワークである。
本稿では,ANCHORが長い水平誤差の増大を確実に拘束し,外挿ロールアウトを安定化し,スタンドアロンのニューラル演算子に対するロバスト性を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2025-12-22T18:17:28Z) - Handling Imbalanced Pseudolabels for Vision-Language Models with Concept Alignment and Confusion-Aware Calibrated Margin [56.37346003683629]
擬似ラベルを用いた下流タスクへの視覚言語モデル(VLM)の適用が注目されている。
主な障害は、VLMによって生成された擬似ラベルが不均衡になり、性能が低下する傾向があることである。
本稿では,概念アライメントと混乱を考慮したマージン機構を取り入れた新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-04T10:24:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。