論文の概要: When Does Delegation Beat Majority? A Delegation-Based Aggregator for Multi-Sample LLM Inference
- arxiv url: http://arxiv.org/abs/2606.08098v1
- Date: Sat, 06 Jun 2026 10:57:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:05.778009
- Title: When Does Delegation Beat Majority? A Delegation-Based Aggregator for Multi-Sample LLM Inference
- Title(参考訳): デリゲーションが多数を占めるのはいつか? マルチサンプルLPM推論のためのデリゲーションベースアグリゲータ
- Authors: Yasushi Sakai, Allen Song, Kent Larson,
- Abstract要約: サンプリングされた回答に対する多数決は、マルチサンプル推論のための支配的な教師なしアグリゲータである。
各サンプルが伝達する信号をデリゲートベースのアグリゲータに配管することで、MMLU-Proの多数派を+1.5pp、非自明な部分集合の+2.24ppで破る、教師なしのコンセンサスルールが得られることを示す。
- 参考スコア(独自算出の注目度): 1.1916129241436584
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Majority voting over sampled answers is the dominant unsupervised aggregator for multi-sample LLM inference. We show that piping the signals every sample carries into a delegation-based aggregator (Propagational Proxy Voting, PPV) yields an unsupervised consensus rule that beats majority on MMLU-Pro by +1.5 pp overall and +2.24 pp on the non-trivial subset (paired McNemar p ~ 1.0e-14, n = 8,099). Majority discards two free signals every sample carries: within-group letter entropy and between-group reasoning geometry. PPV exposes two per-voter levers that consume exactly these signals: WHEN (how much weight a voter keeps on its own pick) and WHOM (how it splits the remainder across peers). We drive WHEN with letter entropy and WHOM with per-question-centered embedding cosine. The method needs no gold labels and no auxiliary training: per question, we partition 128 sampled generations into 16 groups, compute each group's letter-level semantic entropy and reasoning embedding centroid, and feed both into a stochastic delegation matrix whose stationary distribution selects the consensus answer. We walk through an example in which PPV overturns a clear 10-6 majority for the wrong letter: the 10-voter majority cluster is geometrically incoherent (mean within-cluster cosine -0.02) while the 6-voter minority is tight (+0.26), so propagated delegation mass concentrates on the minority's answer even though entropy alone would keep the majority ahead. We further report delegation strategies with negative results that constrain the design space for unsupervised LLM aggregation: no within-question ensemble of confidence modes closes the oracle gap.
- Abstract(参考訳): サンプリングされた回答に対する多数決は、マルチサンプルLPM推論における支配的な教師なしアグリゲータである。
我々は、各サンプルがデリゲートベースのアグリゲータ(Propagational Proxy Voting, PPV)に伝達する信号を配管すると、MMLU-Proの多数派を+1.5pp、非自明な部分集合の+2.24pp(paired McNemar p ~ 1.0e-14, n = 8,099)で破る無監督のコンセンサスルールが得られることを示す。
多数派は、各サンプルが持つ2つの自由信号を捨てる: グループ内文字エントロピーとグループ間推論幾何学である。
PPVは、投票者ごとのレバーを2つ公開し、そのシグナルを正確に消費している。
We drive WHEN with letter entropy and WHOM with per-question-centered embedded cosine。
128世代を16グループに分割し、各グループの文字レベルのセマンティックエントロピーと推論センタロイドを計算し、静止分布がコンセンサス解を選択する確率的デリゲート行列にフィードする。
10ボタの多数派クラスタは幾何学的に不整合である(つまり、クラスタ内コサイン-0.02)一方、6ボタの少数派は厳密である(+0.26)。
さらに、教師なしLCMアグリゲーションの設計空間を制約する負の結果を持つデリゲート戦略を報告します。
関連論文リスト
- Beyond Consensus: Trace-Level Synthesis in Mixture of Agents [1.0195618602298682]
完全推論トレースを読み取るアグリゲータは,エージェントが全一致で同意した場合でも,正しい解を回復することを示す。
摂動によって引き起こされるトレース変動を持つ単一モデルは、構造的推論、PhDレベルの科学、競合数学、競争的プログラミングにまたがる異種モデルプールよりも優れる。
論文 参考訳(メタデータ) (2026-05-27T21:24:35Z) - When Is Collective Intelligence a Lottery? Multi-Agent Scaling Laws for Memetic Drift in LLMs [19.42697228981973]
命名ゲームにおいて、特定のエージェントがラベルを優先しない場合でも、人口は急速に対称性を破り、コンセンサスに達することを示す。
最小限のモデルであるQuantized Simplex Gossip (QSG)を導入し、この合意の微妙な起源を相互文脈学習に追従するメカニズムを明らかにする。
我々は,人口規模,通信帯域幅,文脈内適応率,エージェントの内部不確実性の関数として,ドリフト誘起偏光のスケーリング法則を導出する。
論文 参考訳(メタデータ) (2026-03-25T18:00:29Z) - Mean-Field Path-Integral Diffusion: From Samples to Interacting Agents [0.0]
Mean-Field Path-Integral Diffusion (MF-PID) は、個体群密度の変動に自在に依存する相互作用する物質にサンプルを昇格させる枠組みである。
MF-PIDは、所定の端末分布を正確に一致させながら、独立エージェントベースラインに対する累積制御エネルギーを19~24%削減する。
論文 参考訳(メタデータ) (2026-02-23T21:14:06Z) - Transform-Augmented GRPO Improves Pass@k [50.3707071191733]
グループ相対政策最適化(GRPO)は推論を改善するために設計されたが、2つの障害モードによって状況が悪化する。
本稿では,各質問に対して意味論的に等価な変換変種を生成するTA-GRPO(Transform-Augmented GRPO)を提案する。
このプール化された計算は、元の質問が簡単すぎるか難しすぎる場合でも、混合報酬を保証する一方、多様なフレーズのトレーニングは、複数のソリューション戦略を促進する。
論文 参考訳(メタデータ) (2026-01-30T02:43:29Z) - Beyond Majority Voting: Towards Fine-grained and More Reliable Reward Signal for Test-Time Reinforcement Learning [12.354777054071379]
テスト時間強化学習は、多数決結果を擬似ラベルとして使用することにより、注釈付きデータへの依存を軽減する。
この投票戦略は、しばしば確認バイアスを引き起こし、スパース報酬に悩まされ、全体的なパフォーマンスが制限される。
これらの問題に対処するために,サブグループ固有のステップワイド信頼度重み付き擬似ラベル推定(SCOPE)を提案する。
論文 参考訳(メタデータ) (2025-12-17T07:21:54Z) - Reasoning Path Divergence: A New Metric and Curation Strategy to Unlock LLM Diverse Thinking [49.8843966537226]
テスト時間スケーリング(TTS)は,大規模言語モデル(LLM)の推論能力向上に有効であることが証明された。
提案手法は「一問題・複数解」(1PNS)の学習パラダイムであり,モデルから妥当な推論軌跡を抽出する手法である。
Reasoning Path Divergence (RPD) を用いて、問題ごとの最大多様な解集合と微調整Qwen3-4B-Baseをキュレートする。
論文 参考訳(メタデータ) (2025-10-30T04:08:53Z) - Beyond Majority Voting: LLM Aggregation by Leveraging Higher-Order Information [57.397381631496906]
最適重み(OW)と逆サプライシング人気度(ISP)という2つの新しいアグリゲーションアルゴリズムを開発した。
我々の理論的分析は、これらの手法が軽微な仮定の下での多数決の本質的な制限を確実に緩和することを示している。
我々は,我々のアルゴリズムを人工データセット,UltraFeedbackやMMLUなどのLLMファインチューニングベンチマーク,実世界の医療環境ARMMAN上で実証的に検証した。
論文 参考訳(メタデータ) (2025-10-01T22:21:50Z) - Clustered Switchback Designs for Experimentation Under Spatio-temporal Interference [44.644520116360106]
我々は, 平均治療効果 (GATE) を推定し, 全単位を常に治療やコントロールに曝露した平均結果の差を推定した。
そこで我々は,単位をクラスタにグループ化し,時間ステップをブロックにグループ化する,クラスタ化されたスイッチバック設計を提案する。
良好なクラスタリングを許容するグラフに対して, トラッピングされたHorvitz-Thompson推定器が$tilde O(1/NT)$平均二乗誤差(MSE)を達成することを示す。
我々の結果は、citethu2022switchback、ugander2013graph、citetleung2022rateの結果を同時に一般化する。
論文 参考訳(メタデータ) (2023-12-25T01:00:58Z) - Optimal Clustering with Bandit Feedback [57.672609011609886]
本稿では,バンディットフィードバックを用いたオンラインクラスタリングの問題点について考察する。
これは、NPハード重み付きクラスタリング問題をサブルーチンとして解決する必要性を回避するための、シーケンシャルなテストのための新しい停止規則を含む。
合成および実世界のデータセットの広範なシミュレーションを通して、BOCの性能は下界と一致し、非適応的ベースラインアルゴリズムよりも大幅に優れることを示す。
論文 参考訳(メタデータ) (2022-02-09T06:05:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。