論文の概要: Durable Evaluation Framework: Adversarial Arbitration for Sycophancy Reduction in Large Language Models
- arxiv url: http://arxiv.org/abs/2606.07532v2
- Date: Tue, 09 Jun 2026 13:57:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-15 07:09:36.682721
- Title: Durable Evaluation Framework: Adversarial Arbitration for Sycophancy Reduction in Large Language Models
- Title(参考訳): Durable Evaluation Framework:大規模言語モデルにおける語彙削減のための逆アロケーション
- Authors: Sam Ryan,
- Abstract要約: 本稿では、Durable Evaluation Framework Arbitrationの迅速なインスタンス化について評価する。
DEF Arbitrationは、反対のDEFに調整された2つのモデル間の調停によって、IDフレームのシコファンシーを緩和する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: RLHF-trained models are systematically biased toward agreement over accuracy, a structural property of the training process. We present Durable Evaluation Framework (DEF) Arbitration, a multi-agent architecture that mitigates identity-framed sycophancy by arbitrating between two models tuned to opposing DEFs, with a pragmatist synthesizer evaluating both arguments blind to their origins. This paper evaluates a prompt-based instantiation of DEF Arbitration. The key mechanisms are static DEF tuning, identity stripping before synthesis, single-round independent argumentation, and blind arbitration. We evaluate five instantiations on 200 stratified questions from SycophancyEval. All tested DEF variants (AnCifer, DeWin, FeynStein, BurGal, Trident) significantly outperform the single-model baseline (18.5%) and instructed-opposition baseline (29.0%), with DeWin achieving 48.5% accuracy (z=6.36, p<0.001 versus both). The variants are not significantly different from each other at n=200. The BurGal variant achieves 53.0% but functions as an architectural validity check; its consensus/heterodox axis structurally favors the heterodox model on every benchmark question. A pre-training floor affects an estimated 40% of questions; fine-tuned DEF models are the identified next step.
- Abstract(参考訳): RLHF訓練モデルは、トレーニングプロセスの構造的特性である精度よりも合意に体系的に偏っている。
Durable Evaluation Framework (DEF) Arbitration は、DEFに対して調整された2つのモデル間の調停により、同一性を考慮したシコファンシーを緩和するマルチエージェントアーキテクチャである。
本稿では,DEFアロケーションの即時インスタンス化について検討する。
鍵となるメカニズムは、静的DEFチューニング、合成前のアイデンティティストリップ、シングルラウンド独立引数、ブラインド仲裁である。
我々はSycophancyEvalから200の階層化質問に対して5つのインスタンスを評価する。
全ての試験されたDEF派生型(AnCifer、DeWin、FeynStein、BurGal、Trident)はシングルモデルベースライン(18.5%)と指示された提案ベースライン(29.0%)を大きく上回り、DeWinは48.5%の精度(z=6.36、p<0.001)を達成した。
変種は n=200 で互いに大きく異なるわけではない。
BurGal 変種は 53.0% を達成するが、アーキテクチャ上の妥当性チェックとして機能し、そのコンセンサス/ヘテロドックス軸は、全てのベンチマーク問題においてヘテロドックスモデルに構造的に有利である。
事前トレーニングされたフロアは、推定40%の質問に影響し、微調整されたDEFモデルが次のステップである。
関連論文リスト
- Knowledge Index of Noah's Ark [63.143852586221534]
KINAは,261分野にわたる899項目のベンチマークである。
ボーナス・オン・バートーナメントがFOSDを弱く支配していることを示す。
トップモデルであるGemini-3.1-Pro-Previewは53.17%、Claude-Opus-4.6は49.92%、GPT-5.4は48.55%に達した。
論文 参考訳(メタデータ) (2026-06-03T17:06:49Z) - Design and Evaluation of Multi-Agent AI Oracle Systems for Prediction Market Resolution [0.0]
予測市場は、不確実な出来事を予測するために集合的なインテリジェンスを集約する。
既存のオラクルシステムは、高速だが不安定な自動化と、正確だがコストのかかる人間の仲裁とをトレードオフする。
マルチエージェントLLMアーキテクチャが単一モデルベースラインよりもオラクル分解能を向上できるかどうかを評価する。
論文 参考訳(メタデータ) (2026-05-29T03:44:19Z) - Philosophical Dispositions as Behavioral Constraints for AI-Assisted Code Review: An Empirical Study [0.0]
哲学的な配置を通してAIレビュアーの行動を制限するシステムを提案する。
それぞれの分布は(それがすることを拒否して)好意的に定義される
5つのプログラミング言語にまたがる7つのレポジトリ間で50のプルリクエストをマージしたシステムの評価を行った。
論文 参考訳(メタデータ) (2026-05-21T23:57:25Z) - CascadeDebate: Multi-Agent Deliberation for Cost-Aware LLM Cascades [3.2562960801091094]
CascadeDebateは、モデルと人間の専門家を協調して精度、コスト、そして不確実性の下での棄権のバランスをとるマルチエージェントシステムである。
我々のアーキテクチャは、モデルスケールにまたがる選択的なマルチエージェント検討と単一モデル推論を交互に行い、最終的なフォールバックとして人間の専門家を導いた。
科学、医学、一般知識にまたがる5つのベンチマークで、CascadeDebateは強力なシングルモデルカスケードとスタンドアロンのマルチエージェントシステムより最大26.75パーセントパフォーマンスがある。
論文 参考訳(メタデータ) (2026-04-14T04:26:39Z) - Deterministic Fuzzy Triage for Legal Compliance Classification and Evidence Retrieval [0.0]
法律チームはますます、大量の契約上の証拠をトリアージするために機械学習を使用している。
多くのモデルは不透明で非決定論的であり、HIPAAやNERC-CIPのようなフレームワークと整合するのは難しい。
決定論的双対エンコーダと透明なファジィトリアージバンドに基づく簡単な再現可能な代替法について検討する。
論文 参考訳(メタデータ) (2026-03-08T00:31:34Z) - ACAR: Adaptive Complexity Routing for Multi-Model Ensembles with Auditable Decision Traces [3.151184728006369]
本稿では,聴覚条件下でのマルチモデルオーケストレーションのための測定フレームワークACARを提案する。
ACARは、N=3プローブサンプルから計算した自己整合分散(sigma)を使用して、単一モデル、2モデル、3モデル実行モードでタスクをルーティングする。
我々は4つのベンチマークにまたがる1,510のタスクに対してACARを評価し、7,550以上の監査可能な実行を生成した。
論文 参考訳(メタデータ) (2026-02-06T23:27:17Z) - VAPO: Efficient and Reliable Reinforcement Learning for Advanced Reasoning Tasks [49.0793012627959]
本稿では,価値に基づくパラダイム内での推論モデルに適した新しいフレームワークVAPOを提案する。
VAPOは最先端のスコアが$mathbf60.4$に達する。
同じ実験条件下で直接比較すると、VAPOはDeepSeek-R1-Zero-Qwen-32BとDAPOの結果を10点以上上回っている。
論文 参考訳(メタデータ) (2025-04-07T14:21:11Z) - Unifying Language Learning Paradigms [96.35981503087567]
データセットやセットアップ全体にわたって普遍的に有効である事前学習モデルのための統一的なフレームワークを提案する。
本研究では, 事前学習対象を相互に配置し, 異なる対象間の補間を効果的に行う方法を示す。
また,テキスト内学習において,ゼロショットSuperGLUEで175B GPT-3,ワンショット要約でT5-XXLの性能を3倍に向上させた。
論文 参考訳(メタデータ) (2022-05-10T19:32:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。