論文の概要: Self-Preference Is Weak or Absent in Verifiable Instruction-Following Revision: A Four-Model Test Under Genuine Authorship
- arxiv url: http://arxiv.org/abs/2606.20093v1
- Date: Thu, 18 Jun 2026 11:12:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-19 18:23:39.813445
- Title: Self-Preference Is Weak or Absent in Verifiable Instruction-Following Revision: A Four-Model Test Under Genuine Authorship
- Title(参考訳): 自己評価は、検証可能なインストラクションの欠如、あるいは欠如している:4モデルテスト
- Authors: William Guey, Pierrick Bougault,
- Abstract要約: 大規模な言語モデルは、テキストをレビューし、修正する。
文書化された自己参照バイアス(裁判官として振る舞うときに自分の世代を好むモデル)は、モデルが自身の著作に対する有効な修正にも抵抗するかどうかという疑問を提起する。
我々は、"valid"が他のモデルではなく、決定論的検証によって決定される設定でテストする。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) increasingly review and revise text, including their own. A documented self-preference bias (models favoring their own generations when acting as judges) raises the question of whether models also resist valid corrections to their own writing. We test this in a setting where "valid" is decided not by another model but by a deterministic verifier: instruction-following revision on IFEval. A model writes a draft; the official IFEval checker confirms the draft violates a constraint and that a candidate edit fixes it; the model then accepts or rejects that edit either as the genuine in-context author or as a fresh model that sees the draft neutrally. Across four mid-tier model families and 85 author-versus-fresh comparisons, we find no detectable self-preference: authors reject verified-good fixes to their own drafts at essentially the same rate as fresh models judging the same drafts (gap -5.1 pp, 95% CI [-12.9, +2.7]). A self-skepticism hint from a smaller pilot did not replicate at scale. The one robust observation is qualitative: when authors do reject a verified-good fix, 97% of their stated reasons are flaw-catching rather than preference, that is, about the character of rejections, not an elevated rate. Effects smaller than ~13 pp cannot be excluded at this sample size.
- Abstract(参考訳): 大規模言語モデル (LLM) は、テキストのレビューや改訂を徐々に進めている。
文書化された自己参照バイアス(裁判官として振る舞うときに自分の世代を好むモデル)は、モデルが自身の著作に対する有効な修正にも抵抗するかどうかという疑問を提起する。
我々は、"valid"が他のモデルではなく、決定論的検証によって決定される設定でテストする。
モデルはドラフトを書き、公式のIFEvalチェッカーはドラフトが制約に違反し、候補が修正することを確認した。
4つの中層モデルファミリと85の著者対フレッシュ比較において、検出可能な自己参照は見つからない:著者は同じドラフトを判断する新しいモデル(gap -5.1 pp, 95% CI [-12.9, +2.7])と基本的に同じ割合で、自分自身のドラフトに対する検証済みの修正を拒否する。
小さなパイロットからの自己懐疑的なヒントは、大規模に複製されなかった。
著者が検証済みのバグ修正を拒絶した場合、その理由の97%が好ましくないというよりも、むしろ拒絶の性格についてであり、高い率ではない。
13pp以下の効果は、このサンプルサイズでは除外できない。
関連論文リスト
- Draft-OPD: On-Policy Distillation for Speculative Draft Models [49.23782868133977]
投機的復号化は,提案したトークンを並列に検証した軽量なドラフトモデルとターゲットモデルを組み合わせることで,大規模言語モデル推論を加速させる。
本稿では,安定な継続のために目標支援ロールアウトを利用するDraft-OPDを提案する。
論文 参考訳(メタデータ) (2026-05-28T04:30:22Z) - Hidden Measurement Error in LLM Pipelines Distorts Annotation, Evaluation, and Benchmarking [0.20305676256390937]
本論文は,不確実性を情報源に分解し,より多くのデータで縮小する分散を識別し,総誤差を低減するためにデザインスタディ・プロジェクションを用いる。
イデオロギーアノテーション、安全性分類、MMLUベンチマーク、および人間公認プロパガンダ監査へのアプローチの適用により、ドメインとスコアリング方法によって異なる支配的な分散源が明らかになる。
論文 参考訳(メタデータ) (2026-04-13T14:58:15Z) - HLE-Verified: A Systematic Verification and Structured Revision of Humanity's Last Exam [63.84155758655084]
HumanityのLast Exam (HLE)は、フロンティアの大規模言語モデルを評価するために広く使われているベンチマークである。
HLE-Verifiedは,透過的検証プロトコルときめ細かい誤り分類法を備えたHLEの検証および改訂版である。
我々は,HLEとHLE-Verifiedの7つの最先端言語モデルを評価し,平均7~10ポイントの絶対精度を観測した。
論文 参考訳(メタデータ) (2026-02-15T02:50:15Z) - Are LLM Evaluators Really Narcissists? Sanity Checking Self-Preference Evaluations [3.262230127283452]
審査員が不正に完了したクエリに応答すると,評価者が自己優先の判断を下す可能性があることを示す。
評価基準(Evaluator Quality Baseline)を導入し,審査員が不正に投票した確率と,別のモデルから不正な反応を投票した確率とを比較した。
論文 参考訳(メタデータ) (2026-01-30T04:38:18Z) - Judging with Confidence: Calibrating Autoraters to Preference Distributions [56.17041629492863]
信頼性の高いオートラッターは、対象の個体群によって定義される嗜好の完全な分布をモデル化することを学ぶ必要がある、と我々は主張する。
異なるデータ条件に合わせた2つの学習方法を提案する。
この結果から, 分布マッチング目的の微調整オートレーダは, 目的の好み分布に整合した有言確率予測を導出することがわかった。
論文 参考訳(メタデータ) (2025-09-30T20:36:41Z) - Dissecting Human and LLM Preferences [80.55271307662365]
人間は誤りに敏感ではなく、自分の姿勢を支持する反応を好んでおり、モデルが限界を認めている場合、明確な嫌悪を示します。
GPT-4-Turboのような先進的なLCMは、より正確さ、明快さ、無害さを強調している。
嗜好に基づく評価は意図的に操作可能であることを示す。
論文 参考訳(メタデータ) (2024-02-17T14:34:31Z) - TACRED Revisited: A Thorough Evaluation of the TACRED Relation
Extraction Task [80.38130122127882]
TACREDはリレーショナル抽出(RE)において最も大きく、最も広く使われているクラウドソースデータセットの1つである
パフォーマンスの天井に到達したのか、改善の余地はあるのか?
ラベルエラーは絶対F1テストエラーの8%を占めており、例の50%以上を可逆化する必要がある。
論文 参考訳(メタデータ) (2020-04-30T15:07:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。