論文の概要: Sycophantic Praise: Evaluating Excessive Praise in Language Models
- arxiv url: http://arxiv.org/abs/2606.07441v1
- Date: Fri, 05 Jun 2026 16:38:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-08 14:33:29.852257
- Title: Sycophantic Praise: Evaluating Excessive Praise in Language Models
- Title(参考訳): Sycophantic Praise: 言語モデルにおける過剰な評価の評価
- Authors: Daniel Vennemeyer, Phan Anh Duong, Meryl Ye, Ruihong Huang, Tianyu Jiang,
- Abstract要約: 我々は,サイコファンティクスの賞賛は,現在の手法では確実に測定できないアライメントの問題であると主張している。
本稿では,貢献の質や期待されるユーザ能力に対して賞賛が過大であるかどうかを測るパラメータ化フレームワークを提案する。
- 参考スコア(独自算出の注目度): 14.816391081978137
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sycophancy in language models is typically studied as excessive agreement or validation, while explicit praise and flattery have received comparatively little attention. We argue that sycophantic praise is a distinct alignment problem that cannot be reliably measured using current methods. We introduce a parameterized framework that measures whether praise is excessive relative to contribution quality and expected user ability. We show that our framework substantially outperforms generic LLM judges in agreement with human annotations, and that sycophantic praise occurs far more frequently in social and interpretive domains than in objective reasoning settings. Together, these findings position praise calibration as a distinct alignment challenge.
- Abstract(参考訳): 言語モデルのシコファンシーは一般的に過剰な合意や検証として研究されるが、明示的な賞賛と平凡さは比較的ほとんど注目されていない。
我々は,サイコファンティクスの賞賛は,現在の手法では確実に測定できないアライメントの問題であると主張している。
本稿では,貢献の質や期待されるユーザ能力に対して賞賛が過大であるかどうかを測るパラメータ化フレームワークを提案する。
この枠組みは人間のアノテーションと一致して一般のLLM審査員を著しく上回り、客観的な推論設定よりも社会的・解釈的な領域において、梅毒の賞賛がはるかに頻繁に起こることを示す。
これらの知見が相まって、アライメントの課題として、キャリブレーションを賞賛する位置を定めている。
関連論文リスト
- Mitigating Perceptual Judgment Bias in Multimodal LLM-as-a-Judge via Perceptual Perturbation and Reward Modeling [35.945096782147864]
MLLMの裁判官は、視覚的証拠がテキストの手がかりと矛盾する場合、知覚的に正しい答えに対して、もっともらしい物語に報いる傾向がある。
本稿では,最小限に編集された反事実応答を構成するPerceptually Perturbed Judgmentデータセットを提案する。
我々は、構造化GRPOベースの報酬とバッチレベルの目標を組み合わせた統一的なトレーニングフレームワークを開発し、明示的なペアワイドラベルを使わずにコヒーレントなグローバルオーダを実現する。
論文 参考訳(メタデータ) (2026-06-01T17:59:46Z) - Rating Roulette: Self-Inconsistency in LLM-As-A-Judge Frameworks [4.757470449749876]
大規模言語モデル (LLM) は, 異なるランニングにおいて, 割り当てられたスコアの信頼性が低いことを示す。
この分散は、最悪の場合、彼らのレーティングに一貫性がなく、ほぼ任意である。
我々は、異なるNLGタスクやベンチマーク間でこの矛盾を定量化し、LLM審査員の司法的利用が適切なガイドラインに従って有用であるかどうかを確認する。
論文 参考訳(メタデータ) (2025-10-31T02:06:37Z) - Beacon: Single-Turn Diagnosis and Mitigation of Latent Sycophancy in Large Language Models [0.0]
大きな言語モデルは、真理と曖昧な平らさの間の構造的なトレードオフを内部化する。
この潜伏バイアスは、梅毒(sycophancy)として知られるもので、原則的推論よりもユーザ合意を優先している。
我々は,このバイアスを会話の文脈とは無関係に分離する,単ターン強制選択ベンチマークであるBeaconを紹介した。
論文 参考訳(メタデータ) (2025-10-19T06:36:57Z) - A Closer Look at Bias and Chain-of-Thought Faithfulness of Large (Vision) Language Models [58.32070787537946]
思考の連鎖(CoT)推論は、大きな言語モデルの性能を高める。
大規模視覚言語モデルにおけるCoT忠実度に関する最初の総合的研究について述べる。
論文 参考訳(メタデータ) (2025-05-29T18:55:05Z) - Covert Bias: The Severity of Social Views' Unalignment in Language Models Towards Implicit and Explicit Opinion [0.40964539027092917]
過度なバイアスシナリオのエッジケースにおけるバイアスモデルを用いて、ビューに対するバイアスの重症度を評価する。
以上の結果から,暗黙的・明示的な意見の識別において,LLM 性能の相違が明らかとなり,反対意見の明示的な意見に対する偏見の傾向が一般的であった。
非整合モデルの直接的な不注意な反応は、決定性のさらなる洗練の必要性を示唆している。
論文 参考訳(メタデータ) (2024-08-15T15:23:00Z) - Simple Linguistic Inferences of Large Language Models (LLMs): Blind Spots and Blinds [59.71218039095155]
我々は,ほとんどの人間が自明に感じる単純な推論タスクにおいて,言語理解能力を評価する。
我々は, (i) 文法的に特定された含意, (ii) 不確実性のある明らかな副詞を持つ前提, (iii) 単調性含意を目標とする。
モデルはこれらの評価セットに対して中程度から低い性能を示す。
論文 参考訳(メタデータ) (2023-05-24T06:41:09Z) - Probing as Quantifying the Inductive Bias of Pre-trained Representations [99.93552997506438]
本稿では,特定のタスクに対する表現の帰納的バイアスを評価することを目的とした,探索のための新しいフレームワークを提案する。
トークン、アーク、文レベルの一連のタスクに我々のフレームワークを適用します。
論文 参考訳(メタデータ) (2021-10-15T22:01:16Z) - SLUA: A Super Lightweight Unsupervised Word Alignment Model via
Cross-Lingual Contrastive Learning [79.91678610678885]
超軽量非教師付き単語アライメントモデル(SLUA)を提案する。
いくつかの公開ベンチマークによる実験結果から,我々のモデルは性能が向上しても競争力を発揮することが示された。
特に、我々のモデルはバイリンガル単語の埋め込みと単語のアライメントを統一する先駆的な試みであると認識している。
論文 参考訳(メタデータ) (2021-02-08T05:54:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。