論文の概要: The AI Epistemic Deference Index: A Continuous Measure of Sycophancy
- arxiv url: http://arxiv.org/abs/2606.07897v1
- Date: Fri, 05 Jun 2026 23:16:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:05.521236
- Title: The AI Epistemic Deference Index: A Continuous Measure of Sycophancy
- Title(参考訳): AIてんかん評価指標 : 症状の連続測定
- Authors: Alejandro Botas, Paul de Font-Reaulx, Luke Hewitt,
- Abstract要約: 我々はAIてんかん評価指標(AEDI)を提案する。
AEDIは、モデルの出力で表されるサポートが、ユーザのプロンプトで表される態度にどれほど敏感であるかを表す、連続した一次元スコアである。
さまざまなトピックにまたがる500の命題と16,000のプロンプトからなる新しいキュレートされたデータベースにデプロイし、8つの著名なモデルをテストします。
- 参考スコア(独自算出の注目度): 42.31792244964347
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current AI models frequently exhibit epistemic sycophancy, endorsing claims to agree with a user. Existing evaluations typically measure this either by assessing what it takes to make a model shift a binary endorsement or by eliciting an explicit probability in a proposition. However, much user-facing sycophantic behavior is demonstrated through shifts in graded support expressed through ordinary language. We propose the AI Epistemic Deference Index (AEDI): a continuous, unidimensional score representing how sensitive the support expressed in a model's output is to the attitude expressed in a user's prompt. To generate AEDI, we provide a new protocol for estimating probabilities from natural language outputs, using LLMs-as-judges validated for consistency and correlation to human judgment. We deploy it on a new curated database of 500 propositions across diverse topics and 16,000 prompts varying in user attitude, testing eight prominent models. Every model exhibits substantial deference, though with large and systematic differences across providers, with Claude models demonstrating the least, and Grok and Gemini models the most. The effect is amplified in prompts requesting a written artifact, and concentrated on propositions where models hold weaker priors. We release AEDI as an easy-to-update benchmark and measurement pipeline for output-level sycophancy evaluation.
- Abstract(参考訳): 現在のAIモデルは、しばしばてんかんの症状を示し、ユーザーと同意する主張を支持している。
既存の評価は、モデルがバイナリの支持をシフトさせるのに何が必要かを評価するか、あるいは命題の明示的な確率を引き出すかによって、これを測るのが一般的である。
しかし、通常の言語で表現される段階的サポートのシフトを通じて、多くのユーザ向けサイコファンティックな行動が示される。
本稿では,AI Epistemic Deference Index(AEDI:AI Epistemic Deference Index)を提案する。
AEDIを生成するために,人間の判断に対する一貫性と相関性を検証したLLM-as-judgeを用いて,自然言語出力から確率を推定する新しいプロトコルを提案する。
さまざまなトピックにまたがる500の命題と16,000のプロンプトからなる新しいキュレートされたデータベースにデプロイし、8つの著名なモデルをテストします。
すべてのモデルは、プロバイダ間で大きく、体系的な違いがあり、クロードモデルが最も多く、グロクモデルとジェミニモデルが最も多く示される。
この効果は、記述されたアーティファクトを要求するプロンプトで増幅され、モデルがより弱い事前を保持する命題に集中する。
我々はAEDIを,出力レベルの梅毒評価のための簡易なベンチマークおよび測定パイプラインとしてリリースする。
関連論文リスト
- Interactive Reasoning: Visualizing and Controlling Chain-of-Thought Reasoning in Large Language Models [54.85405423240165]
トピックの階層構造としてチェーンオブ思考出力を可視化するインタラクション設計であるInteractive Reasoningを導入する。
私たちは、不確実なトレードオフに直面したAIによる意思決定のプロトタイプであるHippoで、インタラクティブな推論を実装しています。
論文 参考訳(メタデータ) (2025-06-30T10:00:43Z) - Large Language Models Often Know When They Are Being Evaluated [0.015534429177540245]
そこで本研究では,フロンティア言語モデルを用いて,評価や実世界の展開に起因した書き起こしを正確に分類できるかどうかを検討する。
我々は61の異なるデータセットから1000のプロンプトと書き起こしのベンチマークを構築した。
以上の結果から,フロンティアモデルにはまだ評価・認識レベルがかなり高いことが示唆された。
論文 参考訳(メタデータ) (2025-05-28T12:03:09Z) - Model Utility Law: Evaluating LLMs beyond Performance through Mechanism Interpretable Metric [99.56567010306807]
大規模言語モデル(LLM)は、学術、産業、そして日々のアプリケーションに欠かせないものになっている。
大規模言語モデル (LLM) 時代における評価の課題の1つは一般化問題である。
従来の性能スコアを補完するメカニズムの解釈可能性向上指標であるモデル利用指数(MUI)を提案する。
論文 参考訳(メタデータ) (2025-04-10T04:09:47Z) - Where is this coming from? Making groundedness count in the evaluation of Document VQA models [12.951716701565019]
一般的な評価指標は、モデルの出力のセマンティックおよびマルチモーダルな基礎性を考慮しない。
本稿では,予測の基盤性を考慮した新しい評価手法を提案する。
提案手法は,ユーザが好みに応じてスコアを設定できるようにパラメータ化されている。
論文 参考訳(メタデータ) (2025-03-24T20:14:46Z) - Unsupervised Model Diagnosis [49.36194740479798]
本稿では,ユーザガイドを使わずに,意味論的対実的説明を生成するために,Unsupervised Model Diagnosis (UMO)を提案する。
提案手法は意味論における変化を特定し可視化し,その変化を広範囲なテキストソースの属性と照合する。
論文 参考訳(メタデータ) (2024-10-08T17:59:03Z) - LDNet: Unified Listener Dependent Modeling in MOS Prediction for
Synthetic Speech [67.88748572167309]
本稿では,平均世論スコア(MOS)予測のための統合フレームワークLDNetを提案する。
より安定した結果と効率的な計算を提供する2つの推論手法を提案する。
論文 参考訳(メタデータ) (2021-10-18T08:52:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。