Fugu-MT 論文翻訳(概要): An LLM-Native Psychometric Instrument Does Not Predict LLM Behavior: Evidence Across 25 Models

論文の概要: An LLM-Native Psychometric Instrument Does Not Predict LLM Behavior: Evidence Across 25 Models

arxiv url: http://arxiv.org/abs/2606.09843v1
Date: Fri, 24 Apr 2026 04:42:09 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-15 07:09:36.796158
Title: An LLM-Native Psychometric Instrument Does Not Predict LLM Behavior: Evidence Across 25 Models
Title（参考訳）: LLM-Native Psychometric InstrumentはLLMの挙動を予測しない:25モデルにわたる証拠
Authors: Juan Manuel Contreras,
Abstract要約: 大規模言語モデル(LLM)は人格に関する安定した自己レポートを生成するが、これらの自己レポートは観察された振る舞いを予測しない。探索因子分析(EFA)によるLCM行動量からボトムアップを導出した最初の心理測定器を構築した。 EFAは5要素構造 – 応答性,参照性,ボルト性,ガード性,Verbosity – を,優れたスプリット・半分のレプリカ性と内部整合性で実現した。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large language models (LLMs) produce stable self-reports on personality inventories, but these self-reports do not predict observed behavior. Whether this gap reflects a mismatch between LLMs and human trait constructs, or a deeper property of LLM self-report itself, has been unresolved. We constructed the first psychometric instrument whose constructs are derived bottom-up from LLM behavioral affordances via exploratory factor analysis (EFA). We administered 300 items (240 direct Likert + 60 scenario-based) spanning 12 candidate behavioral dimensions to 25 LLMs across 17 model families, each item administered 30 times. EFA yielded a 5-factor structure -- Responsiveness, Deference, Boldness, Guardedness, and Verbosity -- with excellent split-half replicability (all Tucker $φ\geq .957$) and internal consistency (all $α\geq .930$). To test predictive validity, we collected 2,500 open-ended behavioral samples rated by 151 human raters and a three-judge LLM ensemble. Human and judge ratings agreed ($\bar{r} = .51$), but neither tracked self-report: self-report--human $\bar{r} = -.01$, self-report--judge $\bar{r} = .13$, with no factor-level self-report--human CI excluding zero. On Responsiveness, self-report correlated with LLM judges ($r = .53$) but not humans ($r = .04$), even though humans and judges agreed ($r = .59$) -- indicating self-report items and LLM judges share variance that human observers do not, a confound invisible to within-ensemble reliability checks. We release the instrument as a diagnostic probe for alignment-shaped self-description and a concrete risk factor for LLM-as-judge pipelines.
Abstract（参考訳）: 大規模言語モデル(LLM)は人格に関する安定した自己レポートを生成するが、これらの自己レポートは観察された振る舞いを予測しない。このギャップがLLMとヒトの形質構造とのミスマッチを反映しているのか、あるいはLLMの自己申告自体の深い性質は未解決である。本研究では, 探索因子分析(EFA)を用いて, LLM行動量からボトムアップを導出した最初の心理測定装置を構築した。対象の行動次元が12, 25 LLM, モデルファミリーが17, それぞれの項目が30回, それぞれ300項目(240 Direct Likert + 60 シナリオベース)を投与した。 EFAは5要素構造 – 応答性,参照性,ボルト性,ガード性,Verbosity – を備え,スプリット半減期(すべてTucker $φ\geq .957$)と内部一貫性(すべてα\geq .930$)に優れていた。予測妥当性を検証するために,151人のラッカーと3人組のLDMアンサンブルによって評価された2500個のオープンエンド行動サンプルを収集した。人間と裁判官のレーティングは同意する(「\bar{r} = .51$」)が、いずれも自己申告は行わない: self-report--human $\bar{r} = -.01$、 self-report--judge $\bar{r} = .13$。応答性について、自己報告はLLMの裁判官(r = .53$)と相関するが、人間(r = .04$)とは一致していない(r = .59$)。この機器をアライメント形状の自己記述のための診断プローブとしてリリースし、LLM-as-judgeパイプラインの具体的なリスクファクターとして公開する。

関連論文リスト

Attributing Emergence in Million-Agent Systems [68.53670424791751]
大規模言語モデル(LLM)は、個々のエージェントにおける人間のような推論と意思決定をシミュレートすることができる。このような研究は、個々のエージェントにマクロな出現をもたらす必要がある。 Aumann--Shapley path-integral attribution to LLM-powered MAS at million-agent scale。
論文参考訳（メタデータ） (2026-05-12T01:49:41Z)
Do We Still Need Humans in the Loop? Comparing Human and LLM Annotation in Active Learning for Hostility Detection [68.37351671559675]
アクティブな学習は、無視可能なコストで短いプロンプトから何千ものインスタンスに注釈を付けることができる。 LLMラベルはALループ内で人間のラベルを置き換えることができ、ALはコーパス全体を一度にラベル付けできるときに必要か? 277,902人のドイツの政治的TikTokコメントの新しいデータセットについて、両方の質問を調査した。
論文参考訳（メタデータ） (2026-04-15T14:10:58Z)
Evaluating Alignment of Behavioral Dispositions in LLMs [15.282965130762648]
社会的文脈における反応を形作る行動配置に着目する。 LLMによって表現される配位が人間の配位とどのように密接に一致しているかを研究するための枠組みを導入する。
論文参考訳（メタデータ） (2026-02-11T19:59:12Z)
Blind to the Human Touch: Overlap Bias in LLM-Based Summary Evaluation [89.52571224447111]
大規模言語モデル(LLM)の判断は、要約のようなタスクのために、伝統的なアルゴリズムベースのメトリクスと併用されることが多い。要約領域における人書き応答と重なる関数としてLLM判定バイアス分析を提案する。
論文参考訳（メタデータ） (2026-02-07T19:39:28Z)
Knowing But Not Doing: Convergent Morality and Divergent Action in LLMs [18.492825007258656]
Redditから派生した3000のアドバイス検索シナリオのデータセットであるValAct-15kを提示する。シナリオベースの決定では、ほぼ完全なクロスモデル一貫性が得られます。人間と大言語モデルは、自己申告された値と実行された値の間の弱い対応を示す。
論文参考訳（メタデータ） (2026-01-12T20:07:30Z)
Measuring and identifying factors of individuals' trust in Large Language Models [0.0]
LLM(Large Language Models)は、人間のように見える会話の交換を行う。 LLMに対する個人の信頼度を測定する新しいフレームワークとして、TILLMI(Trust-In-LLMs Index)を紹介した。
論文参考訳（メタデータ） (2025-02-28T13:16:34Z)
LLMs instead of Human Judges? A Large Scale Empirical Study across 20 NLP Evaluation Tasks [106.09361690937618]
人間の判断の代わりにLPMを用いてNLPモデルを評価する傾向が高まっている。 JUDGE-BENCHは20個のNLPデータセットのコレクションで、人間のアノテーションで、幅広い評価された特性やデータの種類をカバーしています。アノテーションを複製できるため、オープンウェイトモデルとプロプライエタリモデルの両方をカバーする11の現在のLCMを評価します。
論文参考訳（メタデータ） (2024-06-26T14:56:13Z)
LLM Evaluators Recognize and Favor Their Own Generations [33.672365386365236]
自己認識能力が自己評価に寄与するかどうかを検討する。自己認識能力と自己参照バイアスの強さとの間には線形な相関関係が認められた。我々は、自己認識が偏見のない評価やAIの安全性をより一般的に阻害する方法について論じる。
論文参考訳（メタデータ） (2024-04-15T16:49:59Z)
Pride and Prejudice: LLM Amplifies Self-Bias in Self-Refinement [75.7148545929689]
大規模言語モデル(LLM)は、特定のタスクの自己フィードバックを通じてパフォーマンスを向上し、他のタスクを劣化させる。我々は、LSMの自己バイアス(自称世代を好む傾向)を正式に定義する。我々は、翻訳、制約付きテキスト生成、数学的推論の6つのLCMを解析する。
論文参考訳（メタデータ） (2024-02-18T03:10:39Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。