論文の概要: LLMs Can Better Capture Human Judgments--With the Right Prompts
- arxiv url: http://arxiv.org/abs/2606.12754v1
- Date: Wed, 10 Jun 2026 23:42:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-12 15:55:27.503348
- Title: LLMs Can Better Capture Human Judgments--With the Right Prompts
- Title(参考訳): LLMは正しいプロンプトで人間の判断をより良くする
- Authors: Danica Dillion, Chen Cecilia Liu, Baihui Wang, Daniele Barolo, Tanmay Rajore, Niket Tandon, Pranathi Ravikumar, Kurt Gray,
- Abstract要約: 一般的に述べられている2つの制限は、大きな言語モデルは応答の完全な分布を捉えず、その判断は単語のバリエーションによって不安定であるということである。
我々は、AIと人間のアライメントを改善するのに、いかにシンプルなエレケーション技術が役立つかを示す。
- 参考スコア(独自算出の注目度): 7.957808148711568
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Are large language models (LLMs) bad at capturing human judgment? Two commonly stated limitations are that LLMs fail to capture full distributions of responses, and that their judgments are unstable across wording variations. We demonstrate simple prompting strategies that mitigate these limitations. Across two datasets--a U.S.-representative set of 144 moral scenarios and 38 moral beliefs from the International Social Survey Programme's Family and Changing Gender Roles module covering 32 countries--we show how simple elicitation techniques help improve AI-human alignment. First, prompting models to report standard deviations and response proportions recovers the full range of human responses better than common strategies. Second, ensuring scenarios are clear to human participants--as reflected in human confusion ratings--boosts model alignment, and LLMs can track human confusion ratings. At the same time, we find that LLMs' estimates of their own error are poorly calibrated, though they can predict human variability relatively well. These results suggest that asking better questions to LLMs can yield better answers.
- Abstract(参考訳): 大きな言語モデル(LLM)は人間の判断を捉えるのに悪いのか?
一般的に述べられている2つの制限は、LLMが応答の完全な分布を捉えず、その判断が単語のバリエーションによって不安定であることである。
これらの制限を緩和する単純なプロンプト戦略を実証する。
米国を代表する144の道徳的シナリオと、国際社会調査プログラムのファミリーと32カ国をカバーするジェンダーロールのモジュールの38の道徳的信念の2つのデータセットで、簡単な説明法がAIと人間のアライメントの改善にどのように役立つかを示している。
第一に、標準偏差と応答率の報告をモデルに促すことは、一般的な戦略よりも人間の反応の完全な範囲を回復させる。
第二に、シナリオの明確化は、人間の混乱評価を反映したものであり、モデルアライメントをブーストし、LLMは人間の混乱評価を追跡することができる。
同時に、LSMの自己誤差推定は、人間の多様性を比較的よく予測できるが、校正が不十分であることが判明した。
これらの結果は、LCMにより良い質問をすることで、より良い回答が得られることを示唆している。
関連論文リスト
- Augmenting Human Evaluation with LLM Judges: How Many Human Reviews Do You Need? [1.111977509278551]
大規模言語モデル(LLM)は、ハイテイクなアプリケーションを含むAIシステムの自動評価手段として、ますます利用されている。
専門家の人間格付けは高価でスケールが難しいが、LSM格付けは低コストで迅速に作成できる。
本稿では,LLM審査員の役割を代用的から補助的へとシフトさせ,LLM-as-a-judgeパラダイムを人的評価の強化の1つとして定式化する。
論文 参考訳(メタデータ) (2026-05-08T17:13:08Z) - Blind to the Human Touch: Overlap Bias in LLM-Based Summary Evaluation [89.52571224447111]
大規模言語モデル(LLM)の判断は、要約のようなタスクのために、伝統的なアルゴリズムベースのメトリクスと併用されることが多い。
要約領域における人書き応答と重なる関数としてLLM判定バイアス分析を提案する。
論文 参考訳(メタデータ) (2026-02-07T19:39:28Z) - Do LLMs Align Human Values Regarding Social Biases? Judging and Explaining Social Biases with LLMs [24.53996114318076]
大規模言語モデル(LLM)は、人間の値と不一致した場合、望ましくない結果をもたらす可能性がある。
これまでの研究で、専門家が設計したかエージェントベースのエミュレートされたバイアスシナリオを用いて、LLMと人間の価値の相違を明らかにしてきた。
本研究では,異なる種類のバイアスシナリオにおける社会的バイアス(HVSB)に関する人的価値とLLMのアライメントについて検討する。
論文 参考訳(メタデータ) (2025-09-17T09:58:28Z) - Do LLMs exhibit human-like response biases? A case study in survey
design [66.1850490474361]
大規模言語モデル(LLM)が人間の反応バイアスをどの程度反映しているかについて検討する。
アンケート調査では, LLMが人間のような応答バイアスを示すかどうかを評価するためのデータセットとフレームワークを設計した。
9つのモデルに対する総合的な評価は、一般のオープンかつ商用のLCMは、一般的に人間のような振る舞いを反映しないことを示している。
論文 参考訳(メタデータ) (2023-11-07T15:40:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。