論文の概要: From `May' to `Is': Certainty Distortion in Language Model Rewriting
- arxiv url: http://arxiv.org/abs/2606.07951v1
- Date: Sat, 06 Jun 2026 02:53:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:05.57964
- Title: From `May' to `Is': Certainty Distortion in Language Model Rewriting
- Title(参考訳): May から `Is' へ:言語モデル書き換えにおける確実な歪み
- Authors: Catarina G Belem, Shang Wu, Hongyu Yao, Mark Steyvers, Sameer Singh, Padhraic Smyth,
- Abstract要約: 言語モデル(LM)における確実性歪みについて検討する。
本稿では,集団レベルでの確実性判定と一致するLMに基づく評価基準を提案する。
これらの結果から,確実性歪みが最大75%のLM出力に影響を及ぼし,書き直し作業において系統的に非対称であることが示唆された。
- 参考スコア(独自算出の注目度): 22.185142741738783
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Humans increasingly turn to Language Models (LMs) in ways that shape beliefs and drive decisions, including discussing, rewriting, and summarizing information from scientific articles, news, and medical reports. However, in these domains, where how confidently a claim is expressed matters, little is known about whether LMs faithfully preserve it. In this work, we investigate certainty distortion in LMs, defined as meaningful changes in expressed certainty when semantic content is preserved. We propose an LM-based evaluation metric that is consistent with population-level judgments of certainty. Using this metric, we characterize certainty distortion across different sizes and families of models in the context of scientific and medical communication tasks. Our results show that certainty distortion affects up to 75\% of LM outputs and is systematically asymmetric in rewriting tasks with most LMs being 1.5-2$\times$ more likely to increase the expressed certainty than to decrease it. These effects can compound over repeated paraphrasing: in the medical domain, claude-haiku-4-5 increases certainty of 20\% examples after a single iteration, increasing to 40\% after five iterations. Prompt-based interventions reduce overall certainty distortion but do not eliminate it. Together, these findings reveal a general bias toward inflating expressed certainty, with direct implications for users who rely on LMs in high-stakes domains.
- Abstract(参考訳): 人間は、信念を形作り、科学的記事、ニュース、医療報告から情報を議論、書き直し、要約するなど決定を導く方法で言語モデル(LM)に目を向けるようになっている。
しかし、これらの領域では、主張がいかに自信を持って表現されるかが問題であり、LMがそれを忠実に保存するかどうかはほとんど分かっていない。
本研究では,意味的内容が保存されている場合の表現的確実性において意味のある変化として定義されるLMの確実性歪みについて検討する。
本稿では,集団レベルでの確実性判定と一致したLMに基づく評価指標を提案する。
この測定値を用いて、科学的・医学的なコミュニケーションタスクの文脈において、異なるサイズのモデルやモデルのファミリーにまたがる確実性歪みを特徴づける。
以上の結果から,自信の歪みは最大75\%のLM出力に影響し,ほとんどのLMが1.5-2$\times$で書き直し作業において系統的に非対称であることが明らかとなった。
医療領域では、クロードハイク-4-5は1回の反復で20 %のサンプルを確実に増加させ、5回の反復で40 %まで増加する。
プロンプトに基づく介入は全体的な確実性の歪みを減少させるが、それを排除しない。
これらの結果から,高吸収領域のLMに依存するユーザに対して,インフレーションに対する一般的な偏見が示唆された。
関連論文リスト
- Toxic HallucinAItions: Perturbing Prompts and Tracing LLM Circuits [17.92293259974243]
語彙と音調に基づく急激な摂動が大規模言語モデル(LLM)の事実的信頼性に与える影響について検討する。
有害な語彙摂動は事実の精度を一貫して低下させ,不確実性を増大させる一方,丁寧な表現は限定的かつ一貫性のない変化をもたらす。
論文 参考訳(メタデータ) (2026-05-29T06:58:47Z) - Compared to What? Baselines and Metrics for Counterfactual Prompting [39.56472929066589]
患者の性別を外科的に変化させると,MedQAの14.9%のフリップ率を予測する。
本稿では,目標介入下で観察される相違点と,パラフレーズ入力によって引き起こされる相違点を比較検討する枠組みを提案する。
一般モデル感度を考慮すると,これらの効果は大きく消散することがわかった。
論文 参考訳(メタデータ) (2026-05-01T19:23:33Z) - Quantifying Semantic Emergence in Language Models [31.608080868988825]
大規模言語モデル (LLM) は意味論的意味を捉える特別な能力として広く認識されている。
本研究では,入力トークンから意味を抽出するLLMの能力を測定するために,量的指標である情報創発(IE)を導入する。
論文 参考訳(メタデータ) (2024-05-21T09:12:20Z) - Uncertainty in Language Models: Assessment through Rank-Calibration [65.10149293133846]
言語モデル(LM)は、自然言語生成において有望な性能を示している。
与えられた入力に応答する際の不確実性を正確に定量化することは重要である。
我々は、LMの確実性と信頼性を評価するために、Rank$-$Calibration$と呼ばれる斬新で実用的なフレームワークを開発する。
論文 参考訳(メタデータ) (2024-04-04T02:31:05Z) - Fact-Checking the Output of Large Language Models via Token-Level Uncertainty Quantification [116.77055746066375]
大型言語モデル(LLM)は幻覚、すなわちその出力に誤った主張を生じさせることで有名である。
本稿では,トークンレベルの不確実性定量化に基づくファクトチェックと幻覚検出パイプラインを提案する。
論文 参考訳(メタデータ) (2024-03-07T17:44:17Z) - Relying on the Unreliable: The Impact of Language Models' Reluctance to Express Uncertainty [53.336235704123915]
提案手法は, 自然言語による応答の信頼度と, LMによる不確実性に応答して下流ユーザーがどのように振る舞うかを考察する。
誤応答を生じた場合でも,LMは疑問に答える際の不確実性を表現することに消極的であることがわかった。
我々は、人間の実験によって、LM過信のリスクを検証し、ユーザがLM世代に大きく依存していることを示します。
最後に、トレーニング後のアライメントに使用する嗜好アノテートデータセットを調査し、不確実性のあるテキストに対して人間がバイアスを受けていることを確認する。
論文 参考訳(メタデータ) (2024-01-12T18:03:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。