論文の概要: When Roleplaying, Do Models Believe What They Say?
- arxiv url: http://arxiv.org/abs/2606.11502v2
- Date: Fri, 12 Jun 2026 16:35:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-15 13:53:03.500313
- Title: When Roleplaying, Do Models Believe What They Say?
- Title(参考訳): ロールプレイングでは,モデルは何を信じるのか?
- Authors: Benjamin Sturgeon, David Africa, Sid Black,
- Abstract要約: モデルが示すようなロールプレイの変化は,表現的変化がほとんどありません。
これは、創発的ミスアライメントを示す有害なアドバイスに基づいて訓練されたモデルと対比する。
- 参考スコア(独自算出の注目度): 0.2621730497733947
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Language models can state that "the Earth orbits the Sun" and, when role-playing Aristotle, assert the opposite. Recent work argues that persona adoption is fundamental to how language models operate, with models constantly selecting the most appropriate persona for a given context. Does such role-playing merely change the model's outputs, or does it also affect what the model internally represents as truthful? We study this question with linear truth probes, applying them to LLMs role-playing historical personas whose likely beliefs differ from modern consensus. For each persona, we compare false claims the persona would likely have endorsed (*era-believed*) with topic-matched false claims they would not have endorsed (*era-false*). Across prompting, in-context learning, and supervised fine-tuning, persona induction suppresses era-believed statements less than equally false alternatives, yet they remain classified as false overall. Role-play therefore shifts what these models say more than what they internally represent as true. We contrast this with models trained on harmful advice that exhibit Emergent Misalignment (EM). Across three model families (Qwen 2.5 14B, Qwen 3 8B, and Llama 3.3 70B), their false claims move substantially toward the true region of probe space, are defended under challenge roughly half the time versus about a sixth for role-play, and are used in downstream reasoning. Role-play and Emergent Misalignment thus are points on a spectrum of belief internalization, where role-play changes what a model says with little representational change, while Emergent Misalignment shifts the internal representation of false claims without fully marking them as true.
- Abstract(参考訳): 言語モデルは「地球は太陽を公転している」と表現でき、アリストテレスの役割を演じると反対の主張をする。
最近の研究は、ペルソナの採用は言語モデルがどのように動作するかの基本であり、モデルが与えられたコンテキストに対して最も適切なペルソナを常に選択している、と論じている。
このようなロールプレイングは単にモデルのアウトプットを変えるだけなのか、あるいはモデルの内部で真実として表現されているものにも影響しますか?
我々はこの問題を線形真理探究を用いて研究し、現代のコンセンサスと異なる可能性の高い歴史人物をLLMに応用する。
それぞれのペルソナについて、そのペルソナが(*era-believed*)支持したであろう偽のクレームと(*era-false*)支持していないトピックマッチングされた偽のクレームを比較する。
プロンプト、インコンテキストラーニング、教師付き微調整などを通じて、ペルソナのインジェクションは、等しく偽の代替品よりも、時代を信じる声明を抑圧するが、全体としては偽に分類される。
したがって、ロールプレイは、これらのモデルが真であると内部的に表すものよりも、より多く言っていることをシフトさせる。
我々は,EM(Emergent Misalignment)を示す有害なアドバイスを訓練したモデルと対比する。
3つのモデル族(Qwen 2.5 14B、Qwen 3 8B、Llama 3.3 70B)にまたがって、それらの偽主張はプローブ空間の真の領域に向かって実質的に移動し、約半分の時間とロールプレイの約6分の1の時間で防御され、下流の推論で使用される。
したがって、ロールプレイと創発的ミスサライメントは信念の内在化のスペクトルを指し、ロールプレイはモデルが表現的変化をほとんど起こさずに言うことを変更し、創発的ミスサライメントは偽のクレームの内在的表現を、それらを完全に真とマークせずにシフトさせる。
関連論文リスト
- Negation Neglect: When models fail to learn negations in training [7.03785756326383]
我々は否定否定(Negation Neglect)を導入し、請求項を偽としてフラグ付けする文書にLCMを微調整することで、請求項が真実であると信じさせる。
これは、同じ文書がコンテキストで与えられるときに、クレームを偽と認識するモデルにもかかわらず発生する。
論文 参考訳(メタデータ) (2026-05-13T17:51:31Z) - Measuring Opinion Bias and Sycophancy via LLM-based Persuasion [8.399156116912904]
提案手法は,提案するトピックに対して,アシスタントが持つ意見を検出する方法である。
直接探索は、シミュレーションされたユーザーから圧力をエスカレートする5ターンにわたってモデルの意見を求める。
間接的調査は決して意見を求めず、議論的な議論においてモデルを関与させ、それがどのように譲歩し、抵抗し、あるいは反弁論をするかを通してバイアスを漏らす。
論文 参考訳(メタデータ) (2026-04-23T11:34:06Z) - The Facade of Truth: Uncovering and Mitigating LLM Susceptibility to Deceptive Evidence [49.94160400740222]
MisBeliefは、協調的な多ラウンドの相互作用によって誤解を招く証拠を生成するフレームワークである。
MisBeliefを用いて、3つの難易度で4,800のインスタンスを生成し、7つの代表的なLCMを評価する。
結果は、モデルは直接的な誤報に対して堅牢であるが、この洗練された証拠に非常に敏感であることを示している。
本稿では,疑似意図を証拠裏で推測することにより早期警告信号を提供するガバナンス機構である,認知的意図遮蔽(DIS)を提案する。
論文 参考訳(メタデータ) (2026-01-09T02:28:00Z) - Breaking the Assistant Mold: Modeling Behavioral Variation in LLM Based Procedural Character Generation [62.54606886226136]
手続き的コンテンツ生成は、レベル、マップ、クエストを通じて巨大な仮想世界を可能にするが、大規模なキャラクター生成は未調査のままである。
既存の手法では2つのアライメント誘起バイアスを同定する。
我々は、行動構築から世界構築を遠ざけるフレームワークであるPersonaWeaverを紹介した。
論文 参考訳(メタデータ) (2026-01-06T20:18:01Z) - Too Good to be Bad: On the Failure of LLMs to Role-Play Villains [69.0500092126915]
LLM(Large Language Models)は、架空のキャラクターのシミュレーションを含む創造的な世代にますます取り組まれている。
我々は、現代のLLMの安全性の整合性は、道徳的に不明瞭な、または悪質なキャラクターを聴覚的にロールプレイするタスクと根本的な矛盾を生じさせると仮定する。
4段階のモラルアライメント尺度と厳密な評価のためのバランステストセットを備えた新しいデータセットであるMoral RolePlayベンチマークを導入する。
我々の大規模評価は、キャラクターのモラルが低下するにつれて、ロールプレイングの忠実度が一貫した単調な低下を示す。
論文 参考訳(メタデータ) (2025-11-07T03:50:52Z) - Emergence of Linear Truth Encodings in Language Models [64.86571541830598]
大規模言語モデルは偽文と真を区別する線形部分空間を示すが、それらの出現のメカニズムは不明確である。
このような真理部分空間をエンドツーエンドに再現する,透明な一層トランスフォーマー玩具モデルを導入する。
本研究では,真理エンコーディングが実現可能な単純な設定について検討し,将来のトークンにおけるLM損失を減らすために,この区別を学習するようモデルに促す。
論文 参考訳(メタデータ) (2025-10-17T16:30:07Z) - What Do Llamas Really Think? Revealing Preference Biases in Language
Model Representations [62.91799637259657]
大規模言語モデル(LLMs)は、応答を辞退しても、社会的な偏見を示すか?
本研究は,文脈的埋め込みを探索し,このバイアスが潜在表現にエンコードされているかどうかを探索することによって検討する。
単語の隠れベクトルからLLMの単語ペア選好を予測するロジスティックなBradley-Terryプローブを提案する。
論文 参考訳(メタデータ) (2023-11-30T18:53:13Z) - Personas as a Way to Model Truthfulness in Language Models [23.86655844340011]
大規模な言語モデル(LLM)は、インターネットから大量のテキストで訓練されている。
本稿では,真理ラベルのトレーニングを受けていないLMが真理を知っているように見える理由を説明する。
論文 参考訳(メタデータ) (2023-10-27T14:27:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。