論文の概要: The Amplifying Mirror: Locating and Steering the Partisan Direction inside a Large Language Model
- arxiv url: http://arxiv.org/abs/2606.08792v1
- Date: Sun, 07 Jun 2026 19:17:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:06.450989
- Title: The Amplifying Mirror: Locating and Steering the Partisan Direction inside a Large Language Model
- Title(参考訳): 増幅ミラー:大規模言語モデル内のパルチザン方向の位置とステアリング
- Authors: Wendy K. Tam,
- Abstract要約: モデルの活性化空間において、パルチザンの政治的アイデンティティがコード化されていることを示す。
米国議会の現職議員からのツイート190,491件をラベル付きトレーニングデータとして使用し、Llama 3.1 8Bインストラクトモデルの隠れ状態に関する線形プローブを訓練する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models are rapicly replacing search engines as the primary interface between people and information. Unlike search engines, which retrieve existing content, LLMs generate novel text shaped by internal representations learned during training. Here we show that partisan political identity is encoded in the model's activation space, and that this direction directly shapes generation. Using 190,491 tweets from sitting members of the U.S. Congress as labeled training data, we train linear probes on the hidden states of the Llama 3.1 8B Instruct model. We identify a single geometric axis at layer 18 that separates Republican from Democratic text with an AUC of 0.945 and a Cohen's d of 1.94, and use sparse autoencoders to decompose that axis into interpretable partisan features. Causally intervening along this axis, ablating or amplifying the partisan component mid-generation, produces systematic shifts in the model's output. We witness stance reversals, register shifting, and structured fabrications of authority. Our results demonstrate that partisan bias in language models is not a vague emergent property but a learned geometric feature that can be precisely located and steered. Partisan bias is not a bug to be patched, but a structural property of how these models encode information about their users. As LLMs displace search engines as the interface to knowledge, understanding that product design (and its consequences) will be essential for navigating the legal, social, and political transitions from an information ecosystem that is curated to one that is generated.
- Abstract(参考訳): 大規模な言語モデルは、人と情報の主なインターフェースとして、検索エンジンを著しく置き換えている。
既存のコンテンツを検索する検索エンジンとは異なり、LLMはトレーニング中に学習した内部表現によって形成された新しいテキストを生成する。
ここでは、このモデルの活性化空間において、パルチザン的な政治的アイデンティティが符号化され、この方向が生成を直接生成することを示す。
米国議会の現職議員からのツイート190,491件をラベル付きトレーニングデータとして使用し、Llama 3.1 8Bインストラクトモデルの隠れ状態に関する線形プローブを訓練する。
我々は、共和党を民主党のテキストから0.945のAUCと1.94のCohenのdで分離する18層に1つの幾何学軸を同定し、スパースオートエンコーダを用いて、その軸を解釈可能なパルチザン特徴に分解する。
この軸に沿って因果的に介入し、パルチザンの中間世代を非難または増幅し、モデルの出力に体系的な変化をもたらす。
我々は、スタンス・リバーサル、レジスタ・シフト、および権限の構造化を目撃する。
以上の結果から,言語モデルにおける偏見バイアスは曖昧な創発的特性ではなく,正確な位置と操舵が可能な幾何学的特徴であることが示唆された。
パーティショナリズムバイアスはパッチを当てるべきバグではなく、これらのモデルがユーザに関する情報をエンコードする方法の構造的特性である。
LLMがサーチエンジンを知識のインターフェースに置き換えるにつれ、製品設計(とその結果)が、法、社会的、政治的移行を、キュレートされた情報エコシステムから生成されるものへとナビゲートする上で不可欠であると理解するようになる。
関連論文リスト
- The Neutral Mask: How RLHF Provides Shallow Alignment while Leaving Partisan Structure Intact in a Large Language Model [0.0]
RLHFは, 基本モデルにおける構造的パルチザン方向を除去しないことを示す。
RLHFは、モデルがパルチザンの知識を消去するだけでなく、パルチザン幾何学から出力生成への因果経路を切断することで、政治的中立性の規範を符号化していることを示す。
論文 参考訳(メタデータ) (2026-06-08T17:00:31Z) - GPT and Prejudice: A Sparse Approach to Understanding Learned Representations in Large Language Models [0.0]
大規模言語モデル(LLM)は、大規模で未処理のコーパスでますます訓練されている。
本研究では, モデル動作だけでなく, 学習データに埋め込まれたより深い構造, テーマ, バイアスの解釈を可能にする。
我々は、社会構造や物語パターンに富んだコーパスであるジェーン・オーステンの小説にのみ焦点をあてて、GPTスタイルのトランスフォーマーモデルを訓練する。
論文 参考訳(メタデータ) (2025-09-24T11:10:16Z) - Large Language Models Encode Semantics in Low-Dimensional Linear Subspaces [31.401762286885656]
大規模言語モデル(LLM)の潜在空間幾何を理解することは、それらの振舞いとアライメントの鍵となる。
我々は6つの科学的トピックにわたる11の経験的モデルで大規模な研究を行っている。
論文 参考訳(メタデータ) (2025-07-13T17:03:25Z) - A Geometric Notion of Causal Probing [85.49839090913515]
線形部分空間仮説は、言語モデルの表現空間において、動詞数のような概念に関するすべての情報が線形部分空間に符号化されていることを述べる。
理想線型概念部分空間を特徴づける内在的基準のセットを与える。
2つの言語モデルにまたがる少なくとも1つの概念に対して、この概念のサブスペースは、生成された単語の概念値を精度良く操作することができる。
論文 参考訳(メタデータ) (2023-07-27T17:57:57Z) - The Curse of Recursion: Training on Generated Data Makes Models Forget [70.02793975243212]
大規模言語モデル(LLM)が存続し、オンラインテキストと画像のエコシステム全体に劇的な変化をもたらすだろう。
トレーニングにおけるモデル生成コンテンツの使用は、元のコンテンツ分布の尾部が消える結果のモデルに不可逆的な欠陥を引き起こす。
論文 参考訳(メタデータ) (2023-05-27T15:10:41Z) - Mind The Facts: Knowledge-Boosted Coherent Abstractive Text
Summarization [47.47707316595568]
本稿ではトランスフォーマーエンコーダデコーダアーキテクチャを拡張した新しいアーキテクチャを提案する。
Wikidataナレッジグラフからエンティティレベルの知識をエンコーダ・デコーダアーキテクチャに組み込む。
これにより、ソース記事が長い場合でも、コヒーレントな要約を生成するのに役立ちます。
論文 参考訳(メタデータ) (2020-06-27T20:06:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。