論文の概要: Sentence-Level Contextual Entrainment in Large Language Models
- arxiv url: http://arxiv.org/abs/2606.24077v1
- Date: Tue, 23 Jun 2026 02:42:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-24 22:16:48.748312
- Title: Sentence-Level Contextual Entrainment in Large Language Models
- Title(参考訳): 大規模言語モデルにおける文レベル文脈制約
- Authors: Yang Liu, Chenhui Chu,
- Abstract要約: 文脈エントレメント(Contextual entrainment)とは、モデルがその文脈に現れるトークンに高い確率を割り当てる傾向を指す。
26大言語モデル(LLM)における文レベルの文脈制約について検討する。
- 参考スコア(独自算出の注目度): 24.53996114318076
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Contextual entrainment, which is a newly discovered phenomenon in large language models (LLMs), refers to the tendency of a model to assign higher probabilities to tokens that appear in its context. In this work, we extend this phenomenon from the token level to the sentence level by examining the per-token mean log-probability of a sentence instead of the probabilities of individual tokens. We investigate sentence-level contextual entrainment across 26 LLMs from seven families and two datasets, which cover both subjective and objective tasks. We find that sentence-level contextual entrainment exists. This means that the sentences in the prompt (even if they are counterfactual statements) can significantly increase their probability during model inference time. As the model size increases, contextual entrainment gradually decreases. We also find that contextual entrainment is controlled by 2% to 4% of the attention heads. Turning off these attention heads can effectively mitigate contextual entrainment without hurting the model's performance.
- Abstract(参考訳): 大規模言語モデル(LLM)で新たに発見された現象である文脈エントレメント(Contextual entrainment)は、その文脈に現れるトークンに高い確率を割り当てる傾向を示す。
本研究では,この現象をトークンレベルから文レベルまで拡張し,個々のトークンの確率ではなく文ごとの平均対数確率を調べる。
主観的タスクと客観的タスクの両方をカバーする7つの家族と2つのデータセットからなる26のLLMを対象とした文レベルの文脈順列について検討した。
文レベルの文脈エントレメントが存在することが分かりました。
これは、プロンプト中の文(たとえ偽造文であっても)がモデル推論時間中にその確率を著しく増加させることを意味する。
モデルのサイズが大きくなるにつれて、文脈的エントレインメントは徐々に減少する。
また,注意力の2%から4%が文脈運動を制御していることが判明した。
これらのアテンションヘッドをオフにすることで、モデルの性能を損なうことなく、コンテキストの制約を効果的に軽減することができる。
関連論文リスト
- Learning to Focus: Causal Attention Distillation via Gradient-Guided Token Pruning [62.23671919314693]
大規模言語モデル (LLM) は文脈理解において著しく改善されている。
しかし、長いコンテキストの推論と生成の間に真に重要な情報に出席する能力は、まだペースの遅れています。
本稿では,2段階のフレームワークであるLearning to Focus(LeaF)を導入し,コンバウンディング要因を緩和する。
論文 参考訳(メタデータ) (2025-06-09T15:16:39Z) - Llama See, Llama Do: A Mechanistic Perspective on Contextual Entrainment and Distraction in LLMs [16.766414745922628]
我々は,様々な言語モデル (LM) にまたがる新しい現象,文脈学習を観察し,迅速な設定を行う。
文脈的エントレメントの大きさが意味的要因の影響を受けているという統計的に有意な証拠が得られている。
論文 参考訳(メタデータ) (2025-05-14T12:33:05Z) - What Kinds of Tokens Benefit from Distant Text? An Analysis on Long Context Language Modeling [27.75379365518913]
言語モデルにおいて,どの単語が長い文脈からより恩恵を受けるかを検討する。
内容語(名詞、形容詞など)と最初の単語のトークンが最も役立ちます。
また、より長い文脈で言語モデルがより自信を持ち、よりシャープな確率分布が生まれることを観察する。
論文 参考訳(メタデータ) (2024-06-17T06:07:29Z) - Navigating the OverKill in Large Language Models [84.62340510027042]
モデルがどのように処理し,クエリの安全性を判断するかを検討することで,過剰スキルの要因について検討する。
以上の結果から,モデル内にショートカットが存在することが明らかとなり,"キル"のような有害な単語が過剰に認識され,安全性が強調され,過度なスキルが増すことが示唆された。
我々は、この現象を緩和するために、トレーニングフリーでモデルに依存しないセルフコントラストデコーディング(Self-Contrastive Decoding、CD)を導入する。
論文 参考訳(メタデータ) (2024-01-31T07:26:47Z) - An Analysis and Mitigation of the Reversal Curse [70.13419502543915]
最近の研究は、大型言語モデル(LLM)で注目すべき現象を観測している。
逆の呪文は、$a$と$b$の2つのエンティティを扱う場合、LLMは$aRb$,'という形式でシーケンスを処理するのに優れるが、$bR-1a$'を処理する場合の課題に直面することである。
論文 参考訳(メタデータ) (2023-11-13T17:01:12Z) - Shifting Attention to Relevance: Towards the Predictive Uncertainty Quantification of Free-Form Large Language Models [27.491408293411734]
大規模言語モデル(LLM)は、言語生成と命令の後に有望な結果を示すが、しばしば「ハロシン化」を示す。
我々の研究は単純な冗長性を導入している: 自動回帰テキストのすべてのトークンが、基礎となる意味を等しく表しているわけではない。
論文 参考訳(メタデータ) (2023-07-03T22:17:16Z) - Mutual Information Alleviates Hallucinations in Abstractive
Summarization [73.48162198041884]
モデルが生成中の幻覚コンテンツにより多くの確率を割り当てる可能性が著しく高いという単純な基準を見いだす。
この発見は幻覚の潜在的な説明を提供する:モデルは、継続について不確実な場合には、高い限界確率のテキストを好むことをデフォルトとする。
そこで本研究では,ターゲットトークンの正当性ではなく,ソースとターゲットトークンのポイントワイドな相互情報の最適化に切り替える復号手法を提案する。
論文 参考訳(メタデータ) (2022-10-24T13:30:54Z) - Narrative Incoherence Detection [76.43894977558811]
本稿では,文間セマンティック理解のための新たなアリーナとして,物語不整合検出の課題を提案する。
複数文の物語を考えると、物語の流れに意味的な矛盾があるかどうかを決定します。
論文 参考訳(メタデータ) (2020-12-21T07:18:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。