論文の概要: A retrieval conditioned rebinding circuit for dynamic entity tracking in large language models
- arxiv url: http://arxiv.org/abs/2606.08644v1
- Date: Sun, 07 Jun 2026 14:16:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:06.312152
- Title: A retrieval conditioned rebinding circuit for dynamic entity tracking in large language models
- Title(参考訳): 大規模言語モデルにおける動的実体追跡のための検索条件付き結合回路
- Authors: Soyoung Oh, Vera Demberg,
- Abstract要約: 我々は、関連する結合情報をエンコードし、読み出し時に再保存する検索条件付き結合機構を同定する。
GemmaモデルとLlamaモデル全体で、この回路はリバインド動作をサポートしているが、メカニズムの表現的シグネチャはモデルファミリによって異なる。
- 参考スコア(独自算出の注目度): 16.759528230678722
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: To interpret context correctly and retrieve relevant information, large language models must bind entities to their attributes and update these bindings as state changes. We analyze how LLMs implement this binding process in a dynamic state tracking. Using causal interventions, we identify a retrieval conditioned rebinding mechanism, a compact attention head circuit that encodes swap relevant binding information and reinstates it at readout. Across Gemma and Llama models, this circuit supports rebinding behavior, but the representational signature of the mechanism differs across model families. In Gemma models, the binding signature is clearly expressed in the query/key subspaces of the relevant attention heads, whereas in Llama models, the binding information is carried primarily in key vectors. Overall, our results reveal an interpretable mechanism for context dependent state tracking in LLMs.
- Abstract(参考訳): コンテキストを正しく解釈し、関連する情報を取得するためには、大きな言語モデルはエンティティを属性にバインドし、それらのバインディングを状態変更として更新する必要がある。
我々は、LLMが動的状態追跡においてこのバインディングプロセスをどのように実装するかを分析する。
因果的介入を用いて,関係する結合情報をエンコードして読み出し時に再保存する小型アテンションヘッド回路である検索条件再結合機構を同定する。
GemmaモデルとLlamaモデル全体で、この回路はリバインド動作をサポートしているが、メカニズムの表現的シグネチャはモデルファミリによって異なる。
Gemmaモデルでは、結合シグネチャは関連するアテンションヘッドのクエリ/キー部分空間で明確に表現されるが、Llamaモデルでは、結合情報は主としてキーベクトルで表現される。
以上の結果から,LLMにおける文脈依存状態追跡の解釈機構が明らかとなった。
関連論文リスト
- Weight Patching: Toward Source-Level Mechanistic Localization in LLMs [12.558998651017374]
重み付き同一アーキテクチャモデルにおけるソース指向解析のためのパラメータ空間介入手法であるWeight Patchingを提案する。
本稿では,タスク関連制御状態が形成されたかどうかの共通内部規準を提供する,ベクトル・アンカー・ビヘイビア・インタフェースを中心にしたフレームワークを提案する。
論文 参考訳(メタデータ) (2026-04-15T10:21:38Z) - DynaPURLS: Dynamic Refinement of Part-aware Representations for Skeleton-based Zero-Shot Action Recognition [51.80782323686666]
textbfDynaPURLSは、堅牢でマルチスケールなビジュアル・セマンティック対応を確立する統一的なフレームワークである。
我々のフレームワークは、グローバルな動きと局所的な身体部分のダイナミクスの両方を含む階層的なテキスト記述を生成するために、大きな言語モデルを活用する。
NTU RGB+D 60/120とPKU-MMDを含む3つの大規模ベンチマークデータセットの実験は、DynaPURLSが先行技術よりも大幅に優れていることを示した。
論文 参考訳(メタデータ) (2025-12-12T10:39:10Z) - Visual symbolic mechanisms: Emergent symbol processing in vision language models [1.0923877073891446]
視覚言語モデル(VLM)におけるバインディングをサポートする創発的シンボリック機構のセットを同定する。
バインディングエラーがこれらのメカニズムの障害に直接トレースできることが分かりました。
これらの結果は、VLMにおけるシンボルライクな処理をサポートするメカニズムに光を当て、これらのモデルが示す永続的な結合障害に対処するための道筋を示唆している。
論文 参考訳(メタデータ) (2025-06-18T20:35:44Z) - Large Language Models are Good Relational Learners [55.40941576497973]
本稿では,グラフニューラルネットワーク(GNN)に基づくエンコーダを用いて,大規模言語モデル(LLM)のための構造化リレーショナルプロンプトを生成する新しいアーキテクチャであるRel-LLMを紹介する。
従来のテキストベースのシリアライズ手法とは異なり,本手法はデータベース固有の関係構造を保ちながら,LLMが複雑なエンティティ関係を処理・推論することを可能にする。
論文 参考訳(メタデータ) (2025-06-06T04:07:55Z) - Core Context Aware Transformers for Long Context Language Modeling [50.774702091154204]
高速な長文モデリングのためのCCAアテンションを提案する。
本手法は,学習過程における冗長性を低下させながら,コアコンテキストに自動的に焦点を合わせ,強化する。
提案手法は,既存の大規模言語モデルにおける自己注意モジュールを最小限の微調整コストで置き換えることができる。
論文 参考訳(メタデータ) (2024-12-17T01:54:08Z) - Talking Heads: Understanding Inter-layer Communication in Transformer Language Models [32.2976613483151]
2つのLMで用いられるメカニズムを分析し、1つのタスクでコンテキスト内のアイテムを選択的に抑制する。
モデルが残ストリームの低ランクな部分空間に書き込まれて,後続のレイヤで読み出される特徴を表現することが分かりました。
論文 参考訳(メタデータ) (2024-06-13T18:12:01Z) - Relation Rectification in Diffusion Model [64.84686527988809]
本稿では,最初に生成できない関係を正確に表現するためにモデルを洗練することを目的とした,リレーション・リクティフィケーション(Relation Rectification)と呼ばれる新しいタスクを紹介する。
異種グラフ畳み込みネットワーク(HGCN)を利用した革新的な解を提案する。
軽量HGCNは、テキストエンコーダによって生成されたテキスト埋め込みを調整し、埋め込み空間におけるテキスト関係の正確な反映を保証する。
論文 参考訳(メタデータ) (2024-03-29T15:54:36Z) - How do Language Models Bind Entities in Context? [31.529253469951062]
言語モデル(LM)は、エンティティを属性にバインドし、コンテキスト内情報を正しく使用する必要がある。
我々はバインディングIDのメカニズムを同定し、バインディング問題を解くための一般的なメカニズムを示す。
本研究は,テキスト上での記号的知識を表現するためのLMの解釈可能な戦略を明らかにする。
論文 参考訳(メタデータ) (2023-10-26T07:10:31Z) - Interpretable Entity Representations through Large-Scale Typing [61.4277527871572]
本稿では,人間の読みやすいエンティティ表現を作成し,箱から高パフォーマンスを実現する手法を提案する。
我々の表現は、微粒な実体型に対する後続確率に対応するベクトルである。
特定のドメインに対して,学習に基づく方法で,型セットのサイズを縮小できることを示す。
論文 参考訳(メタデータ) (2020-04-30T23:58:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。