論文の概要: Localizing Anchoring Pathways in Language Models
- arxiv url: http://arxiv.org/abs/2606.12818v1
- Date: Thu, 11 Jun 2026 02:28:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-12 15:55:27.543028
- Title: Localizing Anchoring Pathways in Language Models
- Title(参考訳): 言語モデルにおけるアンチョリング経路の局所化
- Authors: Hillary N. Owusu, Sarah Wiegreffe, Naomi H. Feldman,
- Abstract要約: プロンプト内の無関係な数は言語モデルの判断をシフトさせ、数値推論においてアンカー効果を生み出す。
我々は,このアンカー感性信号が言語モデル内でどこに運ばれるかを,共有応答オプションを持つ制御された複数選択設定を用いて検討する。
エッジレベルの手法はノードレベルの手法よりも忠実にこの信号を回復する。
- 参考スコア(独自算出の注目度): 8.023077215864255
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Irrelevant numbers in a prompt can shift language model judgments, producing anchoring effects in numerical reasoning. We study where this anchor-sensitive signal is carried inside language models using a controlled multiple-choice setup with shared answer options. We define a logit-difference metric comparing the correct answer option with the answer option corresponding to the anchor, and validate that it tracks behavioral anchoring. Using attribution-based circuit localization on 7B--8B Qwen and Llama base and instruction-tuned models, we find that edge-level methods recover this signal more faithfully than node-level methods. Low- and high-anchor circuits transfer strongly within a model, suggesting shared pathway structure across anchor direction. However, sparse transfer across base and instruction-tuned variants is less reliable, indicating that post-training changes which pathways matter most. Overall, our results provide a mechanistic account of how anchoring-related decision signals are carried inside language models.
- Abstract(参考訳): プロンプト内の無関係な数は言語モデルの判断をシフトさせ、数値推論においてアンカー効果を生み出す。
我々は,このアンカー感性信号が言語モデル内でどこに運ばれるかを,共有応答オプションを持つ制御された複数選択設定を用いて検討する。
我々は、正しい解答オプションとアンカーに対応する解答オプションとを比較して、ロジット差分計量を定義し、それが動作のアンカーを追跡することを検証する。
7B--8B QwenおよびLlamaベースおよび命令調整モデル上での帰属型回路のローカライゼーションを用いて、エッジレベルの手法がノードレベルの手法よりも忠実にこの信号を回復することを発見した。
低アンカー回路と高アンカー回路はモデル内で強く伝達され、アンカー方向を横断する共有経路構造が提案される。
しかし、基本および命令調整された変種間のスパース転送は信頼性が低く、学習後、どの経路が最も重要かが変更されることが示唆されている。
全体として,本研究の結果は,言語モデル内でのアンカリング関連決定信号の伝達方法に関する力学的考察を提供する。
関連論文リスト
- Re-Ranking Through an Attribution Lens for Citation Quality in Legal QA [2.255961793913651]
クロスエンコーダは、連続的な摂動に基づく帰属スコアに基づいて、生成前に経路を再ランクするよう訓練した。
異なるモデルで独立に訓練された2つのリランカーは、生の帰属契約を超えて収束する。
その結果、摂動に基づく帰属は、引用認識検索のための実用的、モデルに依存しない訓練信号を提供することを示した。
論文 参考訳(メタデータ) (2026-06-02T14:48:33Z) - STRIDE: Learnable Stepwise Language Feedback for LLM Reasoning [80.78140312980484]
我々はSTRIDEと呼ばれる言語駆動の段階的軌道リダイレクトを提案する。
我々は、結果に基づく報酬のみを使用して生成器と生成検証器を共同で訓練し、外部アノテーションを除去する。
様々な推論ベンチマークの実験では、STRIDEが最先端のベースラインを大幅に上回っていることが示されている。
論文 参考訳(メタデータ) (2026-05-13T11:04:31Z) - How Alignment Routes: Localizing, Scaling, and Controlling Policy Circuits in Language Models [0.0]
本稿では,アライメント学習言語モデルにおけるポリシールーティング機構のローカライズを行う。
中間層アテンションゲートは検出された内容を読み出し、深いヘッドをトリガーし、信号が拒絶に向かって押し上げられる。
論文 参考訳(メタデータ) (2026-04-06T03:20:37Z) - Adapting Language Balance in Code-Switching Speech [60.296574524609575]
大規模な基礎モデルは、コードスイッチングテストケースといまだに苦労しています。
我々は、世代間のコンテキストバイアスを軽減するために、微分可能なサロゲートを使用します。
アラビア語と中国語による実験では、モデルの切り替え位置をより正確に予測できることが示されている。
論文 参考訳(メタデータ) (2025-10-21T15:23:55Z) - Position-aware Automatic Circuit Discovery [59.64762573617173]
我々は既存の回路探索手法のギャップを同定し、モデル成分を入力位置間で等しく関連するものとして扱う。
可変長例を含むタスクであっても,回路に位置性を組み込むための2つの改良を提案する。
提案手法により, 位置感応回路の完全自動検出が可能となり, 従来よりも回路サイズと忠実度とのトレードオフが良好になる。
論文 参考訳(メタデータ) (2025-02-07T00:18:20Z) - Extracting Latent Steering Vectors from Pretrained Language Models [14.77762401765532]
本研究では,言語モデルデコーダから直接潜在ベクトルを抽出できることを示す。
実験により、ステアリングベクトルが存在し、それが言語モデルの隠れ状態に追加されると、ほぼ完璧にターゲット文を生成することが示された。
テキスト類似度ベンチマークで評価すると, ステアリングベクトル間の距離が文類似度を反映していることが分かる。
論文 参考訳(メタデータ) (2022-05-10T19:04:37Z) - Noisy Channel Language Model Prompting for Few-Shot Text Classification [87.23056864536613]
数ショットのテキスト分類において,言語モデルに対してノイズの多いチャネルアプローチを導入する。
入力されたラベルの確率を計算する代わりに、チャネルモデルはラベルが与えられた入力の条件確率を計算する。
我々は最近提案された数発の学習手法にチャネルモデルを使用し、言語モデルパラメータの更新は、あるいは、非常に限られている。
論文 参考訳(メタデータ) (2021-08-09T15:06:26Z) - Relative Positional Encoding for Speech Recognition and Direct
Translation [72.64499573561922]
相対位置符号化方式を音声変換器に適用する。
その結果,ネットワークは音声データに存在する変動分布に適応できることがわかった。
論文 参考訳(メタデータ) (2020-05-20T09:53:06Z) - Scope Head for Accurate Localization in Object Detection [135.9979405835606]
本研究では,各位置のアンカーを相互依存関係としてモデル化したScopeNetと呼ばれる新しい検出器を提案する。
我々の簡潔で効果的な設計により、提案したScopeNetはCOCOの最先端の成果を達成する。
論文 参考訳(メタデータ) (2020-05-11T04:00:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。