論文の概要: How Does Reasoning Flow? Tracing Attention-Induced Information Flow for Targeted RL in LLMs
- arxiv url: http://arxiv.org/abs/2606.10646v1
- Date: Tue, 09 Jun 2026 09:56:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-10 15:40:58.427648
- Title: How Does Reasoning Flow? Tracing Attention-Induced Information Flow for Targeted RL in LLMs
- Title(参考訳): LLMにおける目標RLに対する意図的情報の流れの追跡
- Authors: Zhichen Dong, Yang Li, Yuhan Sun, Weixun Wang, Yijia Luo, Zinian Peng, Taiheng Ye, Chao Yang, Wenbo Su, Yu Cheng, Bo Zheng, Junchi Yan,
- Abstract要約: FlowTracerは、注意重み付き非巡回グラフ上で回答対象の推論フローをトレースするRLフレームワークである。
フロースループットによってトークンをスコアし、長期依存を仲介するハイインパクトなハブとアグリゲーションチェックポイントを明らかにする。
これらの重要度はトークンレベルの報酬を形成するために使用され、学習信号は正しい回答に向けて情報をルーティングするトークンに正確に焦点を合わせることができる。
- 参考スコア(独自算出の注目度): 52.712343092801326
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Token-level credit assignment remains a key obstacle for reinforcement learning (RL) in large language models (LLMs), where RL recipes typically treat all tokens equally, failing to distinguish decisive reasoning steps from routine formatting or fluent filler. Recent attempts leverage model-internal signals to assign finer-grained credit, but these are often point-wise heuristics that ignore the global structure of information propagation. We propose FlowTracer, an RL framework that traces answer-targeted reasoning flow on an attention-induced directed acyclic graph in which nodes correspond to tokens and edge capacities come from aggregated attention weights and derives token credit from this global structure. The edge capacities are reweighted to retain only the influence that can reach the answer region, while enforcing local flow conservation so intermediate tokens neither lose nor gain effective mass due to path length or irrelevant branches. On this graph, FlowTracer extracts an information-flow backbone connecting the question to the answer and scores tokens by flow throughput, revealing high-impact hubs and aggregation checkpoints that mediate long-range dependencies. These derived importances are used to shape token-level rewards, enabling learning signals to focus precisely on the tokens that route information toward (or away from) correct answers and delivering consistent performance gains across a range of reasoning tasks.
- Abstract(参考訳): 大規模言語モデル(LLM)において、トークンレベルのクレジット代入は強化学習(RL)の重要な障害であり、RLのレシピは通常、すべてのトークンを平等に扱う。
最近の試みでは、よりきめ細かいクレジットを割り当てるためにモデル内部信号を利用するが、情報伝達のグローバルな構造を無視するポイントワイズヒューリスティックであることが多い。
本稿では,ノードが注目重みからトークンとエッジ容量に対応し,このグローバル構造からトークンクレジットを導出する注目誘導非循環グラフ上で,回答対象推論フローをトレースするRLフレームワークであるFlowTracerを提案する。
エッジ容量は、応答領域に到達可能な影響のみを保持するように重み付けされ、一方、局所的なフロー保存を強制することにより、中間トークンはパス長や無関係な枝によって有効質量を損なわない。
このグラフでは、FlowTracerが質問と回答を結びつける情報フローバックボーンを抽出し、フロースループットによってトークンをスコアし、高インパクトなハブと長距離依存関係を仲介するアグリゲーションチェックポイントを明らかにする。
これらの導出された重要度は、トークンレベルの報酬を形成するために使用され、学習信号は、情報を正しい回答に向けて(あるいは離れて)ルートするトークンに正確に焦点を合わせ、様々な推論タスクにわたって一貫したパフォーマンス向上を提供することができる。
関連論文リスト
- StainFlow: Entity-Stain Tracking and Evidence Linking for Process Rewards in GUI Agents [67.03593791535786]
強化学習(Reinforcement Learning, RL)は、長期のデジタル環境においてGUIエージェントを改善するための有望なアプローチである。
この問題を軽減するため、最近の研究はプロセス・リワード・モデル(PRM)を導入している。
PRMは、グローバルマイルストーン検証やローカルステップレベルの評価を通じて、よりきめ細かいトレーニングフィードバックを提供する。
本稿では,GUIエージェントのためのエンティティ・スタンフロープロセス報酬モデルであるStainFlowを提案する。
論文 参考訳(メタデータ) (2026-06-05T08:17:28Z) - Resolving Action Bottleneck: Agentic Reinforcement Learning Informed by Token-Level Energy [64.72195169444738]
ポリシー・グラディエント・メソッドは、各トークンを同じ軌道で扱い、均一なクレジット割り当てにつながる。
このような均一なクレジット割り当てはトークンレベルのトレーニングシグナルをほとんど誤配置していることを示す。
本稿では,トークン再重み付け手法であるActFocusを提案する。
論文 参考訳(メタデータ) (2026-05-14T08:33:02Z) - How Do Answer Tokens Read Reasoning Traces? Self-Reading Patterns in Thinking LLMs for Quantitative Reasoning [14.803331273106906]
応答対推論の注意を解析し、正当性に整合した良質な自己読解パターンを観察する。
本稿では,自己読解品質(SRQ)スコアによって駆動される学習自由なステアリング手法を提案し,プロセス制御のための幾何学的指標とコンテンツ監視のための意味的指標を組み合わせた。
論文 参考訳(メタデータ) (2026-04-21T06:55:17Z) - Stem: Rethinking Causal Information Flow in Sparse Attention [28.46760179998361]
本稿では,情報フローに整合した新しいプラグアンドプレイスペースモジュールであるStemを提案する。
まず、StemはToken Position-Decay戦略を採用し、各レイヤ内で位置依存のトップkを適用して初期トークンを保持する。
次に、情報豊富なトークンを保存するために、StemはOutput-Aware Metricを使用する。
論文 参考訳(メタデータ) (2026-03-06T13:33:29Z) - Towards Long-Horizon Interpretability: Efficient and Faithful Multi-Token Attribution for Reasoning LLMs [27.102387826390906]
FlashTraceは効率的なマルチトークン属性法であり、単一のパスでマルチトークンターゲットに対する属性を計算する。
我々は,FlashTraceが既存のベースラインを130倍以上のスピードアップし,忠実性を維持していることを示す。
論文 参考訳(メタデータ) (2026-02-02T10:19:52Z) - Local Coherence or Global Validity? Investigating RLVR Traces in Math Domains [13.626335241662977]
Reinforcement Learning with Verifiable Rewards (RLVR)-based post-training of Large Language Models (LLMs) は、推論タスクの精度を向上させることが示されている。
直接インセンティブのない中間トークンに対するRLポストトレーニングの効果について検討する。
論文 参考訳(メタデータ) (2025-10-20T23:58:31Z) - Attention Illuminates LLM Reasoning: The Preplan-and-Anchor Rhythm Enables Fine-Grained Policy Optimization [56.083511902353365]
強化学習(Reinforcement Learning, RL)は、一般的に、大規模言語モデルの全世代にわたって一様クレジットを適用する。
この研究は、LSMの内部論理を推論自体の機械的青写真として描画する特権基板として注意を向けている。
クリティカルノードに対するターゲットクレジット割り当てを動的に行う3つの新しいRL戦略を導入する。
論文 参考訳(メタデータ) (2025-10-15T13:49:51Z) - Critical Tokens Matter: Token-Level Contrastive Estimation Enhances LLM's Reasoning Capability [53.51560766150442]
臨界トークンは推論軌道内の要素であり、誤った結果に大きな影響を及ぼす。
本稿では,これらのトークンをロールアウトサンプリングによって識別する新しいフレームワークを提案する。
クリティカルトークンの識別と置換がモデル精度を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2024-11-29T18:58:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。