論文の概要: Predicting Future Behaviors in Reasoning Models Enables Better Steering
- arxiv url: http://arxiv.org/abs/2606.11172v1
- Date: Tue, 09 Jun 2026 17:49:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-10 15:40:58.658545
- Title: Predicting Future Behaviors in Reasoning Models Enables Better Steering
- Title(参考訳): より優れたステアリングを可能にする推論モデルにおける将来の挙動予測
- Authors: Evgenii Kortukov, Piotr Komorowski, Florian Klein, Paula Engl, Gabriele Sarti, Seong Joon Oh, Sebastian Lapuschkin, Wojciech Samek,
- Abstract要約: テストタイムステアリングは、隠れた表現を介入することで大きな推論モデル(LRM)を制御するが、出力品質を低下させることができる。
我々は、事前のステアリング作業は、すでに生成されたテキストの振る舞いを検出する内部機能に暗黙的に依存していると論じる。
我々は、中間推論ステップから将来の行動可能性を予測するために、アクティベーションプローブを訓練する。
これらのプローブは64%-91%の精度で最も起こりそうな振る舞いを予測し、内部予測の異なるタイプの特徴を明らかにした。
- 参考スコア(独自算出の注目度): 35.89008737242842
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deployed large reasoning models (LRMs) often behave unexpectedly. Test-time steering controls LRM outputs by intervening on their hidden representations, but it can degrade output quality. We argue that prior steering work implicitly relies on internal features that detect behavior in already generated text. We show that these detection features are poor predictors of future behavioral outcomes, and thus not the natural intervention target. Instead, we train activation probes to predict future behavior likelihoods from intermediate reasoning steps. These probes predict the most likely behavior with 64%-91% accuracy, revealing a separate type of internal prediction features. Building on these prediction features, we introduce a text-level steering method, Future Probe Controlled Generation. FPCG samples multiple candidate sentences and chooses the best one according to a probe predicting the future behavior likelihood. This enables steering with almost no output quality degradation. FPCG also enables steering in several evaluations where activation steering fails. These results show that distinguishing detection and prediction features enables a more nuanced approach to controlling LRM behaviors.
- Abstract(参考訳): 展開された大きな推論モデル(LRM)は、しばしば予期せず振る舞う。
テストタイムステアリング制御は、隠れた表現を介入することで出力をLRMに制御するが、出力品質を劣化させる。
我々は、事前のステアリング作業は、すでに生成されたテキストの振る舞いを検出する内部機能に暗黙的に依存していると論じる。
これらの特徴は将来の行動結果の予測に乏しく、自然介入の対象にはならないことを示す。
代わりに、中間推論ステップから将来の行動可能性を予測するためにアクティベーションプローブを訓練する。
これらのプローブは64%-91%の精度で最も起こりそうな振る舞いを予測し、内部予測の異なるタイプの特徴を明らかにした。
これらの予測機能に基づいて,テキストレベルのステアリング手法であるFuture Probe Controlled Generationを導入する。
FPCGは複数の候補文をサンプリングし、将来の行動可能性を予測するプローブに従って最適な文を選択する。
これにより、ほとんど出力品質の劣化のないステアリングが可能となる。
FPCGはまた、アクティベーションステアリングが失敗するいくつかの評価においてステアリングを可能にする。
これらの結果から, 検出と予測の特徴の区別により, LRMの挙動を制御できる可能性が示唆された。
関連論文リスト
- Monitoring the Internal Monologue: Probe Trajectories Reveal Reasoning Dynamics [42.27928681606673]
大規模推論モデル (LRM) は, 思考の連鎖 (CoT) 推論を通じて, 安全監視のための新たな機会を導入する。
本研究では,LRMの隠れ表現について検討し,今後の挙動をプロンプトおよびCoT表現から予測できるかどうかを検証した。
将来のモデル行動は, 単一の静的予測より, 完全な軌道上での検証において, より区別し易いことが判明した。
論文 参考訳(メタデータ) (2026-05-18T15:29:04Z) - Mechanisms of Introspective Awareness [4.6752132340946835]
最近の研究は、LCMが残留ストリームにステアリングベクターが注入されたときに検出し、注入された概念を特定できることを示している。
しかし、この能力を支えるメカニズムはどのようなもので、本物の内省回路を反映しているか、あるいはより浅い認識を反映しているのか?
本稿では,これらの疑問をオープンソースモデルで調査し,主要な3つの知見を定めている。
論文 参考訳(メタデータ) (2026-03-22T20:45:34Z) - Language Models Can Predict Their Own Behavior [29.566208688211876]
言語モデル(LM)は、アライメントトレーニングに従わないなど、特定の振る舞いを示すことができます。
入力トークンの内部表現だけで訓練されたプローブは、出力シーケンス全体にわたって幅広い結果の挙動を予測することができることを示す。
プローブ上に構築された早期警報システムは、脱獄を91%削減する。
論文 参考訳(メタデータ) (2025-02-18T23:13:16Z) - Curb Your Attention: Causal Attention Gating for Robust Trajectory Prediction in Autonomous Driving [6.897286554827871]
自律走行における軌道予測モデルは、非因果エージェントの摂動に弱い。
過去のステップのウィンドウ上で、エージェント間の因果関係を特定するために、$textitCausal tRajecTory predICtion$ $textbf(CRiTIC)$を提案する。
論文 参考訳(メタデータ) (2024-09-23T20:01:20Z) - Model Predictive Control with Gaussian-Process-Supported Dynamical
Constraints for Autonomous Vehicles [82.65261980827594]
本研究では、学習したガウス過程を利用して人間の運転行動を予測する自動運転車のモデル予測制御手法を提案する。
マルチモード予測制御アプローチは、人間のドライバーの意図を考察する。
論文 参考訳(メタデータ) (2023-03-08T17:14:57Z) - Behavioral Intention Prediction in Driving Scenes: A Survey [70.53285924851767]
行動意図予測(BIP)は、人間の思考過程をシミュレートし、特定の行動の早期予測を満たす。
この作業は、利用可能なデータセット、重要な要因と課題、歩行者中心および車両中心のBIPアプローチ、BIP対応アプリケーションからのBIPの包括的なレビューを提供する。
論文 参考訳(メタデータ) (2022-11-01T11:07:37Z) - What Should I Know? Using Meta-gradient Descent for Predictive Feature
Discovery in a Single Stream of Experience [63.75363908696257]
計算強化学習は、未来の感覚の予測を通じて、エージェントの世界の知覚を構築しようとする。
この一連の作業において、オープンな課題は、エージェントがどの予測が意思決定を最も支援できるかを、無限に多くの予測から決定することである。
本稿では,エージェントが何を予測するかを学習するメタ段階的な降下過程,(2)選択した予測の見積もり,3)将来の報酬を最大化するポリシーを生成する方法を紹介する。
論文 参考訳(メタデータ) (2022-06-13T21:31:06Z) - Control-Aware Prediction Objectives for Autonomous Driving [78.19515972466063]
本研究では,制御に対する予測の下流効果を評価するための制御認識予測目標(CAPOs)を提案する。
本稿では,エージェント間の注意モデルを用いた重み付けと,予測軌跡を接地真実軌跡に交換する際の制御変動に基づく重み付けの2つの方法を提案する。
論文 参考訳(メタデータ) (2022-04-28T07:37:21Z) - On complementing end-to-end human motion predictors with planning [31.025766804649464]
人間の運動予測のための高容量エンドツーエンドアプローチは、人間の行動における微妙なニュアンスを表現する能力を持つが、分布入力やテールイベントから外れた頑健さに苦しむ。
一方、計画ベースの予測は、適切な予測を確実に出力できます。
論文 参考訳(メタデータ) (2021-03-09T19:02:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。