論文の概要: When is Your LLM Steerable?
- arxiv url: http://arxiv.org/abs/2606.11599v1
- Date: Wed, 10 Jun 2026 02:55:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-11 16:42:38.258109
- Title: When is Your LLM Steerable?
- Title(参考訳): LLMはいつステアブルか?
- Authors: Chenrui Fan, Yize Cheng, Ming Li, Soheil Feizi, Tianyi Zhou,
- Abstract要約: アクティベーションステアリングは、推論時に言語モデルの振る舞いを制御するための軽量なアプローチを提供する。
ステアリングを成功させる体制と境界を見つけるには、通常、高価なグリッドサーチが必要である。
生成プロセスの開始時にモデルの内部状態からステアビリティを予測できるかどうかを検討する。
- 参考スコア(独自算出の注目度): 56.656180566692946
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Activation steering offers a lightweight approach to control language models' behavior at inference time, but whether it succeeds or fails heavily depends on the prompt, concept, model, and steering configuration. Finding the regime and boundaries of successful steering typically requires expensive grid searches and post-hoc evaluation of full autoregressive rollouts. In this work, we investigate whether steerability can be predicted from the model's internal states at the beginning of the generation process, e.g., after generating the first few tokens, and how to leverage such a predictor to improve steering success rate. To this end, we first introduce ASTEER, a testbed including 1.4M steered generations, spanning 150 concepts with each steering success/failure labeled. Leveraging this testbed, we analyze the model's early decoding dynamics by extracting features that compare hidden states before and after steering across layers and initial decoding steps. These features help us understand how steering's effects propagate along layers and token positions, which provide key information for steerability prediction. We then train a Gradient Boosting Decision Trees (GBDT) classifier on these features to predict whether an intervention will under-steer, succeed, or over-steer without requiring full rollout. Our predictor achieves around 0.7 macro-F1 score on unseen concepts, demonstrating that early hidden states encode substantial, structured information about eventual steering efficacy. We further leverage this steerability predictor as guidance for steering strength searching, achieving near-optimal performance with a small fraction of decoding cost.
- Abstract(参考訳): アクティベーションステアリングは、推論時に言語モデルの振る舞いを制御するための軽量なアプローチを提供するが、それが成功するか失敗するかは、プロンプト、概念、モデル、およびステアリング構成に大きく依存する。
ステアリングを成功させるためには、一般的に高価なグリッドサーチと完全な自己回帰ロールアウトのポストホック評価が必要である。
本研究では,生成プロセス開始時のモデルの内部状態,例えば,最初の数個のトークンを生成した後に,ステアビリティを予測できるかどうか,そして,そのような予測器を活用してステアリング成功率を向上させる方法について検討する。
この目的のために、まず、1.4万個のステアリング世代を含むテストベッドであるASTEERを紹介し、150のコンセプトに、それぞれのステアリング成功/失敗ラベルをラベル付けした。
このテストベッドを活用することで、レイヤ間のステアリング前後の隠れ状態と初期デコードステップを比較した特徴を抽出することで、モデルの早期デコードダイナミクスを分析します。
これらの特徴は、ステアリングの効果が層やトークンの位置に沿ってどのように伝播するかを理解するのに役立つ。
次に、これらの機能に対してグラディエントブースティング決定木(GBDT)分類器をトレーニングし、完全なロールアウトを必要とせずに、介入がアンダーステア、成功、あるいはオーバーステアになるかどうかを予測する。
我々の予測器は、未確認概念に関する0.7マクロF1スコアを達成し、初期隠れ状態が最終的なステアリングの有効性に関する構造化された情報をエンコードしていることを示した。
我々はさらに、このステアビリティ予測器をステアリング強度探索のガイダンスとして活用し、最小の復号コストで最適に近い性能を達成する。
関連論文リスト
- Predicting Future Behaviors in Reasoning Models Enables Better Steering [35.89008737242842]
テストタイムステアリングは、隠れた表現を介入することで大きな推論モデル(LRM)を制御するが、出力品質を低下させることができる。
我々は、事前のステアリング作業は、すでに生成されたテキストの振る舞いを検出する内部機能に暗黙的に依存していると論じる。
我々は、中間推論ステップから将来の行動可能性を予測するために、アクティベーションプローブを訓練する。
これらのプローブは64%-91%の精度で最も起こりそうな振る舞いを予測し、内部予測の異なるタイプの特徴を明らかにした。
論文 参考訳(メタデータ) (2026-06-09T17:49:24Z) - KV Cache Steering for Controlling Frozen LLMs [80.50365534625438]
キャッシュステアリングは、言語モデルの暗黙的なステアリングのための軽量な方法である。
キャッシュステアリングを応用して、小さな言語モデルにおける連鎖推論を誘導する。
論文 参考訳(メタデータ) (2025-07-11T17:59:36Z) - ReCogDrive: A Reinforced Cognitive Framework for End-to-End Autonomous Driving [49.07731497951963]
ReCogDriveは、エンドツーエンドの自動運転のための新しい強化認知フレームワークである。
我々は、人間のドライバーのシーケンシャルな認知過程を模倣する階層的なデータパイプラインを導入する。
次に、VLMの学習した運転先を拡散プランナーに注入することで、言語行動ミスマッチに対処する。
論文 参考訳(メタデータ) (2025-06-09T03:14:04Z) - Analyzing the Generalization and Reliability of Steering Vectors [8.253773195379166]
ステアリングベクトルは分布内および分布外の両方にかなりの制限があることを示す。
分散において、ステアビリティは異なる入力間で高度に変動する。
アウト・オブ・ディストリビューション(out-of-distribution)、ステアリングベクトル(steering vector)はよく一般化されるが、いくつかの概念はプロンプトの合理的な変化に対して脆弱である。
論文 参考訳(メタデータ) (2024-07-17T08:32:03Z) - Think Twice before Driving: Towards Scalable Decoders for End-to-End
Autonomous Driving [74.28510044056706]
既存のメソッドは通常、分離されたエンコーダ-デコーダパラダイムを採用する。
本研究は,この問題を2つの原則で緩和することを目的としている。
まず、エンコーダの特徴に基づいて、粗い将来の位置と行動を予測する。
そして、その位置と動作を条件に、将来のシーンを想像して、それに従って運転した場合にその影響を確認する。
論文 参考訳(メタデータ) (2023-05-10T15:22:02Z) - Control-Aware Prediction Objectives for Autonomous Driving [78.19515972466063]
本研究では,制御に対する予測の下流効果を評価するための制御認識予測目標(CAPOs)を提案する。
本稿では,エージェント間の注意モデルを用いた重み付けと,予測軌跡を接地真実軌跡に交換する際の制御変動に基づく重み付けの2つの方法を提案する。
論文 参考訳(メタデータ) (2022-04-28T07:37:21Z) - Value-driven Hindsight Modelling [68.658900923595]
値推定は強化学習(RL)パラダイムの重要な構成要素である。
モデル学習は、観測系列に存在する豊富な遷移構造を利用することができるが、このアプローチは通常、報酬関数に敏感ではない。
この2つの極点の間に位置するRLにおける表現学習のアプローチを開発する。
これにより、タスクに直接関連し、値関数の学習を加速できる、抽出可能な予測ターゲットが提供される。
論文 参考訳(メタデータ) (2020-02-19T18:10:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。