論文の概要: Detecting and Controlling Sycophancy with Cascading Linear Features
- arxiv url: http://arxiv.org/abs/2606.26155v1
- Date: Tue, 23 Jun 2026 20:10:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-26 18:46:32.014393
- Title: Detecting and Controlling Sycophancy with Cascading Linear Features
- Title(参考訳): カスケード線形特徴を用いたシクロファンシーの検出と制御
- Authors: Maty Bohacek, Rishub Jain, Nicholas Dufour, Thomas Leung, Chris Bregler, Roma Patel,
- Abstract要約: 動作に責任のあるカスケード線形特徴を分離する反復データ生成パイプラインを提案する。
私たちは、ユーザのバリデーションを優先する言語モデルの傾向である、梅毒の検知とステアリングに重点を置いています。
- 参考スコア(独自算出の注目度): 7.13923185919936
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Interpreting and controlling model behaviors through activation steering methods requires many pairs of contrastive samples that clearly exhibit desired or undesired behavior. These data pairs determine the degree to which interpretability frameworks can reliably detect model features responsible for a behavior, and therefore the ability to steer models toward or away from such behavior. In this work, we present an iterative data generation pipeline that isolates cascading linear features responsible for a behavior. Specifically, we show how moving beyond simple binary pairs of samples, and instead isolating samples that show degrees of features that scale linearly with behavior, allows for better disentanglement of features. We focus on detecting and steering away from sycophancy -- the tendency of language models to prioritize user validation. We demonstrate that sycophancy features discovered through cascading samples form linearly separable subspaces, and allow for selection of model activations that more clearly correspond to the desired behavior than baseline approaches. We also evaluate their ability to enable detection, deterministic scoring, and robust steering, and see that they either match or outperform LLM-as-a-judge and system prompting baselines while providing lower computational demand and more interpretability guarantees. Code & Data: https://cascading-feats.github.io/
- Abstract(参考訳): アクティベーションステアリング法によるモデル行動の解釈と制御には、望ましくない行動や望ましくない行動を明確に示す多くのコントラスト的なサンプルが必要である。
これらのデータペアは、解釈可能性フレームワークが振る舞いに責任があるモデル特徴を確実に検出できる程度を決定します。
本研究では,動作に責任のある線形特徴を分離する反復データ生成パイプラインを提案する。
具体的には、単純なバイナリ対のサンプルを超えて、振る舞いと線形にスケールする機能の度合いを示すサンプルを分離することで、機能のより良いアンタングル化を実現する方法を示す。
私たちは、ユーザのバリデーションを優先する言語モデルの傾向である、梅毒の検知とステアリングに重点を置いています。
本研究では, カスケードサンプルから発見された語彙特徴が線形分離可能な部分空間を形成し, ベースラインアプローチよりも望ましい振る舞いに対応するモデルアクティベーションの選択を可能にすることを実証する。
また, 検出, 決定的スコアリング, 堅牢なステアリングを可能にする能力を評価し, LLM-as-a-judge に適合するか, 性能を向上するか, ベースラインを推し進めるとともに, 計算要求の低減と解釈可能性の向上を図っている。
Code & Data: https://cascading-feats.github.io/
関連論文リスト
- Anatomy of Post-Training: Using Interpretability to Characterize Data and Shape the Learning Signal [29.196846051811576]
本稿では、解釈可能性プロトコルを用いたデータ中心のポストトレーニングパイプラインを導入し、非推奨世代と区別される潜在概念の統計的仮説を立案する。
我々のパイプラインは、既存の嗜好データの望ましくない信号を診断し、ターゲット外の学習を緩和し、安全ガードやモデルパーソナリティといった望ましい特性を増幅または形作るのにも役立ちます。
論文 参考訳(メタデータ) (2026-06-10T17:31:16Z) - Reliable Control-Point Selection for Steering Reasoning in Large Language Models [28.288321095634128]
ステアリングベクトルは、大規模言語モデルにおける推論動作を制御するためのトレーニング不要のメカニズムを提供する。
しかし、有効なベクトルを構成するには、モデルが隠した状態にある真の行動信号を特定する必要がある。
提案手法は,全ての検出された境界が真の行動信号を符号化していることを暗黙的に仮定して,チェーンオブソートトレースのキーワードマッチングによってこれらの挙動を検出する。
本研究では,コンテキスト依存的なトリガ確率を持つ事象として固有の推論動作を形式化する確率モデルを構築し,不安定な境界が操舵信号を弱めることを示す。
論文 参考訳(メタデータ) (2026-04-02T14:48:56Z) - Feature-Aware Test Generation for Deep Learning Models [0.5368630420272898]
本研究では,視覚に基づくディープラーニング(DL)モデルのための機能認識型テスト生成フレームワークであるTectを紹介する。
潜在空間内で非絡み合ったセマンティック属性を摂動することで入力を生成する。
行動シフトにつながる特徴を特定し、セマンティック属性に視覚言語モデルを使用する。
論文 参考訳(メタデータ) (2026-01-20T15:41:06Z) - SALVE: Sparse Autoencoder-Latent Vector Editing for Mechanistic Control of Neural Networks [0.0]
SALVEは機械的解釈可能性とモデル編集を橋渡しするフレームワークである。
私たちは、監督なしでスパースでモデルネイティブな機能ベースを学びます。
Grad-FAM(英語版)によりこれらの特徴を検証した。
論文 参考訳(メタデータ) (2025-12-17T20:06:03Z) - Stochastic Encodings for Active Feature Acquisition [100.47043816019888]
Active Feature Acquisitionは、インスタンスワイドでシーケンシャルな意思決定問題である。
目的は、テストインスタンスごとに独立して、現在の観測に基づいて計測する機能を動的に選択することである。
一般的なアプローチは強化学習(Reinforcement Learning)であり、トレーニングの困難を経験する。
我々は、教師付きで訓練された潜在変数モデルを導入し、潜在空間における観測不能な実現の可能性の多くにまたがる特徴を推論することで獲得する。
論文 参考訳(メタデータ) (2025-08-03T23:48:46Z) - Predicting the Performance of Black-box LLMs through Self-Queries [60.87193950962585]
大規模言語モデル(LLM)は、AIシステムにおいてますます頼りになってきている。
本稿では、フォローアッププロンプトを使用し、異なる応答の確率を表現として捉え、ブラックボックス方式でLCMの特徴を抽出する。
これらの低次元表現上で線形モデルをトレーニングすると、インスタンスレベルでのモデル性能の信頼性を予測できることを示す。
論文 参考訳(メタデータ) (2025-01-02T22:26:54Z) - Sample-Efficient Reinforcement Learning Is Feasible for Linearly
Realizable MDPs with Limited Revisiting [60.98700344526674]
線形関数表現のような低複雑度モデルがサンプル効率のよい強化学習を可能にする上で重要な役割を果たしている。
本稿では,オンライン/探索的な方法でサンプルを描画するが,制御不能な方法で以前の状態をバックトラックし,再訪することができる新しいサンプリングプロトコルについて検討する。
この設定に合わせたアルゴリズムを開発し、特徴次元、地平線、逆の準最適ギャップと実際にスケールするサンプル複雑性を実現するが、状態/作用空間のサイズではない。
論文 参考訳(メタデータ) (2021-05-17T17:22:07Z) - Automatic Recall Machines: Internal Replay, Continual Learning and the
Brain [104.38824285741248]
ニューラルネットワークのリプレイには、記憶されたサンプルを使ってシーケンシャルなデータのトレーニングが含まれる。
本研究では,これらの補助サンプルをフライ時に生成する手法を提案する。
代わりに、評価されたモデル自体内の学習したサンプルの暗黙の記憶が利用されます。
論文 参考訳(メタデータ) (2020-06-22T15:07:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。