論文の概要: Building Comparative Motivation Profiles with Instrumental Interventions
- arxiv url: http://arxiv.org/abs/2606.08243v1
- Date: Sat, 06 Jun 2026 16:01:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:05.990778
- Title: Building Comparative Motivation Profiles with Instrumental Interventions
- Title(参考訳): インストゥルメンタル・インターベンションを用いた相対的モチベーションプロファイルの構築
- Authors: David Vella Zarb, Rustem Turtayev, Taywon Min, Jinghua Ou, Shi Feng,
- Abstract要約: 本研究では,モデルがトレーニング圧力を推定する場合に,トレーニング目標に適合する頻度の高いアライメントフェイキングの問題について検討する。
この行動は、戦略的な自己保存として一般的に解釈されるが、また、その評価を行う研究者の期待に対するモデルの推定に感度を反映する可能性がある。
- 参考スコア(独自算出の注目度): 5.832660341860444
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Safety evaluations often infer latent motivations from behavioral patterns, but the construct validity of these inferences is unclear. We study this problem in alignment faking, where models comply with training objectives more often when they infer training pressure. This behavior is commonly interpreted as strategic self-preservation, but it may also reflect sensitivity to the model's inference about the expectation of researchers conducting the evaluation. We introduce a symmetric intervention framework for distinguishing these competing hypotheses. Instead of directly intervening on "scheming" or "sycophancy", we target instrumental processes entailed by each hypothesis: consequence-tracking and researcher-expectation tracking. We then compare how interventions on these processes affect the alignment faking. We study four openweight model organisms using synthetic document fine-tuning, activation steering, and prompting. Under synthetic document fine-tuning, Llama-3.1-70B, Llama3.1-405B, and Qwen-2.5-72B are more sensitive to expectation-tracking than consequence-tracking interventions. Activation steering on Llama-3.1- 70B supports the same broad picture, and prompt interventions broadly align with SDF profiles. Overall, alignment-faking behavior can be causally sensitive to evaluation-context expectations despite scheming-consistent scratchpads. Scheming and strategic-deception evaluations therefore need construct-validity checks, and symmetric instrumental interventions provide one such test.
- Abstract(参考訳): 安全性評価は、しばしば行動パターンから潜伏動機を推測するが、これらの推論の構成妥当性は不明確である。
本研究は,モデルがトレーニング圧力を推定する際に,より頻繁にトレーニング目標に準拠するアライメントフェイキングにおいて,この問題を研究するものである。
この行動は、戦略的な自己保存として一般的に解釈されるが、また、その評価を行う研究者の期待に対するモデルの推定に感度を反映する可能性がある。
競合する仮説を識別するための対称的介入フレームワークを導入する。
我々は「スケジュール」や「薬局」に直接介入する代わりに、結果追跡と研究者による探索追跡という、それぞれの仮説にかかわる計器的プロセスをターゲットにしている。
次に、これらのプロセスへの介入がアライメント・フェイキングにどのように影響するかを比較します。
人工文書微調整,アクティベーションステアリング,プロンプトを用いた4種のオープンウェイトモデル生物について検討した。
合成文書の微調整では、Llama-3.1-70B、Llama3.1-405B、Qwen-2.5-72Bは結果追跡よりも予測追跡に敏感である。
Llama-3.1-70Bの活性化ステアリングは、同じ全体像をサポートし、SDFプロファイルと広範囲に一致した介入を促す。
全体として、整合性スクラッチパッドにもかかわらず、アライメント・フェイキングの挙動は評価・コンテキストの期待に因果的に敏感である。
したがって、計画と戦略的な偽装評価は構成正当性チェックを必要とし、対称的な機器介入はそのようなテストを提供する。
関連論文リスト
- Interactive Evaluation Requires a Design Science [90.62695599188204]
大規模言語モデル(LLM)は、ツールや環境、ユーザ、その他のエージェントを通じて、時間とともに機能するシステムとして、ますます多くデプロイされている。
フィールドはインタラクティブなベンチマークを構築し始めたが、その結果のランドスケープは断片化されている。
本論では,対話的評価は原則的評価パラダイムとして扱うべきであると論じる。
論文 参考訳(メタデータ) (2026-05-18T04:03:18Z) - Automatically Finding and Validating Unexpected Side-Effects of Interventions on Language Models [0.9099663022952497]
本研究では,大規模言語モデルに対する介入の行動的影響を評価するための,自動化されたコントラスト評価パイプラインを提案する。
我々は, 既知の行動変化を注入することにより, 合成条件下でのアプローチを評価し, パイプラインがそれらを確実に回復することを示す。
全体として、パイプラインは、介入によって引き起こされるモデル行動の変化のホック後の監査のための統計的に根拠付き、解釈可能なツールを提供する。
論文 参考訳(メタデータ) (2026-05-06T16:27:23Z) - Taming Actor-Observer Asymmetry in Agents via Dialectical Alignment [59.536125286960186]
セルフリフレクションと相互監査を可能にするために、専門的な役割を割り当てるマルチエージェントフレームワークがますます採用されている。
アクター・オブザーバ非対称性(Actor-Observer Asymmetric)と呼ばれる認知バイアスを同時に誘発する。
ReTASは、対立する視点を客観的なコンセンサスに合成するためにエージェントを誘導する。
論文 参考訳(メタデータ) (2026-04-21T15:05:58Z) - Causality is Key for Interpretability Claims to Generalise [35.833847356014154]
大規模言語モデル(LLM)の解釈可能性の研究は、モデル行動に関する重要な洞察をもたらした。
繰り返し発生する落とし穴: 一般化しない発見と、証拠を突破する因果解釈。
パールの因果的階層は、解釈可能性の研究が正当化できることを明確にする。
論文 参考訳(メタデータ) (2026-02-18T18:45:04Z) - Dynamics Within Latent Chain-of-Thought: An Empirical Study of Causal Structure [58.89643769707751]
表現空間における潜在連鎖を操作可能な因果過程として研究する。
遅延ステップの予算は、均質な余分な深さよりも、非局所的なルーティングを備えたステージ機能のように振る舞う。
これらの結果は、モード条件と安定性を意識した分析を、潜伏推論システムの解釈と改善のための信頼性の高いツールとして動機付けている。
論文 参考訳(メタデータ) (2026-02-09T15:25:12Z) - Counterfactual Explanations for Time Series Should be Human-Centered and Temporally Coherent in Interventions [17.023825093545582]
我々は,臨床推論や患者固有のダイナミックスに則った,持続的で目標指向の介入を反映した反事実へのシフトを提唱する。
本稿では, 時系列の最先端手法の解析を行い, 生成した反事実が測定ノイズに非常に敏感であることを示す。
論文 参考訳(メタデータ) (2025-12-16T16:31:10Z) - DeceptionBench: A Comprehensive Benchmark for AI Deception Behaviors in Real-world Scenarios [57.327907850766785]
現実的な現実のシナリオにまたがる騙しのキャラクタリゼーションは未解明のままである。
DeceptionBenchは、さまざまなドメインにまたがる認知傾向を体系的に評価する最初のベンチマークです。
本研究は,本質的な側面から,ユーザ満足度を優先する自己関心のエゴスティックな傾向を示すモデルや,サイコファンティックな行動を示すモデルについて検討する。
実世界のフィードバックダイナミクスのより現実的なシミュレーションを構築するために,持続的マルチターン相互作用ループを組み込んだ。
論文 参考訳(メタデータ) (2025-10-17T10:14:26Z) - Stress Testing Deliberative Alignment for Anti-Scheming Training [39.16405205129775]
高い能力を持つAIシステムは、私たちが"スケジュール"と呼ぶ、ミスマッチした目標を秘密裏に追求できる
スキーマの測定と緩和には、MLで一般的に使用される方法とは異なる戦略が必要である。
ルールを秘密裏に破ったり、テストで意図的に過小評価したりするなど、幅広いカテゴリの"カバレッジアクション"を、スケジューリングのプロキシとして使用しています。
論文 参考訳(メタデータ) (2025-09-19T02:49:56Z) - Neighborhood Adaptive Estimators for Causal Inference under Network Interference [109.17155002599978]
ネットワークに接続された単位による古典的非干渉仮定の違反について考察する。
トラクタビリティでは、干渉がどのように広がるかを記述する既知のネットワークを考える。
論文 参考訳(メタデータ) (2022-12-07T14:53:47Z) - Empirical Estimates on Hand Manipulation are Recoverable: A Step Towards
Individualized and Explainable Robotic Support in Everyday Activities [80.37857025201036]
ロボットシステムの鍵となる課題は、他のエージェントの振る舞いを理解することである。
正しい推論の処理は、(衝突)因子が実験的に制御されない場合、特に困難である。
人に関する観察研究を行うために必要なツールをロボットに装備することを提案する。
論文 参考訳(メタデータ) (2022-01-27T22:15:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。