論文の概要: Probing the Misaligned Thinking Process of Language Models
- arxiv url: http://arxiv.org/abs/2606.24251v1
- Date: Tue, 23 Jun 2026 07:40:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-24 22:16:48.82831
- Title: Probing the Misaligned Thinking Process of Language Models
- Title(参考訳): 言語モデルの不整合思考過程の探索
- Authors: Kaiwen Zhou, Constantin Venhoff, Jonathan Michala, Xin Eric Wang, William Saunders,
- Abstract要約: 大規模な言語モデルは、様々な不整合行動を示す。
このような動作を確実に検出し、安全で責任のある使用を保証することが重要である。
微粒化認知プロセスに分解して誤認識を監視することを提案する。
- 参考スコア(独自算出の注目度): 32.29324298373053
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models exhibit a growing range of misaligned behaviors such as strategic deception, sandbagging, and self-preservation. As they are increasingly deployed in high-stakes settings, it is critical to reliably detect such behaviors to ensure safe and responsible use. In this work, we propose to monitor misalignment by decomposing it into fine-grained cognitive processes -- misalignment indicators -- and detecting their presence in a model's internal activations via linear probes. We develop a taxonomy of 18 indicators spanning different misaligned behaviors, paired with an automated, meta-plan-guided pipeline that generates multi-turn training conversations. To rigorously evaluate generalization, we construct an out-of-distribution suite combining automated behavioral elicitation, established misalignment benchmarks, and natural benign conversations. Across 5 misaligned behaviors, our probes match a strong LLM judge with 0.935 AUROC on out-of-distribution benchmarks while keeping a low false positive rate on benign traffic. We further perform in-depth analysis to understand the probes and the model's internal representations of misalignment indicators.
- Abstract(参考訳): 大規模言語モデルは、戦略的な騙し、サンドバッグ、自己保存など、様々な不整合行動を示す。
ハイテイクな環境でのデプロイが増えているため、そのような動作を確実に検出し、安全で責任のある使用を確実にすることが重要です。
そこで本研究では, 誤認識指標を微粒化認知プロセスに分解し, 線形プローブを用いてモデルの内部のアクティベーションにおけるそれらの存在を検出することによって, 誤認識をモニタリングすることを提案する。
我々は,多ターン学習会話を生成するメタプラン誘導パイプラインと組み合わせて,異なる不整合行動にまたがる18の指標の分類法を開発した。
一般化を厳格に評価するために,自動的行動推論,確立された誤調整ベンチマーク,自然な良性会話を組み合わせたアウト・オブ・ディストリビューション・スイートを構築した。
5つの不整合挙動を総合して,我々の調査は,交通量に対する偽陽性率を低く保ちながら,分布外ベンチマークで0.935 AUROCの強いLLM判定値と一致した。
さらに、探触子とモデルの内部表現のミスアライメントインジケータを理解するために、詳細な分析を行う。
関連論文リスト
- CIAware-Bench: Benchmarking Control Intervention Awareness Across Frontier LLMs [100.38986535324284]
我々は、フロンティアモデル全体でのtextbfcontrol textbfintervention (CI) の認識を測定するベンチマークである textbfCIAware-Bench を紹介する。
CIAware-Benchは、モデルが自身の軌跡を制御介入によって修正されたものと区別できるかどうかをテストする。
論文 参考訳(メタデータ) (2026-06-09T16:24:16Z) - From Holistic Evaluation to Structured Criteria: Rubrics Across the Evolving LLM Landscape [79.30826980815927]
ルーブリックは、複雑な品質判断を構造化され、実行可能な標準に変換する明示的な基準セットです。
我々は,既存のルーリックデザインを体系的に整理し,その構築と最適化を検証し,評価と訓練をまたいだ役割を解析する。
論文 参考訳(メタデータ) (2026-06-07T13:34:55Z) - Closing the Confidence-Faithfulness Gap in Large Language Models [3.122242683664973]
大規模言語モデルは、実際の精度から大きく切り離された信頼スコアを言語化する。
本稿では,言語的信頼度に関する機械論的解釈可能性分析について述べる。
本稿では,モデルの内部精度推定値を読み取る2段階適応型ステアリングパイプラインを導入する。
論文 参考訳(メタデータ) (2026-03-26T05:42:04Z) - Automated Self-Testing as a Quality Gate: Evidence-Driven Release Management for LLM Applications [51.56484100374058]
我々は,エビデンスに基づくリリース決定を伴う品質ゲートを導入する自動自己テストフレームワークを提案する。
内部展開型多エージェント対話型AIシステムの縦型ケーススタディにより,本フレームワークの評価を行った。
論文 参考訳(メタデータ) (2026-03-13T20:44:15Z) - On the Paradoxical Interference between Instruction-Following and Task Solving [50.75960598434753]
次の命令は、大規模言語モデル(LLM)を、タスクの実行方法に関する明示的な制約を指定することで、人間の意図と整合させることを目的としている。
我々は,LLMのタスク解決能力にパラドックス的に干渉する命令に従うという,直感に反する現象を明らかにした。
本稿では,タスク解決に追従する命令の干渉を定量化する指標として,SUSTAINSCOREを提案する。
論文 参考訳(メタデータ) (2026-01-29T17:48:56Z) - From Passive Metric to Active Signal: The Evolving Role of Uncertainty Quantification in Large Language Models [77.04403907729738]
このサーベイは、受動的診断基準からリアルタイムモデル動作を導くアクティブ制御信号への不確実性の進化をグラフ化する。
3つのフロンティアにまたがるアクティブ制御信号として不確実性がいかに活用されているかを示す。
この調査は、次世代のスケーラブルで信頼性があり、信頼できるAIを構築するためには、新しい不確実性のトレンドを習得することが不可欠である、と論じている。
論文 参考訳(メタデータ) (2026-01-22T06:21:31Z) - COMPASS: Context-Modulated PID Attention Steering System for Hallucination Mitigation [2.1521364454860525]
モデルベースのフィードバックループをデコードに直接埋め込む軽量で解釈可能な制御フレームワークを導入する。
本研究では,PIDコントローラが動的にアテンションヘッドを変調して,リトレーニングやマルチパス復号を行うことなく,現実の一貫性を維持することを示す。
論文 参考訳(メタデータ) (2025-11-05T05:30:28Z) - Alignment Tipping Process: How Self-Evolution Pushes LLM Agents Off the Rails [103.05296856071931]
本稿では,自己進化型大規模言語モデル(LLM)エージェントに特有の,アライメント・ティッピング・プロセス(ATP)を同定する。
ATPは、連続的な相互作用によってエージェントが訓練中に確立されたアライメント制約を放棄し、強化された自己関心の戦略を支持するときに生じる。
実験の結果、アライメントの利点は自己進化の下で急速に低下し、最初は整合性のない状態に収束したモデルであることが判明した。
論文 参考訳(メタデータ) (2025-10-06T14:48:39Z) - Persona Features Control Emergent Misalignment [9.67070289452428]
我々は,GPT-4oを意図的でないコードで微調整することで,「創発的不整合」を引き起こすことを示す。
内部モデル表現を微調整前後に比較するために「モデル微分」手法を適用する。
また緩和戦略についても検討し,数百個の良性サンプルを瞬時に微調整することで効率よくアライメントを復元できることを見出した。
論文 参考訳(メタデータ) (2025-06-24T17:38:21Z) - AgentMisalignment: Measuring the Propensity for Misaligned Behaviour in LLM-Based Agents [0.0]
大規模言語モデル (LLM) エージェントはより広く普及し、関連するミスアライメントリスクが増加する。
本研究では,モデルが追求する内部目標と,デプロイ者の意図する目標との相反として,不整合にアプローチする。
現実的なシナリオにおいて,LLMエージェントの適合性を評価するためのベンチマークスイートであるtextscAgentMisalignmentを導入する。
論文 参考訳(メタデータ) (2025-06-04T14:46:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。