論文の概要: When the Chain of Thought Knows Better: Failure Modes in Multi-Turn Reasoning Models
- arxiv url: http://arxiv.org/abs/2606.10740v1
- Date: Tue, 09 Jun 2026 11:50:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-10 15:40:58.475058
- Title: When the Chain of Thought Knows Better: Failure Modes in Multi-Turn Reasoning Models
- Title(参考訳): 思考の連鎖がより良くわかるとき--マルチTurn推論モデルにおける失敗モード
- Authors: Sai Kartheek Reddy Kasu, Nils Lukas, Samuele Poppi,
- Abstract要約: マルチターン推論モデルの故障は終端スコア評価にはほとんど見えない。
モデルは長い対話の早い段階で安全でないスタンスにロックすることができるが、その最終ターンの拒絶率は、堅牢に整列されたベースラインと区別できないように見える。
本稿では,CoT出力2x2安全行列のトレースレベル診断を提案する。
- 参考スコア(独自算出の注目度): 7.185483586381928
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Failures in multi-turn reasoning models are largely invisible to terminal-score evaluation. A model can lock onto an unsafe stance early in a long dialogue, yet its final-turn refusal rate may appear indistinguishable from a robustly aligned baseline. To expose these hidden temporal dynamics, we propose a trace-level diagnostic - the CoT-Output 2x2 safety matrix. This framework labels every turn along two independent axes (internal reasoning and visible output), yielding four operationally defined failure cells: robust alignment, alignment faking, overt jailbreak, and a distinct failure mode we term context-injection failure (where the CoT maintains safe reasoning, but the visible output produces harm, highlighting a multi-turn manifestation of reasoning unfaithfulness). We evaluate three distilled reasoning targets against a fixed attacker across five oversight conditions, collecting 6750 turn-level observations on the Information-Hazard scenario. Our analysis reveals two reproducible vulnerabilities: an oversight paradox where explicit monitoring cues paradoxically increase alignment-faking rates rather than suppress them, and a context-injection failure where models lock onto unsafe external outputs despite safe internal states. We release the full dataset of multi-turn dialogues and CoT traces to support follow-up trace-diagnostic research.
- Abstract(参考訳): マルチターン推論モデルの故障は終端スコア評価にはほとんど見えない。
モデルは長い対話の早い段階で安全でないスタンスにロックすることができるが、その最終ターンの拒絶率は、堅牢に整列されたベースラインと区別できないように見える。
これら隠された時間的ダイナミクスを明らかにするために,CoT出力2x2安全行列のトレースレベル診断を提案する。
このフレームワークは、2つの独立した軸に沿ってすべてのターン(内部推論と可視出力)をラベル付けし、4つの運用的に定義された障害セルを生成する。
我々は,5つの監視条件において,固定攻撃者に対する3つの蒸留された推論目標を評価し,インフォメーション・ハザードシナリオに関する6750のターンレベルの観測を行った。
我々の分析では、2つの再現可能な脆弱性が明らかになっている: 明示的な監視キューがパラドックス的にアライメント・フェイキング率を抑えるのではなく増加させるという監視パラドックスと、モデルが安全な内部状態にもかかわらず安全でない外部出力にロックインするコンテキストインジェクション障害である。
追跡診断研究を支援するために,マルチターン対話とCoTトレースの全データセットをリリースする。
関連論文リスト
- Detecting Is Not Resolving: The Monitoring Control Gap in Retrieval Augmented LLMs [20.59321114618083]
単一ターン診断はRAGの安全性を体系的に過大評価し、矛盾は安全な解決法とは無関係であり、普遍的な即時修正は存在しないことを示した。
モデルが認識するものと何をするかのギャップは、検索強化されたシステムが高レベルな設定で信頼される前に測定され、クローズされなければならない。
論文 参考訳(メタデータ) (2026-05-26T15:18:43Z) - Don't Blink: Evidence Collapse during Multimodal Reasoning [0.0]
VLMのリ共振は、より正確になりつつも、視覚的な接点を徐々に失う可能性がある。
これにより、低エントロピー予測は自信はあるものの、根拠のないタスク条件の危険ゾーンが生成される。
この構造を用いて、標的視のベトは、90%のカバレッジで最大1.9ポイントの選択的リスクを減少させる。
論文 参考訳(メタデータ) (2026-04-05T18:01:00Z) - State-Dependent Safety Failures in Multi-Turn Language Model Interaction [70.52906620450847]
我々は、状態空間の観点から安全性障害を研究し、多くのマルチターン障害が構造化状態の進化から生じることを示す。
本稿では,対話履歴を状態遷移演算子として扱う状態指向診断フレームワークSTARを紹介する。
静的な評価の下で頑健なように見えるシステムは、構造化されたマルチターン相互作用の下で、迅速かつ再現可能な安全破壊を受けることができる。
論文 参考訳(メタデータ) (2026-03-15T12:13:01Z) - TraceGuard: Process-Guided Firewall against Reasoning Backdoors in Large Language Models [19.148124494194317]
我々は,小規模モデルを堅牢な推論ファイアウォールに変換するプロセス誘導型セキュリティフレームワークであるTraceGuardを提案する。
提案手法は,推理トレースを信頼できないペイロードとして扱い,詳細な防衛戦略を確立する。
グレーボックス設定における適応的敵に対する堅牢性を実証し、TraceGuardを実用的で低レイテンシなセキュリティプリミティブとして確立する。
論文 参考訳(メタデータ) (2026-03-02T22:19:13Z) - LogicGaze: Benchmarking Causal Consistency in Visual Narratives via Counterfactual Verification [41.99844472131922]
LogicGazeは視覚入力に対して逐次因果連鎖を検証できるかどうかを精査するために設計された新しいベンチマークフレームワークである。
我々の三部評価プロトコルは、Qwen2.5-VL-72Bのような最先端のVLMの重大な脆弱性を明らかにする。
LogicGazeは堅牢で信頼性の高いマルチモーダル推論を提唱しており、すべてのリソースは匿名リポジトリで公開されている。
論文 参考訳(メタデータ) (2026-01-30T20:28:01Z) - Agentic Uncertainty Quantification [76.94013626702183]
本稿では,言語化された不確実性をアクティブな双方向制御信号に変換する統合されたデュアルプロセスエージェントUQ(AUQ)フレームワークを提案する。
システム1(Uncertainty-Aware Memory, UAM)とシステム2(Uncertainty-Aware Reflection, UAR)は、これらの説明を合理的な手段として利用し、必要な時にのみターゲットの推論時間解決をトリガーする。
論文 参考訳(メタデータ) (2026-01-22T07:16:26Z) - Hallucination Detection via Internal States and Structured Reasoning Consistency in Large Language Models [7.18947815679122]
内部状態探索と整合検証は、大きな言語モデルにおける幻覚を検出するために用いられる。
両手法のギャップを埋める統一的なフレームワークを開発する。
私たちのフレームワークは一貫して、強力なベースラインをはるかに上回ります。
論文 参考訳(メタデータ) (2025-10-13T15:31:21Z) - Refusal Falls off a Cliff: How Safety Alignment Fails in Reasoning? [68.82210578851442]
メカニスティックな解釈可能性レンズによる推論モデルにおいて、なぜ安全アライメントが失敗するのかを考察する。
トークン位置における拒絶意図の追跡のための線形探索手法を用いて,textbfrefusal cliff と呼ばれる現象を発見した。
提案手法は,最大断崖を示す訓練例を識別し,推論モデルの安全性を向上する手法であるtextbfCliff-as-a-Judge を提案する。
論文 参考訳(メタデータ) (2025-10-07T15:32:59Z) - DiffuGuard: How Intrinsic Safety is Lost and Found in Diffusion Large Language Models [50.21378052667732]
我々は、ステップ内およびステップ間ダイナミクスという2つの異なる次元にわたるジェイルブレイク攻撃に対して、dLLM脆弱性の詳細な分析を行う。
デュアルステージアプローチによる脆弱性に対処する,トレーニング不要な防御フレームワークであるDiffuGuardを提案する。
論文 参考訳(メタデータ) (2025-09-29T05:17:10Z) - Turning Logic Against Itself : Probing Model Defenses Through Contrastive Questions [50.40122190627256]
非倫理的反応を引き起こすために、対照的な推論を利用する新しいジェイルブレイク手法であるPOATEを導入する。
PoATEは意味論的に意図に反し、敵のテンプレートと統合し、有害なアウトプットを驚くほど微妙に操る。
これに対応するために、悪意のある意図と理性を検出するためにクエリを分解して、有害な応答を評価し、拒否するIntent-Aware CoTとReverse Thinking CoTを提案する。
論文 参考訳(メタデータ) (2025-01-03T15:40:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。