論文の概要: Do Thinking Tokens Help with Safety?
- arxiv url: http://arxiv.org/abs/2606.25013v1
- Date: Tue, 23 Jun 2026 17:59:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-25 17:05:30.1068
- Title: Do Thinking Tokens Help with Safety?
- Title(参考訳): トークンは安全に役立つか?
- Authors: Narutatsu Ri, Abhishek Panigrahi, Sanjeev Arora,
- Abstract要約: 現在の推論モデルにおける安全性の挙動は、一般的に想定されるよりもはるかに議論的でないことを示す。
また、既存の推論時間とトレーニングベースの安全介入は、熟考の目的に動機づけられたものの、モデル行動が過度に拒絶される傾向にあることも見出した。
- 参考スコア(独自算出の注目度): 34.336035944909746
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Today's reasoning models use thinking tokens to attain stronger performance on benchmarks than their instruction-tuned counterparts. It is also generally believed that this more "deliberative" mode should improve alignment and safety, by providing the model a safe space to consider whether its planned answer to a request violates its safety principles. We present evidence that this intuition is not always correct. Across frontier open-weight reasoning models spanning GPT-OSS, Qwen, Olmo, and Phi families, we find that the eventual refusal/compliance outcome is already strongly predictable via a trained head on the first token's hidden representation ($0.84$-$0.95$ AUROC and $\sim88\%$ balanced accuracy for predicting refusal/compliance) before any visible thinking. The thinking process turns out to be more akin to prefix completion than to deliberative revision, with the final outcome rarely changing after the first $\sim20\%$ of thinking, despite giving the appearance of deliberation at the text level ($\sim74\%$ of text-level deliberations occur when the response distribution is already locked to one refusal/compliance side). We also find that existing inference-time and training-based safety interventions, despite being motivated by the goal of inducing deliberation, largely shift model behavior toward over-refusal while suppressing already-scarce deliberation signals. Our results suggest that safety behavior in current reasoning models is much less deliberative than commonly assumed, and highlight the need for methods that induce real safety deliberation.
- Abstract(参考訳): 今日の推論モデルは、シンキングトークンを使用して、インストラクションチューニングされたものよりもベンチマークのパフォーマンスを向上します。
また、この「検討的な」モードは、要求に対する回答が安全性の原則に違反しているかどうかを考慮し、モデルに安全な空間を提供することによって、アライメントと安全性を改善するべきであると一般的に信じられている。
この直観が必ずしも正しいとは限らないという証拠を提示する。
GPT-OSS、Qwen、Olmo、Phiファミリーにまたがるフロンティアのオープンウェイト推論モデル全体で、最終的な拒絶/コンプライアンスの結果は、目に見える思考よりも前に、最初のトークンの隠れ表現(0.84$-0.95$AUROCおよび$\sim88\%$バランスの取れた精度)のトレーニングヘッドを介して、すでに強く予測可能である。
最終的な結果は、最初の$\sim20\%$の思考の後、テキストレベルでの議論の出現("\sim74\%$ of text-level deliberations" は、応答分布が既に1つの拒絶/コンプライアンス側にロックされているときに発生する)にもかかわらず、ほとんど変化しない。
また、既存の推論時間とトレーニングに基づく安全介入は、熟考を誘導するという目標に動機付けられつつも、既に過度な熟考のシグナルを抑えながら、モデル行動が過度に拒絶される傾向にあることも見出した。
以上の結果から,現在の推論モデルにおける安全性の挙動は,一般的に想定されるよりもはるかに議論的ではないことが示唆され,実際の安全性の議論を誘発する手法の必要性が浮き彫りにされている。
関連論文リスト
- Does Reasoning Preserve Alignment? On the Trustworthiness of Large Reasoning Models [55.788110316999166]
教師付き微調整, RL を用いた後訓練, および命令調整ベースラインに対する蒸留による推論モデルの比較を行った。
推論モデルはしばしば推論ベンチマークを改善するが、アライメント回帰を示す。
これらの回帰は、KL発散によって測定された命令調整ベースラインからの挙動ドリフトと一致している。
論文 参考訳(メタデータ) (2026-06-09T16:14:27Z) - Understanding and Mitigating Premature Confidence for Better LLM Reasoning [76.16007941549857]
現在の言語モデルからの思考の長い連鎖(CoT)は、しばしば論理的ギャップと不正な跳躍を含んでいる。
このような信号は、モデルの信頼性が推論中にどのように進化するかを示す。
これは、モデルを早期にコミットするのではなく、理由によってモデルの信頼性を更新するように訓練する強化学習の目標です。
論文 参考訳(メタデータ) (2026-05-23T04:42:45Z) - THINKSAFE: Self-Generated Safety Alignment for Reasoning Models [60.10077024249373]
外部の教師がいなくても安心して安心できるフレームワークであるThinkSafeを提案する。
我々の重要な洞察は、コンプライアンスは安全メカニズムを抑制するが、モデルはしばしば害を特定するために潜伏した知識を保持することである。
DeepSeek-R1-DistillとQwen3の実験では、ThinkSafeは推論能力を維持しながら安全性を大幅に向上している。
論文 参考訳(メタデータ) (2026-01-30T16:31:02Z) - How Does Prefix Matter in Reasoning Model Tuning? [57.69882799751655]
推論(数学)、コーディング、安全性、事実性の3つのコアモデル機能にまたがる3つのR1シリーズモデルを微調整します。
その結果,プレフィックス条件付きSFTでは安全性と推論性能が向上し,Safe@1の精度は最大で6%向上した。
論文 参考訳(メタデータ) (2026-01-04T18:04:23Z) - One Token Embedding Is Enough to Deadlock Your Large Reasoning Model [91.48868589442837]
我々は, LRMの生成制御フローをハイジャックする資源枯渇手法であるDeadlock Attackを提案する。
提案手法は4つの先進LEMにおいて100%の攻撃成功率を達成する。
論文 参考訳(メタデータ) (2025-10-12T07:42:57Z) - Refusal Falls off a Cliff: How Safety Alignment Fails in Reasoning? [68.82210578851442]
メカニスティックな解釈可能性レンズによる推論モデルにおいて、なぜ安全アライメントが失敗するのかを考察する。
トークン位置における拒絶意図の追跡のための線形探索手法を用いて,textbfrefusal cliff と呼ばれる現象を発見した。
提案手法は,最大断崖を示す訓練例を識別し,推論モデルの安全性を向上する手法であるtextbfCliff-as-a-Judge を提案する。
論文 参考訳(メタデータ) (2025-10-07T15:32:59Z) - Entropy After $\langle \texttt{/Think} \rangle$ for reasoning model early exiting [38.93424884988798]
正しい解に到達した後も、回答を再検討し続けながら、大きな推論モデルが過大評価されていることを示す。
We propose Entropy After /Think> (EAT) for monitoring and decide whether to exit reasoning early。
EATは、正確性を損なうことなく、トークン使用量を13~21%削減する。
論文 参考訳(メタデータ) (2025-09-30T16:59:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。