論文の概要: Does Reasoning Preserve Alignment? On the Trustworthiness of Large Reasoning Models
- arxiv url: http://arxiv.org/abs/2606.11046v1
- Date: Tue, 09 Jun 2026 16:14:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-10 15:40:58.60478
- Title: Does Reasoning Preserve Alignment? On the Trustworthiness of Large Reasoning Models
- Title(参考訳): 推論はアライメントを保存するか? : 大規模推論モデルの信頼性について
- Authors: Prajakta Kini, Avinash Reddy, Souradip Chakraborty, Satya Sai Srinath Namburi GNVV, Furong Huang, Amrit Singh Bedi, Alvaro Velasquez,
- Abstract要約: 教師付き微調整, RL を用いた後訓練, および命令調整ベースラインに対する蒸留による推論モデルの比較を行った。
推論モデルはしばしば推論ベンチマークを改善するが、アライメント回帰を示す。
これらの回帰は、KL発散によって測定された命令調整ベースラインからの挙動ドリフトと一致している。
- 参考スコア(独自算出の注目度): 55.788110316999166
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Instruction-tuned LLMs are increasingly converted into reasoning models through post-training to improve multi-step task performance. This conversion is usually optimized for reasoning accuracy, without explicitly preserving the alignment behavior of the instruction-tuned model, such as safe refusal, bias avoidance, and privacy protection. We ask: does this conversion preserve alignment? We study this question through a trustworthiness audit and find that it is not behavior-preserving by default. For a systematic analysis, we compare reasoning models produced via supervised fine-tuning, RL-based post-training, and distillation against matched instruction-tuned baselines across six trustworthiness dimensions: safety, toxicity, stereotyping and bias, machine ethics, privacy, and out-of-distribution robustness. We observe that reasoning models often improve on reasoning benchmarks but exhibit alignment regressions, including increased toxicity, amplified stereotyping, miscalibrated refusal, and contextual privacy leakage. These regressions are consistent with behavioral drift from the instruction-tuned baseline, measured by KL divergence. Overall, our results point to the broader conclusion that trustworthiness metrics are essential for evaluating reasoning models and should be reported alongside gains in reasoning capability.
- Abstract(参考訳): インストラクションチューニング LLM は後処理により推論モデルに変換され,マルチステップタスク性能が向上する。
この変換は通常、安全な拒絶、バイアス回避、プライバシ保護といった命令指定モデルのアライメント動作を明示的に保存することなく、推論精度に最適化される。
この変換はアライメントを維持するか?
我々は、信頼度監査を通じてこの質問を調査し、それがデフォルトでは行動保存ではないことを確認した。
系統的な分析では、教師付き微調整、RLベースのポストトレーニング、そして、安全、毒性、ステレオタイピングとバイアス、機械倫理、プライバシ、アウト・オブ・ディストリビューション・ロバストネスの6つの信頼度次元にわたる一致した命令調整ベースラインに対する蒸留による推論モデルを比較する。
推論モデルは、しばしば推論ベンチマークを改善するが、毒性の向上、ステレオタイピングの増幅、誤校正拒否、コンテキストプライバシリークなどのアライメントレグレッションを示す。
これらの回帰は、KL発散によって測定された命令調整ベースラインからの挙動ドリフトと一致している。
全体としては、信頼性の指標は推論モデルを評価する上で不可欠であり、推論能力の利得とともに報告されるべきである、というより広い結論を示している。
関連論文リスト
- Invascal: Inverse-Vacuity Self-Calibration for Uncertainty-Aware LiDAR Range-View Semantic Segmentation [3.0338740183736106]
アーキテクチャに依存しない新しいアダプタヘッドを提案する。
予測は、クラスランキングのための予測ヘッドと、不確実性評価を洗練させる強度ヘッドに分解される。
本稿では, 強度信号を直接監視し, 信頼性・校正された不確実性推定を行う逆空洞自己校正目標を提案する。
論文 参考訳(メタデータ) (2026-05-20T16:39:29Z) - Confidence-Aware Alignment Makes Reasoning LLMs More Reliable [65.44962502963378]
CASPOは、トークンレベルの信頼度とステップワイドな論理的正しさを、個別の報酬モデルをトレーニングせずに整合させるフレームワークである。
推論中、信頼を意識した思考(CaT)を提案し、不確実な推論枝を無視可能なO(V)レイテンシで動的に生成する。
10のベンチマークと複数のモデルファミリでの実験では、CASPOは推論の信頼性と推論効率を一貫して改善している。
論文 参考訳(メタデータ) (2026-05-08T07:08:25Z) - The Illusion of Certainty: Decoupling Capability and Calibration in On-Policy Distillation [67.26315138466312]
モデルロールアウトから経験的信頼性を推定するキャリブレーション対応のOPDフレームワークであるCaOPDを提案する。
本研究は, 能力蒸留が信頼性を示唆するものではないこと, 信頼性をポストトレーニングの本質的な目的として扱うべきであることを明らかにする。
論文 参考訳(メタデータ) (2026-04-18T04:43:40Z) - Quantifying Self-Preservation Bias in Large Language Models [9.590157416396194]
本稿では,emphTwo-role Benchmark for Self-Preservationを紹介する。
役割アイデンティティが客観的ユーティリティを過度に上回る頻度を測定する。
我々は,低改善体制下では,モデルが解釈スラックを利用してポストホック合理化を行うのを観察する。
論文 参考訳(メタデータ) (2026-04-02T15:38:31Z) - THINKSAFE: Self-Generated Safety Alignment for Reasoning Models [60.10077024249373]
外部の教師がいなくても安心して安心できるフレームワークであるThinkSafeを提案する。
我々の重要な洞察は、コンプライアンスは安全メカニズムを抑制するが、モデルはしばしば害を特定するために潜伏した知識を保持することである。
DeepSeek-R1-DistillとQwen3の実験では、ThinkSafeは推論能力を維持しながら安全性を大幅に向上している。
論文 参考訳(メタデータ) (2026-01-30T16:31:02Z) - Large Reasoning Models Learn Better Alignment from Flawed Thinking [56.08883934423522]
大規模推論モデル(LRM)は、最終的な答えを生成する前に構造化チェーン・オブ・シント(CoT)を生成することで「考える」。
本稿では,Regressed Learning (RL) 手法であるRECAPを提案する。
論文 参考訳(メタデータ) (2025-10-01T14:15:43Z) - Is Reasoning All You Need? Probing Bias in the Age of Reasoning Language Models [0.0]
RLM(Reasoning Language Models)は、複雑な多段階推論タスクを実行する能力によって注目を集めている。
これらの能力は信頼性の向上を約束するが、社会的バイアスに対する堅牢性への影響はまだ不明だ。
我々は, CLEAR-Bias ベンチマークを用いて, RLM のバイアス誘発に対する対角的ロバスト性について検討する。
論文 参考訳(メタデータ) (2025-07-03T17:01:53Z) - Selective Learning: Towards Robust Calibration with Dynamic Regularization [79.92633587914659]
ディープラーニングにおけるミススキャリブレーションとは、予測された信頼とパフォーマンスの間には相違がある、という意味である。
トレーニング中に何を学ぶべきかを学ぶことを目的とした動的正規化(DReg)を導入し、信頼度調整のトレードオフを回避する。
論文 参考訳(メタデータ) (2024-02-13T11:25:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。