論文の概要: Can Reasoning Models Detect Changes to their Chains of Thought?
- arxiv url: http://arxiv.org/abs/2606.22085v1
- Date: Sat, 20 Jun 2026 15:03:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-25 22:57:16.132741
- Title: Can Reasoning Models Detect Changes to their Chains of Thought?
- Title(参考訳): Reasoning Modelsは思考の連鎖の変化を検出できるか?
- Authors: Sathvik Napa, Utkarsh Singh, Chengyuan Xue, Miriam Wanner, William Walden,
- Abstract要約: 我々は,近年の推論モデルが,様々な条件下で思考の連鎖にそのような介入を検出できるかどうかを考察した。
i)モデルが検出精度が非常に低いこと,(ii)モデルが修正したCoTの特定に苦慮していること,(iii)モデルが他のモデルと同等にCoTの変更を検出するのに優れていること,などが分かる。
- 参考スコア(独自算出の注目度): 2.5010430975839797
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: There are many reasons one may want to edit a model's chain of thought (CoT) -- e.g., to prefill it with reasoning from a stronger model or to remove steps that may yield unsafe outputs. The success of these interventions plausibly depends on a model's inability to notice them, as the model may alter its behavior if it suspects tampering. In this work, we study whether recent reasoning models are able to detect such interventions on their CoTs under a variety of conditions: both during reasoning and after it, and when prefilled both with their own CoTs and with those of other models. Broadly, we find that (i) models exhibit only very modest detection accuracy; (ii) models struggle to identify *how* their CoT was modified; and (iii) models are about as good at detecting changes to their own CoTs as to those of other models.
- Abstract(参考訳): モデルの思考の連鎖(CoT)を -- 例えば、より強力なモデルからの推論でプリフィルしたり、安全でないアウトプットをもたらすステップを削除するために -- 編集したい理由はたくさんあります。
これらの介入の成功は、モデルが改ざんしていると疑う場合、モデルが行動を変える可能性があるため、モデルがそれらに気づかないかどうかに大きく依存する。
本研究では、最近の推論モデルが、推論中と後の両方でCoTに対するそのような介入を検出できるかどうか、あるいは、CoTと他のモデルの両方でプリフィルされている場合について検討する。
大まかに言えば、私たちはそれを見つける。
(i)モデルは、ごくわずかな検出精度しか示さない。
(ii) CoT が変更されているかどうかを識別するのに苦労するモデル。
三 モデルは、他のモデルと同様、自前のCoTの変更を検出するのに長けている。
関連論文リスト
- Model Organisms Are Leaky: Perplexity Differencing Often Reveals Finetuning Objectives [0.9558392439655014]
ファインタニングは、大きな言語モデルの振る舞いを著しく変更することができる。
簡単なパープレキシティに基づく手法により, モデル生物の微調整対象を抽出できることが示唆された。
論文 参考訳(メタデータ) (2026-05-01T18:00:55Z) - AdvChain: Adversarial Chain-of-Thought Tuning for Robust Safety Alignment of Large Reasoning Models [62.70575022567081]
本稿では,逆CoTチューニングによる動的自己補正をモデルに教えるアライメントパラダイムであるAdvChainを提案する。
私たちの仕事は、より堅牢で信頼性の高い推論モデルを構築するための新しい方向性を確立します。
論文 参考訳(メタデータ) (2025-09-29T04:27:23Z) - Language Models can perform Single-Utterance Self-Correction of Perturbed Reasoning [4.768151813962547]
大規模言語モデル(LLM)は、驚くべき数学的推論能力を示している。
それらの性能は、問題記述と迅速な戦略の微妙なバリエーションに引き続き脆弱である。
近年のモデルの自己補正能力をよりよく理解するために,モデルが自己補正合成を行う能力を測定する実験を行った。
論文 参考訳(メタデータ) (2025-06-18T21:35:44Z) - Multi-Level Collaboration in Model Merging [56.31088116526825]
本稿では,モデルマージとモデルアンサンブルの本質的な関係について考察する。
これまでの制限が満たされていない場合でも、モデルのマージによって、アンサンブルと同じような、ほぼ同一かつ優れたパフォーマンスを達成する方法がまだ存在することが分かっています。
論文 参考訳(メタデータ) (2025-03-03T07:45:04Z) - Can Large Language Models Detect Errors in Long Chain-of-Thought Reasoning? [57.17826305464394]
o1-likeモデルは、既存のLarge Language Models(LLM)の推論能力を改善するための長いチェーン・オブ・ソート(CoT)推論ステップを生成する。
DeltaBenchを導入し、異なる推論タスクのために異なるo1-likeモデルから生成された長いCoTを含む。
DeltaBenchに基づいて、生成した長いCoTのきめ細かい分析を行い、異なるo1モデルの有効性と効率を明らかにする。
論文 参考訳(メタデータ) (2025-02-26T17:59:27Z) - Reply to "Comment on 'Experimentally adjudicating between different causal accounts of Bell-inequality violations via statistical model selection'" [0.0]
Hance と Hossenfelder はコメントの中で、超決定論的モデルの目的を誤って表現したと主張している。
本稿で定義した超決定論的モデルの異なるクラスと、これらのどれが実験結果に嫌われているのかという結論を思い出すことで、この主張に異議を唱える。
論文 参考訳(メタデータ) (2024-12-03T20:47:47Z) - Measuring Faithfulness in Chain-of-Thought Reasoning [19.074147845029355]
大きな言語モデル(LLM)は、質問に答える前にステップバイステップの"Chain-of-Thought"(CoT)推論を生成する場合、より優れたパフォーマンスを発揮する。
記述された推論が、モデルの実際の推論(すなわち、質問に答えるプロセス)の忠実な説明であるかどうかは不明である。
我々は,CoTに介入する際のモデル予測がどう変化するかを調べることで,CoT推論が不信である可能性の仮説を考察する。
論文 参考訳(メタデータ) (2023-07-17T01:08:39Z) - Exploring Strategies for Generalizable Commonsense Reasoning with
Pre-trained Models [62.28551903638434]
モデルの一般化と精度に及ぼす3つの異なる適応法の影響を計測する。
2つのモデルを用いた実験では、微調整はタスクの内容と構造の両方を学習することで最もうまく機能するが、過度に適合し、新しい答えへの限定的な一般化に苦しむ。
我々は、プレフィックスチューニングのような代替適応手法が同等の精度を持つのを観察するが、解を見落とさずに一般化し、対数分割に対してより堅牢である。
論文 参考訳(メタデータ) (2021-09-07T03:13:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。