論文の概要: When Built-in Thinking Helps and Hurts: Constraint-Level Error Shifts in Instruction Following
- arxiv url: http://arxiv.org/abs/2606.09662v1
- Date: Mon, 08 Jun 2026 15:45:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:07.478343
- Title: When Built-in Thinking Helps and Hurts: Constraint-Level Error Shifts in Instruction Following
- Title(参考訳): ビルトイン思考とハート: 制約レベルのエラーシフト
- Authors: Sai Adith Senthil Kumar,
- Abstract要約: 大規模推論モデル (LRM) は数学や符号化性能を向上することが多いが、その影響は明らかではない。
IFEvalをQwen3モデル(1.7B-32B)で検討する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large reasoning models (LRMs) often improve math and coding performance, but their effect on instruction following is unclear. We study IFEval with Qwen3 models (1.7B-32B), using same-weights Thinking ON/OFF controls; four Hunyuan models provide directional cross-family support. Aggregate pass-rate changes are small (-0.55 to -3.52 pp), yet 10-20% of prompts switch between pass and fail across modes, suggesting that thinking changes the pattern of errors--some prompts improve while others worsen--rather than uniformly degrading performance. Under a post-hoc Qwen3-derived grouping, constraint types separate into Planning (global counting, structure, coordination), which improves at the class level under thinking, and Precision (exact local form), which consistently worsens; the class-level Planning/Precision sign pattern holds directionally for all four Hunyuan models despite Hunyuan's opposite aggregate direction. Thinking also changes final-answer length; matched-length analyses substantially reduce the Precision drop, but a residual penalty remains. Analyzing thinking traces with a cross-encoder relevance metric reveals three patterns: Neutral shows a positive relevance-compliance link (r approximately 0.15); Planning shows near-zero predictive correlation (r approximately 0.02) despite measurable trace engagement, consistent with an execution gap between CE-measured trace relevance and final-answer compliance; Precision shows a small negative correlation (r approximately -0.05), with failing instances having higher mean relevance than passing ones. Activation patching across four model sizes (1.7B-14B) shows that Precision flip instances are more often restored than Planning flip instances (32-58% vs. 14-40% mean layer-restoration), with the largest gap at 14B (about 30 pp).
- Abstract(参考訳): 大規模推論モデル (LRM) は数学や符号化性能を向上することが多いが、その影響は明らかではない。
我々は,Qwen3 モデル (1.7B-32B) を用いて IFEval について検討した。
アグリゲートのパスレートの変更は小さい(-0.55から-3.52 pp)が、モード間でパスとフェールを切り替えるプロンプトの10-20%は、思考がエラーのパターンを変えることを示唆している。
ポストホックのQwen3由来のグループ化では、制約型は、思考下のクラスレベルで改善されるプランニング(グローバルカウント、構造、コーディネーション)と、常に悪化する精度(ローカルな形式)に分けられる。
一致した長さの分析は精度の低下を著しく減少させるが、残るペナルティは残る。
クロスエンコーダ関連度測定による思考トレースの分析では,3つのパターンが明らかになった。 ニュートラルは正の関連性対応リンク(r約0.15), 測定可能なトレースエンゲージメントにもかかわらず,ほぼゼロに近い予測相関(r約0.02)を示す。
4つのモデルサイズ(1.7B-14B)にわたるアクティベーションパッチでは、精密フリップインスタンスはプランニングフリップインスタンス(32-58%対平均14-40%)よりも頻繁に復元され、最大のギャップは14B(約30pp)である。
関連論文リスト
- Right Makes Might: Aligning Verified Hidden States Empowers RL Reasoning [55.264863369127774]
現在の方法では、それぞれの正しいロールアウトを単一の報酬ビットに減らし、隠れた状態間で共有される幾何学的構造を無視している。
本稿では,RLトレーニングにおけるアンカートークンにおける正ロールアウトの最終層を,トレーニングと推論の両方においてゼロオーバーヘッドで整列する補助損失関数Hidden-Alignを提案する。
8つの数学的推論ベンチマークでは、Hidden-AlignはDAPOベースラインの平均パス@1をQwen3-1.7B, 4B, 14Bで3.8, 6.2, 5.4ポイント改善し、3つのスケールで一貫したパス@kゲインを得る。
論文 参考訳(メタデータ) (2026-06-02T06:51:15Z) - Persona-Model Collapse in Emergent Misalignment [0.0]
有害な内容を持つ狭いデータに対する微調整された大きな言語モデルは、無関係なプロンプトに対して広範囲に不整合な振る舞いをもたらす。
モラル・サセプティビリティ(S)とモラル・ロバストネス(R)の2つの指標を用いてこの仮説を検証する。
これらのメトリクスは、与えられた文字(S)と、与えられた文字(R)をシミュレートするときにその一貫性を識別するモデルの能力を形式化する。
論文 参考訳(メタデータ) (2026-05-13T00:48:57Z) - Teaching LLMs Program Semantics via Symbolic Execution Traces [0.7046782561282057]
SV-COMP 2025上に構築された500 C 検証タスクの評価フレームワークを提案する。
6家族の14モデルを評価し,総合的精度の高いマスクが致命的な弱点であることを確認した。
わずか$sim$3,000のバグトレースと、推論時の連鎖推論を組み合わせることで、違反検出を17ポイント以上改善する。
論文 参考訳(メタデータ) (2026-05-07T13:01:06Z) - Quantization Undoes Alignment: Bias Emergence in Compressed LLMs Across Models and Precision Levels [0.0]
大規模言語モデルは、クラウドおよびエッジデプロイメントの推論コストとメモリフットプリントを低減するために、トレーニング後の量子化を通じて定期的に圧縮される。
既存の研究は通常、2つの条件のみを比較し、集約バイアスメトリクスに依存し、単一のモデルファミリを評価する。
12,148 BBQ バイアスベンチマーク項目の5つの精度レベル (BF16 - 3-bit) における3つの命令調整モデルの制御実験を行った。
論文 参考訳(メタデータ) (2026-05-02T05:41:47Z) - The Model Says Walk: How Surface Heuristics Override Implicit Constraints in LLM Reasoning [9.898274894485107]
大きな言語モデルは、サージェントサーフェスキューが計算不可能な実行可能性制約と競合する場合に、体系的に失敗する。
診断・診断・ブリッジ・トリート・フレームワークを用いてこれを研究する。
論文 参考訳(メタデータ) (2026-03-30T21:36:09Z) - ACAR: Adaptive Complexity Routing for Multi-Model Ensembles with Auditable Decision Traces [3.151184728006369]
本稿では,聴覚条件下でのマルチモデルオーケストレーションのための測定フレームワークACARを提案する。
ACARは、N=3プローブサンプルから計算した自己整合分散(sigma)を使用して、単一モデル、2モデル、3モデル実行モードでタスクをルーティングする。
我々は4つのベンチマークにまたがる1,510のタスクに対してACARを評価し、7,550以上の監査可能な実行を生成した。
論文 参考訳(メタデータ) (2026-02-06T23:27:17Z) - R-Stitch: Dynamic Trajectory Stitching for Efficient Reasoning [80.104336426172]
CoT(Chain-of- Thought)は、大規模言語モデルの問題解決能力を高める。
CoTは長い自己回帰軌道のためにかなりの推論コストを発生させる。
トレーニング不要なハイブリッドデコーディングフレームワークであるR-Stitchを紹介する。
論文 参考訳(メタデータ) (2025-07-23T08:14:36Z) - What makes Reasoning Models Different? Follow the Reasoning Leader for Efficient Decoding [84.42056293290015]
推論モデルと非推論モデルの間のトークンレベルのミスアライメントを分析する。
本稿では,FoReaL-Decodingを提案する。
一般的な4つの数学推論ベンチマークにおいて、FoReaL-Decodingは理論FLOPを30から50%減らし、CoTの長さを最大40%減らした。
論文 参考訳(メタデータ) (2025-06-08T05:08:32Z) - SEAL: Steerable Reasoning Calibration of Large Language Models for Free [58.931194824519935]
大規模言語モデル(LLM)は、拡張チェーン・オブ・ソート(CoT)推論機構を通じて複雑な推論タスクに魅力的な機能を示した。
最近の研究では、CoT推論トレースにかなりの冗長性が示されており、これはモデル性能に悪影響を及ぼす。
我々は,CoTプロセスをシームレスに校正し,高い効率性を示しながら精度を向上する,トレーニング不要なアプローチであるSEALを紹介した。
論文 参考訳(メタデータ) (2025-04-07T02:42:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。