論文の概要: A Verifiable Search Is Not a Learnable Chain-of-Thought
- arxiv url: http://arxiv.org/abs/2606.21884v1
- Date: Sat, 20 Jun 2026 04:52:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-26 02:26:46.438871
- Title: A Verifiable Search Is Not a Learnable Chain-of-Thought
- Title(参考訳): 検証可能な検索は学習可能なチェーンではない
- Authors: Harsh Patel,
- Abstract要約: 短いプログラムで解けるタスクは、そのチェーン・オブ・ソートとしてモデルに教えられると仮定する傾向にある。
本稿では,特定可能な手続きのクラスに対して仮定が失敗することを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: It is tempting to assume any task solvable by a short program can be taught to a model as its chain-of-thought: write the steps out, fine-tune, and the model follows. This paper shows the assumption fails for an identifiable class of procedures. The testbed is nine reasoning tasks, each from a deterministic generator; public and hidden splits share generators, so held-out data proxies test accuracy. I reverse-engineer the generators into Python solvers, render them as chain-of-thought, and distill into a rank-<= 32 LoRA over a 30B (3.5B-active) Nemotron model. Forward-computable tasks install readily: lookup/arithmetic and an 8-bit boolean task transfer (>= 0.99 and 0.68). Cryptarithm does not: distilling its backtracking search holds at 0.01-0.07 across eleven chain-of-thought designs, RL from verifiable rewards, and self-training, even though a search solver answers 71% of instances. This is not a capability gap. The model does the arithmetic on 97-100% of lines and ranks the correct cipher in its top eight on 71%; it cannot carry the search forward as a left-to-right derivation. Fine-tuning learns the shape of a verifiable elimination step while its verdicts become unconditional templates, correct only 16-57% of the time ("verdict-as-token"). The ceiling holds across backbones from 3B to 671B and across fine-tuning and prompting; a controlled intervention isolates the cause: revealing the cipher key, which turns the derivation forward, lifts the same instances from 0.03 to 0.57. When a procedure's only solution is search over information-free structure, no faithful forward chain-of-thought exists to imitate. The task becomes learnable only by removing the search, precomputing its combinatorial core into a catalog and reducing the trace to recall plus verification; the 1st-place solution reaches Private LB 0.92 this way. What distills is memorization and verification, not search.
- Abstract(参考訳): 短いプログラムで解決可能なタスクは、そのチェーンとしてモデルに教えられると仮定する傾向があります。
本稿では,特定可能な手続きのクラスに対して仮定が失敗することを示す。
テストベッドは9つの推論タスクであり、それぞれが決定論的ジェネレータからである。
私はジェネレータをPythonソルバにリバースエンジニアリングし、それらをチェーンオブシントとしてレンダリングし、30B (3.5B-active) Nemotronモデル上でランク-<= 32 LoRAに蒸留します。
lookup/arithmetic と 8ビットのboolean タスク転送 (>= 0.99 と 0.68)。
Cryptarithmは、11のチェーン・オブ・プリート・デザインに対して0.01-0.07のバックトラック・サーチホールドを蒸留し、検証可能な報酬からRLを抽出し、自己学習する。
これは能力のギャップではありません。
このモデルは97-100%の行で算術を行い、上位8行の正しい暗号を71%にランク付けする。
微調整は、検証可能な除去ステップの形状を学習し、その検証は無条件テンプレートとなり、時間のうち16~57%しか修正されない("verdict-as-token")。
天井は3Bから671Bまでの背骨と微調整と刺激によって保持され、制御された介入によって原因が分離される: 導出を前方に向ける暗号鍵を明らかにすると、同じインスタンスを0.03から0.57に持ち上げる。
プロシージャの唯一の解決策が情報のない構造を探索する場合、模倣する忠実なフォワードチェーンは存在しない。
このタスクは、検索を削除し、組合せコアをカタログにプリ計算し、リコールと検証のトレースを減らすことでのみ学習可能となり、第1位のソリューションは、この方法でPrivate LB 0.92に達する。
蒸留は記憶と検証であり、検索ではない。
関連論文リスト
- When Agents Commit Too Soon: Diagnosing Premature Commitment in LLM Agents [0.0]
長い答えのLSMエージェントは静かに失敗する可能性があり、彼らは証拠を早期に読み上げ、残りの期間をその証拠を守るのに費やした。
我々は、表現的コミットメントを、固定された推論ステップにおいて、クロスランな隠れ状態収束として定義する。
ランタイムモニタは、AUROCの隠れ状態から0.97までの不整合軌道を検出する(より厳密なスプリットの下で0.85-0.88)。
論文 参考訳(メタデータ) (2026-06-22T07:13:13Z) - Automated Proving of Shannon-Type Entropy Inequalities via Fine-Tuned Language Models and Guided Tree Search [50.16356451328644]
シャノン型エントロピーの不等式を証明することは情報理論の基本的な課題である。
我々は,原子実証のステップを微調整した小規模大規模言語モデルがこのプロセスを自動化することができるか検討する。
GPT-5.5は0ショットプロンプトで1.7%のサンプルを解き、Psitipは33.3%のサンプルを解いた。
論文 参考訳(メタデータ) (2026-06-04T05:43:12Z) - Right Makes Might: Aligning Verified Hidden States Empowers RL Reasoning [55.264863369127774]
現在の方法では、それぞれの正しいロールアウトを単一の報酬ビットに減らし、隠れた状態間で共有される幾何学的構造を無視している。
本稿では,RLトレーニングにおけるアンカートークンにおける正ロールアウトの最終層を,トレーニングと推論の両方においてゼロオーバーヘッドで整列する補助損失関数Hidden-Alignを提案する。
8つの数学的推論ベンチマークでは、Hidden-AlignはDAPOベースラインの平均パス@1をQwen3-1.7B, 4B, 14Bで3.8, 6.2, 5.4ポイント改善し、3つのスケールで一貫したパス@kゲインを得る。
論文 参考訳(メタデータ) (2026-06-02T06:51:15Z) - Self-Verified Distillation: Your Language Model Is Secretly Its Own Synthetic Data Pipeline [56.53954182896384]
大規模言語モデルのための簡単な訓練後改良アルゴリズムである自己検証蒸留を提案する。
自己検証蒸留(Self-Verified Distillation)は、未ラベルの種問に対する候補解を生成する。
プロンプトベースの自己検証を使用してフィルタリングし、結果の自己計算データセットをトレーニングする。
トレーニングデータ構築中に、より多くの候補世代をサンプリングし、より大きな検証予算を使用することで、高品質な自己計算データが得られることがわかった。
論文 参考訳(メタデータ) (2026-05-20T17:26:10Z) - Distributional Energy-Based Models for Uncertainty-Aware Structured LLM Reasoning [40.342912574072024]
大規模言語モデルは、旅行計画やコードソリューションのような構造化されたアウトプットを生成する。
個々の推論ステップは正しく見えるが、アウトプット全体が予算に違反したり、テストケースに失敗したり、あるいは以前の推論に矛盾することがある。
構造化LCM出力の検証のための決定論的解析制約付き学習品質スコアラを提案する。
論文 参考訳(メタデータ) (2026-05-15T17:08:27Z) - LaTER: Efficient Test-Time Reasoning via Latent Exploration and Explicit Verification [35.08680804423239]
CoT(Chain-of- Thought)推論は、難しいタスクにおいて大きな言語モデル(LLM)を改善するが、推論コストも高くつく。
本稿では,連続潜伏空間における有界探索を最初に行う2段階のパラダイムであるLaTERを提案する。
LaTERは入力の埋め込み空間に隠された最後の層を投影し、潜伏KVキャッシュを保持し、エントロピーとモデルネイティブのストップトーケンプローブを使用していつ切り替えるかを決定する。
論文 参考訳(メタデータ) (2026-05-08T06:23:58Z) - Rethinking Dense Sequential Chains: Reasoning Language Models Can Extract Answers from Sparse, Order-Shuffling Chain-of-Thoughts [51.84894623128418]
現代の推論言語モデルは、すべてのトークンが寄与し、ステップを順番に消費しなければならないと暗黙的に仮定して、シーケンシャルな連鎖トレースを生成する。
我々は、モデル生成推論連鎖に適用した、系統的な介入パイプライン、除去、マスキング、シャッフル、ノイズ注入により、両方の仮定に挑戦する。
解答抽出は, スパース, 秩序不感, 構造的に堅牢な情報基板上で行う。
論文 参考訳(メタデータ) (2026-05-08T06:15:50Z) - Epistemic Observability in Language Models [0.0]
製造時に高い信頼性を報告できるモデルがあることがわかりました。
正式な仮定では、これは能力ギャップではなく観察的なギャップである。
我々は,計算副産物を輸出することで不合理性から逃れるテンソルインタフェースを構築した。
論文 参考訳(メタデータ) (2026-03-20T21:59:34Z) - LaSeR: Reinforcement Learning with Last-Token Self-Rewarding [54.72617309922891]
RLVR(Reinforcement Learning with Verifiable Rewards)は、Large Language Models(LLM)の推論能力を高めるためのコアパラダイムとして登場した。
従来、LLMは2つの異なるプロンプトテンプレートを使用してソリューションと自己検証をシーケンシャルに生成し、効率を大幅に低下させる必要があった。
本稿では,従来のRLVR損失をMSE損失で増大させるアルゴリズムであるLaSeR(Reinforcement Learning with Last-Token Self-Rewarding)を提案する。
論文 参考訳(メタデータ) (2025-10-16T17:55:11Z) - Valid Stopping for LLM Generation via Empirical Dynamic Formal Lift [6.908972852063454]
シーケンシャルEDFLは、シーケンシャルベースラインに対して22~28%生成を減少させる。
EDFLは第1段階のフィルタとして機能し、検証負荷を83%削減する。
論文 参考訳(メタデータ) (2025-10-07T21:28:53Z) - Probing for Arithmetic Errors in Language Models [86.8227317662622]
言語モデルの内部アクティベーションは、算術誤差を検出するために使用できる。
単純なプローブはモデルが予測した出力と正解の両方を隠蔽状態から正確に復号できることを示す。
モデル精度を90%以上の精度で予測する軽量エラー検出器を訓練する。
論文 参考訳(メタデータ) (2025-07-16T16:27:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。