論文の概要: VibeThinker-3B: Exploring the Frontier of Verifiable Reasoning in Small Language Models
- arxiv url: http://arxiv.org/abs/2606.16140v1
- Date: Mon, 15 Jun 2026 02:57:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-16 16:21:34.045238
- Title: VibeThinker-3B: Exploring the Frontier of Verifiable Reasoning in Small Language Models
- Title(参考訳): VibeThinker-3B:小言語モデルにおける検証可能な推論のフロンティアを探る
- Authors: Sen Xu, Shixi Liu, Wei Wang, Jixin Min, Yingwei Dai, Zhibin Yin, Yirong Chen, Xin Zhou, Junlin Zhang,
- Abstract要約: 本稿では、3Bパラメータを持つコンパクトな密度モデルVibeThinker-3Bについて紹介する。
VibeThinker-3Bは高要求の検証タスクにおいてフロンティアレベルの性能を実現する。
- 参考スコア(独自算出の注目度): 10.513021831152363
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: This technical report introduces VibeThinker-3B, a compact dense model with 3B parameters developed to investigate how far verifiable reasoning can be pushed within a strictly small-model regime. Building upon the Spectrum-to-Signal post-training paradigm, we systematically enhance the model through an optimized pipeline that includes curriculum-based supervised fine-tuning, multi-domain reinforcement learning, and offline self-distillation. Experimental evaluations demonstrate that VibeThinker-3B achieves frontier-level performance on highly demanding verifiable tasks. Specifically, it attains a score of 94.3 on AIME26 (improving to 97.1 with claim-level test-time scaling), an 80.2 Pass@1 on LiveCodeBench v6, and exhibits strong out-of-distribution generalization with a 96.1\% acceptance rate on recent unseen LeetCode contests. This effectively places it in the performance band of first-tier reasoning systems, matching or exceeding flagship models that are orders of magnitude larger, such as DeepSeek V3.2, GLM-5, and Gemini 3 Pro. Furthermore, a score of 93.4 on IFEval confirms that this extreme reasoning enhancement does not compromise strict instruction controllability. Extending our previous 1.5B work, these findings motivate the Parametric Compression-Coverage Hypothesis, which views verifiable reasoning as compressible into compact reasoning cores, while open-domain knowledge and general-purpose competence require broad parameter coverage over facts, concepts, and long-tail scenarios. This perspective suggests that compact models are not merely deployment-efficient substitutes, but a complementary path toward frontier-level performance in parameter-dense capability regimes.
- Abstract(参考訳): この技術報告では、3Bパラメータを持つコンパクトな高密度モデルであるVibeThinker-3Bを紹介し、厳密な小モデル体制内での検証可能な推論がどこまで進められるかを調べる。
本研究では,Spectrum-to-Signalポストトレーニングパラダイムに基づいて,カリキュラムベースの教師付き微調整,マルチドメイン強化学習,オフライン自己蒸留を含む最適化パイプラインを通じて,モデルを体系的に強化する。
VibeThinker-3Bは高要求の検証タスクにおいてフロンティアレベルの性能を実現する。
具体的には、AIME26で94.3(クレームレベルのテストタイムスケーリングで97.1に改善)、LiveCodeBench v6で80.2 Pass@1を獲得し、最近のLeetCodeコンテストで96.1\%の受け入れ率で、配布外一般化を強く示す。
これは、DeepSeek V3.2、GLM-5、Gemini 3 Proなど、桁違いの大きさのフラッグシップモデルと一致するか、または超えるような、第1層の推論システムのパフォーマンスバンドに効果的に配置する。
さらに、IFEvalの93.4のスコアは、この極端な推論の強化が厳格な命令制御性を損なわないことを確認している。
これは、検証可能な推論をコンパクトな推論コアに圧縮可能であるとみなし、オープンドメインの知識と汎用能力は事実、概念、ロングテールのシナリオに対して幅広いパラメータカバレッジを必要とする。
この観点からは、コンパクトモデルは単なる配置効率の代替品ではなく、パラメータ密度の能力体系におけるフロンティアレベルのパフォーマンスへの相補的な経路であることを示唆している。
関連論文リスト
- Teaching Thinking Models to Reason with Tools: A Full-Pipeline Recipe for Tool-Integrated Reasoning [59.74608632210439]
そこで本研究では,ツール使用の自然な動作を,ツールなし推論能力を犠牲にすることなく,強力な思考モデルに注入する方法を示す。
提案手法は,オープンソースモデル間のベンチマークにおいて,最先端のパフォーマンスを実現するモデルを生成する。
論文 参考訳(メタデータ) (2026-05-07T14:23:21Z) - LongCat-Flash-Prover: Advancing Native Formal Reasoning via Agentic Tool-Integrated Reinforcement Learning [46.294745464571456]
LongCat-Flash-Proverはエージェントツール統合推論のためのオープンソースのMoEモデルである。
これは、自己形式化と定理証明の両方において、オープンウェイトモデルのための新しい最先端状態を設定する。
MiniF2F-Testのパスレートは97.1%で、72の推論予算しか使用していない。
論文 参考訳(メタデータ) (2026-03-22T05:16:09Z) - Brevity Constraints Reverse Performance Hierarchies in Language Models [0.0]
ベンチマーク問題の7.7%では、より大きな言語モデルは10-100倍のパラメータにもかかわらず、より小さな言語モデルよりも28.4ポイント低い。
我々は,このメカニズムを,過度な作業を通じてエラーを発生させる自発的なスケール依存的冗長性として認識する。
この結果から,大規模モデルの性能を最大化するには,スケールアウェア・プロンプト・エンジニアリングが必要であることが判明した。
論文 参考訳(メタデータ) (2026-03-11T06:47:41Z) - How Small Can 6G Reason? Scaling Tiny Language Models for AI-Native Networks [3.099103925863002]
AIネイティブな6Gシステムにおけるネットワークレベルの意味推論のためのコンパクト言語モデルのスケーリング挙動と展開効率について検討する。
我々は,Llama-3.2-1B,Granite-1B,Qwen2.5-3Bなどの中規模アーキテクチャを含む135M(SmolLM2-135M)から7Bパラメータ(Qwen2.5-7B)までのモデルを評価する。
論文 参考訳(メタデータ) (2026-03-02T18:19:49Z) - Evaluating and Enhancing the Vulnerability Reasoning Capabilities of Large Language Models [15.849480549367684]
本稿では,DAG生成タスクとして脆弱性推論をモデル化する新しいフレームワークであるDAGVulを提案する。
さらにReinforcement Learning with Verifiable Rewards (RLVR)を導入することで、モデル推論トレースをプログラム固有の論理と整合させる。
我々のフレームワークは、すべてのベースラインに対して平均18.9%の推論F1スコアを改善します。
論文 参考訳(メタデータ) (2026-02-06T13:19:45Z) - AgentCPM-Explore: Realizing Long-Horizon Deep Exploration for Edge-Scale Agents [75.67445299298949]
AgentCPM-Exploreは、知識密度と強力な探索能力を備えたコンパクトな4Bエージェントモデルである。
本稿では,パラメータ空間モデルの融合,報酬信号の復調,文脈情報の改良を特徴とする総合的なトレーニングフレームワークを提案する。
AgentCPM-Exploreは4つのベンチマークで8BクラスのSOTAモデルにマッチまたは超え、また5つのベンチマークでClaude-4.5-SonnetやDeepSeek-v3.2のような大規模モデルよりも優れている。
論文 参考訳(メタデータ) (2026-02-06T08:24:59Z) - ReasoningBomb: A Stealthy Denial-of-Service Attack by Inducing Pathologically Long Reasoning in Large Reasoning Models [67.15960154375131]
大規模推論モデル(LRM)は、多段階推論トレースを明示した大規模言語モデルを拡張する。
この能力は、推論の高い計算コストを生かした、新しいタイプのプロンプト誘発推論時間拒否攻撃(PI-DoS)を導入している。
本稿では,強化学習に基づくPI-DoSフレームワークであるReasoningBombについて紹介する。
論文 参考訳(メタデータ) (2026-01-29T18:53:01Z) - Scaling Trends for Multi-Hop Contextual Reasoning in Mid-Scale Language Models [0.0]
大規模言語モデルにおけるマルチホップ文脈推論の制御に関する研究について述べる。
マルチエージェントシステムは逆パターンを示し、ルールベースのメソッドが失敗する推論タスクを最大80%達成する。
論文 参考訳(メタデータ) (2026-01-06T20:18:55Z) - Reasoning Models Are More Easily Gaslighted Than You Think [85.84943447589511]
我々はOpenAIのo4-mini、Claude-3.7-Sonnet、Gemini-2.5-Flashの3つの最先端推論モデルを評価する。
ガス灯消火プロンプトによる精度低下が認められた。
GaslightingBench-Rは、推論モデルの認識可能性を評価するために設計された新しい診断ベンチマークである。
論文 参考訳(メタデータ) (2025-06-11T12:52:25Z) - Benchmarking Reasoning Robustness in Large Language Models [76.79744000300363]
新規データや不完全データでは,性能が著しく低下することがわかった。
これらの結果は、厳密な論理的推論に対するリコールへの依存を浮き彫りにした。
本稿では,情報不足によって引き起こされる幻覚を利用して推論ギャップを明らかにする,Math-RoBと呼ばれる新しいベンチマークを提案する。
論文 参考訳(メタデータ) (2025-03-06T15:36:06Z) - Advancing LLM Reasoning Generalists with Preference Trees [119.57169648859707]
推論に最適化された大規模言語モデル(LLM)のスイートであるEulusを紹介する。
Eurusモデルは、様々なベンチマークでオープンソースのモデルの間で最先端の結果を得る。
論文 参考訳(メタデータ) (2024-04-02T16:25:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。