論文の概要: Teacher-Free Self-Training Amplifies but Does Not Compound: A Pass@$K$ Crossover on a Free-Verifier Domain
- arxiv url: http://arxiv.org/abs/2606.07856v1
- Date: Fri, 05 Jun 2026 21:37:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:05.488927
- Title: Teacher-Free Self-Training Amplifies but Does Not Compound: A Pass@$K$ Crossover on a Free-Verifier Domain
- Title(参考訳): 教師なしの自己学習が増幅するが、複雑ではない: 無料検証ドメイン上のパス@$K$クロスオーバー
- Authors: Igor Lima Strozzi,
- Abstract要約: 教師なしの「コンステレーション」でその疑問を解き明かす
すべてが4ビットのQwen3-4Bと24GBのGPUで動いています。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: When a language model trains on its own verified outputs, does it acquire capability beyond its base, or merely get better at expressing capability the base already had? We make the question decidable with a teacher-free "constellation" -- a generator, a learned critic, and a free exact verifier -- on a FlashFill-style "trapdoor" DSL, where verified (problem, solution) pairs are cheap to synthesize, hard to invert, and free to check exactly. Everything runs on one 4-bit Qwen3-4B on a single 24 GB GPU, with no model in the loop larger than the base. We report three findings. (i) Critic-guided selection beats verifier-filtered best-of-$k$ by $+9.1$ pp ($6/6$ seeds), with the entire gain localized to tasks where candidates disagree on held-out inputs. (ii) Per-round STaR self-training raises the ceiling but never accelerates -- the gain tracks remaining headroom and decelerates across $K=4$ independent training trajectories. (iii) The domain has no clean zero-capability frontier, so the usual "$0\% \to$ climb $=$ emergence" test is invalid here. A measured pass@$K$ crossover settles the diagnosis: the trained model wins at the operating budget (pass@$8$) but the base overtakes it at a large budget (pass@$64$) on every trajectory, so self-training concentrates probability mass rather than expanding reach. This is amplification, not compounding. ($K=4$ is indicative, not yet a robust across-trajectory CI.)
- Abstract(参考訳): 言語モデルが独自の検証されたアウトプットでトレーニングする場合、ベースを越えた能力を獲得できるのか、あるいは単に、ベースがすでに持っている能力を表現する能力が向上するだけなのか?
私たちは、FlashFillスタイルの"trapdoor" DSL上で、教師なしの"constellation" -- ジェネレータ、学習した批評家、そして無料の正確な検証 -- で、その質問を決定可能にします。
すべては24GBのGPUで1つの4ビットのQwen3-4Bで動作します。
我々は3つの発見を報告した。
(i)批判誘導選択は、検証対象のベスト・オブ・k$を$+9.1$ pp$6/6$のシードで破る。
(ii)STaR単位の自己訓練は天井を上昇させるが、加速はしない -- ゲイントラックはヘッドルームに残り、K=4$の独立した訓練軌道をまたいで減速する。
(iii)ドメインにはクリーンなゼロ機能フロンティアがないため、通常の"$0\% \to$ climb $=$ emerge"テストはここでは無効である。
トレーニングされたモデルは運用予算(pass@8$)で勝利するが、ベースはすべての軌道で大きな予算(pass@64$)で勝利する。
これは増幅であり、合成ではない。
(K=4$は形容詞であり、まだ堅牢なクロス軌道CIではない。)
関連論文リスト
- The Ringelmann Effect in Multi-Agent LLM Systems: A Scaling Law for Effective Team Size [5.51170856062205]
我々は,高密度ピアの影響がサブリニアからハードサイリングへと解答レベル体制を崩壊させることを示した。
30の高密度な議論剤はMMLU-Hardのそれ以上の答えの多様性をもたらす。
自由形式数学において、高密度なピアの影響は、解準線形からハードシーリングへの解準位体制を崩壊させる。
論文 参考訳(メタデータ) (2026-05-31T16:19:54Z) - From Patches to Trajectories: Privileged Process Supervision for Software-Engineering Agents [56.31499185764872]
教師の長い軌道上の監督された微調整(SFT)は、オープンソフトウェアエンジニアリング(SWE)エージェントに調査と推論を浸透させる主要な方法である。
本稿では,P2T (Patches-to-Trajectories) を提案する。P2T (Patches-to-Trajectories) は,P2T (Patches-to-Trajectories) において,P2T (Patches-to-Trajectories) とP2T (Patches-to-Trajectories) の2つの最適化法である。
論文 参考訳(メタデータ) (2026-05-21T04:54:55Z) - What Do EEG Foundation Models Capture from Human Brain Signals? [64.48249643001402]
現代の脳波基礎モデルは、自己教師付き事前訓練を通じて生信号から直接学習する。
我々は3つのサブクエストに分解する: モデルが何を学習するか、モデルを何に使用するのか、そしてどのように説明できるのか。
3つの基礎モデル(CSBrain, CBraMod, LaBraM),5つの臨床タスク(MDD, Stress, ISRUC-Sleep, TUSL, Siena)と6ファミリー63機能レキシコンを含む。
論文 参考訳(メタデータ) (2026-05-12T01:57:53Z) - Logical GANs: Adversarial Learning through Ehrenfeucht Fraisse Games [0.0]
GANは区別不能を約束する、とロジックは説明する。
textbfLOGAN (LOGical GANs)は、識別器をdeep-k$Ehrenfeucht--Fra"iss'e (EF) emphOpponentとしてキャストする
EFプローブシミュレータとMSOスタイルのグラフチェッカーである最小限のツールキットと、PyTorchによる実際の神経GANトレーニングを含む4つの実験を出荷しています。
論文 参考訳(メタデータ) (2025-10-26T20:34:00Z) - A$^2$Search: Ambiguity-Aware Question Answering with Reinforcement Learning [46.81869577197105]
A$2$Searchはアノテーションのないエンドツーエンドのトレーニングフレームワークで、曖昧さを認識し、扱います。
8つのオープンドメインQAベンチマークの実験では、A$2$Searchが新しい最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-10-09T08:53:31Z) - Co-rewarding: Stable Self-supervised RL for Eliciting Reasoning in Large Language Models [56.055015597319674]
検証可能な報酬(RLVR)を用いた強化学習は,大規模言語モデル(LLM)の推論能力の向上に有効である
近年の自己回帰法は LLM の推論能力を解き放つためのラベルフリーな代替手段について検討している。
我々は、他の視点から補完的な監督を求めることにより、トレーニングの安定性を向上させる新しい自己監督型RLフレームワークであるtextitCo-rewardingを提案する。
論文 参考訳(メタデータ) (2025-08-01T08:09:14Z) - IT$^3$: Idempotent Test-Time Training [95.78053599609044]
ディープラーニングモデルは、トレーニングデータとテストデータの間の分散シフトのために、現実世界の環境にデプロイする際に苦労することが多い。
Idempotent Test-Time Training (IT$3$) は、現在のテストインスタンスのみを使用して、分散シフトへのオンザフライ適応を可能にする新しいアプローチである。
この結果から,イデオポテンスはドメインやアーキテクチャをまたいで一般化するテスト時間適応の普遍的原理を提供すると考えられる。
論文 参考訳(メタデータ) (2024-10-05T15:39:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。