論文の概要: Small Experiments, Cheaper Decisions: A Case Study in Staged Promotion for Micro-Pretraining
- arxiv url: http://arxiv.org/abs/2606.11387v1
- Date: Tue, 09 Jun 2026 19:10:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-11 16:42:38.154762
- Title: Small Experiments, Cheaper Decisions: A Case Study in Staged Promotion for Micro-Pretraining
- Title(参考訳): 小実験, チーパー決定: マイクロプレトレーニングの段階的促進を事例として
- Authors: Felipe Chavarro Polania,
- Abstract要約: 我々は, Windows A100 と Linux L40S の2つの異種ホストブロック上で, 固定マイクロプレトレーニングランナに対して, 監査可能なステージングプロモーションプロトコルについて検討した。
2分、5分、10分、60分、12時間という段階的な予算を使います。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Short pretraining runs can reduce experimental cost, but they can also over-promote configurations that only look strong at tiny budgets. We study an auditable staged-promotion protocol for a fixed micro-pretraining runner on two heterogeneous host blocks: Windows A100 and Linux L40S. Starting from twelve prior-screened configurations, we use staged budgets of 2 minutes, 5 minutes, 10 minutes, 60 minutes, and 12 hours, with frozen promotion rules before expensive continuations. The early screens are intentionally treated as unstable: the 5- and 10-minute rankings are host-sensitive, and the eventual 12-hour top-ranked condition is not the mean-best condition at the replicated 10-minute gate. Because seed ranges differ across stages, these changes are operational promotion evidence, not within-seed curves. A replicated 60-minute gate keeps the Staged Factorial Screening bridge reference in the promoted set, where it ranks first in all four 60-minute host-seed cells. In the final 12-hour confirmation package, the bridge condition ranks first in all four host-seed cells across two seeds; the greedy comparator does not meet the frozen 0.010 val_bpb near-equivalence rule; and the cheaper d8/ar48 (depth-8, aspect-48) sentinel does not meet the frozen 0.020 mean-gap rule. The executed 12-hour branch spends 144 GPU-hours, and the full staged protocol records 169.2 training GPU-hours including screening stages. Continuing all four 60-minute candidates would spend 192 GPU-hours, while continuing all nine replicated 10-minute candidates would spend 432 GPU-hours. The latter numbers are accounting counterfactuals for unrun continuations, not evidence that skipped candidates could not have overtaken the reference. The result is a bounded cost-allocation finding, not a claim of global optimality, capacity-normalized superiority, or superiority over adaptive hyperparameter optimization methods.
- Abstract(参考訳): 短時間の事前トレーニングは実験コストを削減できるが、小さな予算でしか見えないオーバープロモート構成も可能だ。
我々は, Windows A100 と Linux L40S の2つの異種ホストブロック上で, 固定マイクロプレトレーニングランナに対して, 監査可能なステージングプロモーションプロトコルについて検討した。
12の事前画面構成から始めて、2分、5分、10分、60分、12時間というステージ化された予算を使います。
5分間と10分間のランキングはホストに敏感であり、最終的に12時間のトップランクの条件は複製された10分間のゲートにおける平均ベスト条件ではない。
種の範囲はステージによって異なるため、これらの変化は、種内曲線ではなく、運用上のプロモーションの証拠である。
複製された60分間のゲートは、ステージド・ファクター・スクリーニング・ブリッジの参照をプロモーションセットに保持し、4つの60分間のホストシード・セルで第1位にランク付けする。
最後の12時間確認パッケージにおいて、ブリッジ条件は、2つの種子にまたがる4つの宿主種子細胞で第1位にランクされ、グリーディコンパレータは、凍結した0.010 val_bpb近傍等価規則を満たしず、安価なd8/ar48(depth-8, aspect-48)センチネルは、凍結した0.020平均ギャップ規則を満たしない。
12時間ブランチの実行時間は144GPU時間であり、フルステージプロトコルはスクリーニングステージを含む169.2トレーニングGPU時間を記録している。
続く4つの60分候補は192GPU時間、続く9つの10分候補は432GPU時間である。
後者の数字は、欠席した候補者が参照を乗っ取らなかったという証拠ではない。
その結果は、大域的最適性、キャパシティ正規化優越性、適応的ハイパーパラメータ最適化法よりも優越性の主張ではなく、有界なコスト割当探索である。
関連論文リスト
- When Do LLM Agents Treat Surface Noise Differently from Semantic Noise? A 68-Cell Measurement Study with a Held-Out Trace-Level Validation [9.055086193088083]
10大言語モデルによって駆動されるチェーン・オブ・シンクとReActエージェントに経験的現象を記述した。
平均的な摂動は、同等の厳しさのプレゼンテーション摂動よりも、最終的な答えを頻繁に変更する。
論文 参考訳(メタデータ) (2026-05-25T15:57:11Z) - Evaluating Large Language Models as Live Strategic Agents: Provider Performance, Hybrid Decomposition, and Operational Gaps in Timed Risk Play [0.0]
我々は,大規模言語モデルが明確な勝利目標と繰り返し計画と実行サイクルで実際にどのように振る舞うかを研究する。
その結果、ライブエージェントのパフォーマンスは、客観的なランタイムトラッキング、実行コンバージョン、コスト、信頼性に依存していることがわかった。
論文 参考訳(メタデータ) (2026-05-21T09:41:16Z) - ZenBrain: A Neuroscience-Inspired 7-Layer Memory Architecture for Autonomous AI Systems [51.56484100374058]
LongMemEval-500では、ZenBrainは長いコンテキストのオラクルのバイナリ・ジャッジの精度を4.5pp以内と一致させる。
ZenBrainは7層の神経科学にインスパイアされたメモリアーキテクチャである。
論文 参考訳(メタデータ) (2026-04-26T20:39:19Z) - Prompt Optimization Is a Coin Flip: Diagnosing When It Helps in Compound AI Systems [9.989306175511238]
複合AIシステムにおける迅速な最適化は、コインフリップと統計的に区別できないことを示す。
18,000のグリッド評価と144の最適化を実行し、エンドツーエンドの最適化ツールの背後にある2つの仮定をテストする。
エージェントカップリングのための80ドルのANOVAプリテストと10分間のヘッドルームテストである。
論文 参考訳(メタデータ) (2026-04-16T03:23:46Z) - Preservation Is Not Enough for Width Growth: Regime-Sensitive Selection of Dense LM Warm Starts [0.0]
フルトレーニング状態に対する候補選択問題として, 密度幅の増大について検討した。
我々は、一致した継続予算の下で、正確なコピー、摂動、非対称リセット、構造化された非クローンウォームとを比較した。
この規模で密な幅成長を行うためには、保存は普遍的なランキング基準ではなく、最良の代替信号はレギュラーとラグの予算に依存する。
論文 参考訳(メタデータ) (2026-04-05T21:47:41Z) - Nearly Minimax Optimal Regret for Learning Linear Mixture Stochastic
Shortest Path [80.60592344361073]
線形混合遷移カーネルを用いた最短経路(SSP)問題について検討する。
エージェントは繰り返し環境と対話し、累積コストを最小化しながら特定の目標状態に到達する。
既存の作業は、イテレーションコスト関数の厳密な下限や、最適ポリシーに対する期待長の上限を仮定することが多い。
論文 参考訳(メタデータ) (2024-02-14T07:52:00Z) - A Quadratic Synchronization Rule for Distributed Deep Learning [66.68264684667562]
本研究は、擬似同期規則(QSR)と呼ばれる$H$を決定するための理論基底法を提案する。
ResNet と ViT の実験により、QSR を用いた局所勾配法は、他の同期戦略よりもテスト精度を一貫して向上することが示された。
論文 参考訳(メタデータ) (2023-10-22T21:38:57Z) - DISTFLASHATTN: Distributed Memory-efficient Attention for Long-context LLMs Training [82.06732962485754]
FlashAttentionは、1つのGPU上でのトレーニングトランスフォーマーベースの大規模言語モデル(LLM)において、2次ピークメモリの使用を線形に削減する。
本研究では,長期LLM学習に最適化されたメモリ効率の高い注意機構であるDisTFLASHATTNを紹介する。
最近のRing AttentionやDeepSpeed-Ulyssesと比較して、1.67xと1.26 - 1.88xのスピードアップを実現している。
論文 参考訳(メタデータ) (2023-10-05T03:47:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。