論文の概要: GRAIN: Group Aggregation via Min-Norm Objective
- arxiv url: http://arxiv.org/abs/2606.22917v1
- Date: Mon, 22 Jun 2026 06:57:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-25 03:37:32.899856
- Title: GRAIN: Group Aggregation via Min-Norm Objective
- Title(参考訳): GRAIN: Min-Norm Objectiveによるグループ集約
- Authors: Nghia Bui, Jiarui Yao, Lijing Wang,
- Abstract要約: textbfGRAINは、ミニバッチ最適化で使用される平均アグリゲーションを置き換える軽量なトレーニングアルゴリズムである。
mNameは、幅広いタスクスイートに対して平均的なパフォーマンスと実行時の分散を一貫した改善を提供します。
- 参考スコア(独自算出の注目度): 3.5791448764997487
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning instability is a long-standing problem across machine learning, but it is especially acute in the overparameterized regime that defines modern deep learning: large models fine-tuned or trained on limited data traverse flat loss landscapes with many nearly-equivalent minima, and stochastic factors (initialization, data order, dropout, hardware non-determinism) can route optimization to very different solutions. The rise of large pretrained models (LPMs) makes the problem more urgent: training cost is high, downstream data is often small, and repeated runs for variance reduction are prohibitive. We introduce \textbf{GRAIN} (\textbf{G}roup \textbf{A}ggregation via m\textbf{IN}-norm objective), a lightweight training algorithm that replaces the mean aggregation used in mini-batch optimization (both across mini-batches and within a mini-batch) with a min-norm convex combination of group-wise gradients. \mName guarantees a non-negative inner product between the aggregated update and every group gradient, resolving intra- and inner-batch gradient conflict, and retains an $\mathcal{O}(1/T)$ convergence rate comparable to SGD. Under mild smoothness and absolute-continuity assumptions, the min-norm solution differs almost surely from the arithmetic mean, which yields a uniform-stability bound for \mName strictly tighter than the standard bound for SGD. Empirically across generation, classification, and regression at LPM scale, \mName delivers consistent improvements in mean performance and reductions in run-to-run variance over a broad suite of tasks, with no extra training-time or storage cost beyond a single backward pass.
- Abstract(参考訳): 学習不安定性(Learning Instability)は、機械学習における長年の問題だが、現代のディープラーニングを定義する過度にパラメータ化された体制では特に急激である。多くのほぼ等価なミニマを持つ、限られたデータトラバースフラットロスランドスケープ(初期化、データ順序、ドロップアウト、ハードウェア非決定性)で微調整または訓練された大きなモデルは、最適化を非常に異なるソリューションにルーティングすることができる。
大規模な事前訓練モデル(LPM)の台頭は、トレーニングコストが高く、下流のデータはしばしば小さく、分散低減のための繰り返し実行は禁じられている、という問題をより緊急に解決する。
我々は、ミニバッチ最適化(ミニバッチとミニバッチの両方)で使用される平均アグリゲーションを、グループワイド勾配のミンノーム凸の組み合わせで置き換える軽量なトレーニングアルゴリズムである、m\textbf{G}roup \textbf{A}ggregation(m\textbf{IN}-norm objective)を導入する。
\mNameは、集約された更新とすべての群勾配の間の非負の内積を保証し、内部および内部バッチ勾配の競合を解消し、SGDに匹敵する$\mathcal{O}(1/T)$収束率を保持する。
軽度な滑らかさと絶対連続性の仮定の下では、min-norm解は算術平均とほぼ確実に異なる。
LPMスケールで生成、分類、レグレッションを経験的に見てみると、ShamNameは、単一の後方パスを超える追加のトレーニング時間やストレージコストなしで、幅広いタスクに対して平均的なパフォーマンスと実行時の分散を一貫して改善する。
関連論文リスト
- SILAGE: Memory-Efficient, Full-Gradient-Free Nonconvex Optimization for Nested Finite Sums [51.49970814177172]
データセットに対する経験的リスクは、自然に$N=nm$全サンプルに類似性を示す。
我々は悲観的な収束分析を避ける分析を提供する。
我々の成果は、既存の最先端の体制を改善した。
論文 参考訳(メタデータ) (2026-06-14T14:11:07Z) - Gated Differentiable Working Memory for Long-Context Language Modeling [80.27483324685434]
本稿では,Gdwm(Gated Differentiable Working Memory)を提案する。
ZeroSCROLLS と LongBench v2 の実験では、Gdwm は均一なベースラインよりも 4$times$ の勾配ステップで同等または優れたパフォーマンスを達成している。
論文 参考訳(メタデータ) (2026-01-19T10:00:33Z) - Decentralized Nonconvex Composite Federated Learning with Gradient Tracking and Momentum [78.27945336558987]
分散サーバ(DFL)はクライアント・クライアント・アーキテクチャへの依存をなくす。
非滑らかな正規化はしばしば機械学習タスクに組み込まれる。
本稿では,これらの問題を解決する新しいDNCFLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-04-17T08:32:25Z) - Generalization error of min-norm interpolators in transfer learning [2.7309692684728617]
最小ノルム補間器は、現代の機械学習アルゴリズムの暗黙の正規化限界として自然に現れる。
多くのアプリケーションでは、トレーニング中に限られた量のテストデータが利用できるが、この設定におけるmin-normの特性は十分に理解されていない。
我々はこれらの特徴を達成するために、新しい異方性局所法を確立した。
論文 参考訳(メタデータ) (2024-06-20T02:23:28Z) - Convergence of ease-controlled Random Reshuffling gradient Algorithms under Lipschitz smoothness [0.0]
非常に多くのスムーズで可能な非サイズの関数の平均を考慮し、この問題に対処するために2つの広く最小限のフレームワークを使用します。
IG/RRスキームの簡易制御による修正を定義する。
我々は、完全なバッチ勾配(L-BFGS)とIG/RR手法の実装の両方で実装を証明し、アルゴリズムが同様の計算作業を必要とすることを証明した。
論文 参考訳(メタデータ) (2022-12-04T15:26:36Z) - Compound Batch Normalization for Long-tailed Image Classification [77.42829178064807]
本稿では,ガウス混合に基づく複合バッチ正規化法を提案する。
機能空間をより包括的にモデル化し、ヘッドクラスの優位性を減らすことができる。
提案手法は,画像分類における既存の手法よりも優れている。
論文 参考訳(メタデータ) (2022-12-02T07:31:39Z) - Efficient Generalization Improvement Guided by Random Weight
Perturbation [24.027159739234524]
Gruesome-aware Minimization (SAM)は、一般化の改善のための一般的なスキームを確立する。
我々は、SAMのネスト勾配を分離するために、フィルタワイズランダムウェイト摂動(RWP)を利用する。
我々は、CIFAR上での非常に競争力のあるパフォーマンスと、ImageNet上での極めて優れたパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2022-11-21T14:24:34Z) - Faster One-Sample Stochastic Conditional Gradient Method for Composite
Convex Minimization [61.26619639722804]
滑らかで非滑らかな項の和として形成される凸有限サム目標を最小化するための条件勾配法(CGM)を提案する。
提案手法は, 平均勾配 (SAG) 推定器を備え, 1回に1回のサンプルしか必要としないが, より高度な分散低減技術と同等の高速収束速度を保証できる。
論文 参考訳(メタデータ) (2022-02-26T19:10:48Z) - Stochastic Proximal Gradient Algorithm with Minibatches. Application to
Large Scale Learning Models [2.384873896423002]
非滑らかな成分を持つ汎用合成対象関数に対する勾配アルゴリズムのミニバッチ変種を開発し解析する。
我々は、最小バッチサイズ$N$に対して、$mathcalO(frac1Nepsilon)$$epsilon-$subityが最適解に期待される二次距離で達成されるような、定数および変数のステップサイズ反復ポリシーの複雑さを提供する。
論文 参考訳(メタデータ) (2020-03-30T10:43:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。