論文の概要: Minibatch Selection via Partition Matroid Constrained Gradient Matching
- arxiv url: http://arxiv.org/abs/2606.07954v1
- Date: Sat, 06 Jun 2026 03:16:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:05.581784
- Title: Minibatch Selection via Partition Matroid Constrained Gradient Matching
- Title(参考訳): 分割マトロイド制約勾配マッチングによるミニバッチ選択
- Authors: Prayas Agrawal, Prateek Chanda, Ishita Khatri, Ganesh Ramakrishnan, Bamdev Mishra, Pratik Jawanpuria,
- Abstract要約: ヘテロジニアスデータ上での大規模言語モデル(LLM)のトレーニングには、収束速度とドメイン間のカバレッジのバランスをとるミニバッチを選択する必要がある。
分割行列制約として符号化されたドメイン単位の予算の下で、検証誘導勾配マッチングユーティリティを最大化するクロスドメインミニバッチ選択手法であるPartitionSelを提案する。
- 参考スコア(独自算出の注目度): 19.541112219411556
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Training large language models (LLMs) on heterogeneous data requires selecting minibatches that balance convergence speed with coverage across domains. Existing methods either select samples independently within each domain or rely on computationally expensive proxy models to learn continuous domain weights. We propose PartitionSel, a cross-domain minibatch selection approach that maximizes a validation-guided gradient-matching utility under per-domain budgets encoded as a partition-matroid constraint. By coupling the per-domain budgets through a single utility, PartitionSel is designed to reduce redundancy in selections across domains. The proposed objective is weakly submodular and admits an orthogonal matching pursuit algorithm with provable approximation guarantees. Empirically, we evaluate PartitionSel for minibatch selection during the fine-tuning of Qwen2.5 and Llama-3 on MetaMathQA and Mol-Instructions. PartitionSel achieves robust gains over per-domain and domain-agnostic baselines on both benchmarks. It also reduces the number of conflicting gradient pairs within each batch, indicating that the cross-domain coupling translates into more compatible training updates.
- Abstract(参考訳): ヘテロジニアスデータ上での大規模言語モデル(LLM)のトレーニングには、収束速度とドメイン間のカバレッジのバランスをとるミニバッチを選択する必要がある。
既存のメソッドは、各ドメイン内で独立してサンプルを選択するか、連続的なドメイン重みを学習するために計算的に高価なプロキシモデルに依存する。
分割行列制約として符号化されたドメイン単位の予算の下で、検証誘導勾配マッチングユーティリティを最大化するクロスドメインミニバッチ選択手法であるPartitionSelを提案する。
ドメイン単位の予算をひとつのユーティリティで結合することにより、PartitionSelはドメイン間の選択の冗長性を低減するように設計されている。
提案した目的は弱い部分モジュラーであり、証明可能な近似保証付き直交マッチング追従アルゴリズムを許容する。
実験により,Quwen2.5およびLlama-3をMetaMathQAおよびMoll-Instructions上で微調整する際のミニバッチ選択のためのPartitionSelの評価を行った。
PartitionSelは、両方のベンチマークでドメイン単位とドメインに依存しないベースラインに対して、堅牢なゲインを達成する。
また、各バッチ内の競合する勾配ペアの数を減らすことで、クロスドメイン結合がより互換性のあるトレーニング更新に変換されることを示す。
関連論文リスト
- Clustering-Based Validation Splits for Model Selection under Domain Shift [0.0]
トレーニングバリデーション分割は2つのセット間の分布ミスマッチを最大化するべきである。
線形プログラミングを利用して分割のサイズ、ラベル、および(任意に)グループを制御する制約付きクラスタリングアルゴリズムを示す。
論文 参考訳(メタデータ) (2024-05-29T19:21:17Z) - Compositional Semantic Mix for Domain Adaptation in Point Cloud
Segmentation [65.78246406460305]
合成意味混合は、ポイントクラウドセグメンテーションのための最初の教師なし領域適応技術である。
本稿では、ソースドメイン(例えば合成)からの点雲とターゲットドメイン(例えば実世界)からの点雲を同時に処理できる2分岐対称ネットワークアーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-08-28T14:43:36Z) - Bidirectional Domain Mixup for Domain Adaptive Semantic Segmentation [73.3083304858763]
本稿では,ドメイン適応型セマンティックセグメンテーションタスクにおけるミックスアップの影響を系統的に研究する。
具体的には、ドメインミックスアップをカットとペーストという2ステップで実現します。
フレームワークの主なコンポーネントを実証的に検証するために、広範囲にわたるアブレーション実験を行います。
論文 参考訳(メタデータ) (2023-03-17T05:22:44Z) - Minibatch vs Local SGD with Shuffling: Tight Convergence Bounds and
Beyond [63.59034509960994]
シャッフルに基づく変種(ミニバッチと局所ランダムリシャッフル)について検討する。
ポリアック・ロジャシエヴィチ条件を満たす滑らかな函数に対して、これらのシャッフル型不変量(英語版)(shuffling-based variants)がそれらの置換式よりも早く収束することを示す収束境界を得る。
我々は, 同期シャッフル法と呼ばれるアルゴリズムの修正を提案し, ほぼ均一な条件下では, 下界よりも収束速度が速くなった。
論文 参考訳(メタデータ) (2021-10-20T02:25:25Z) - Cross-Domain Grouping and Alignment for Domain Adaptive Semantic
Segmentation [74.3349233035632]
深層畳み込みニューラルネットワーク(CNN)内のソースドメインとターゲットドメインにセマンティックセグメンテーションネットワークを適用する既存の技術は、対象ドメイン自身や推定カテゴリ内のクラス間変異を考慮していない。
学習可能なクラスタリングモジュールと、クロスドメイングルーピングとアライメントと呼ばれる新しいドメイン適応フレームワークを導入する。
本手法はセマンティクスセグメンテーションにおける適応性能を一貫して向上させ,様々なドメイン適応設定において最先端を上回っている。
論文 参考訳(メタデータ) (2020-12-15T11:36:21Z) - Coded Stochastic ADMM for Decentralized Consensus Optimization with Edge
Computing [113.52575069030192]
セキュリティ要件の高いアプリケーションを含むビッグデータは、モバイルデバイスやドローン、車両など、複数の異種デバイスに収集され、格納されることが多い。
通信コストとセキュリティ要件の制限のため、核融合センターにデータを集約するのではなく、分散的に情報を抽出することが最重要となる。
分散エッジノードを介してデータを局所的に処理するマルチエージェントシステムにおいて,モデルパラメータを学習する問題を考える。
分散学習モデルを開発するために,乗算器アルゴリズムの最小バッチ交互方向法(ADMM)のクラスについて検討した。
論文 参考訳(メタデータ) (2020-10-02T10:41:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。