論文の概要: Accelerating Birkhoff Projection for Manifold-Constrained Hyper-Connections
- arxiv url: http://arxiv.org/abs/2606.07574v1
- Date: Tue, 26 May 2026 13:11:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-15 07:09:36.736788
- Title: Accelerating Birkhoff Projection for Manifold-Constrained Hyper-Connections
- Title(参考訳): Manifold-Constrained Hyper-ConnectionのためのBirkhoff射影の高速化
- Authors: Chenrui Wang, Yixuan Qiu,
- Abstract要約: 我々は超制約超接続(mHC)のためのエンドツーエンド加速フレームワークを開発する。
実際に重要な4x4 Birkhoffプロジェクション設定に集中し、エンドツーエンドのアクセラレーションフレームワークを開発する。
- 参考スコア(独自算出の注目度): 6.932606401614012
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Manifold-constrained hyper-connections (mHCs) have recently been proposed as a principled extension of hyper-connections, where the residual mixing matrices are constrained to be doubly stochastic via projection onto the Birkhoff polytope. In practical mHC implementations, this constraint is enforced by Sinkhorn-Knopp iterations, and the backward pass relies on unrolling the iterative solver. This design introduces substantial computation and memory overhead, and may also yield inaccurate projections when the algorithm converges slowly on challenging inputs, undermining the intended norm-control and stability guarantees of mHCs. In this work, we focus on the practically important 4x4 Birkhoff projection setting and develop an end-to-end acceleration framework. By leveraging the dual formulation, we reduce the problem to a three-dimensional unconstrained convex problem and solve it with Newton's method, achieving fast convergence and high accuracy. For the backward pass, we replace the unrolled differentiation with implicit differentiation, yielding exact gradients without storing intermediate states. To exploit massive parallelism, we design a warp-level CUDA kernel that uses only register-level primitives, avoiding global and shared memory I/O. Extensive experiments against representative open-source baselines demonstrate that the proposed solver yields substantially more reliable doubly stochastic projections -- especially when the input magnitude is large -- and achieves significant end-to-end speedups (including the backward pass), reaching over 20x acceleration at large batch sizes while maintaining orders of magnitude smaller marginal errors.
- Abstract(参考訳): マニフォールド拘束型超接続(mHCs)は、最近、高結合の原理的拡張として提案され、残留混合行列はバーホフポリトープへの射影によって二重確率的であるように制約されている。
実践的なmHC実装では、この制約はシンクホーン・ノックの反復によって強制され、後方通過は反復解法をアンロールすることに依存する。
この設計では、かなりの計算とメモリオーバーヘッドを導入し、アルゴリズムが挑戦的な入力にゆっくりと収束すると、mHCの標準制御と安定性の保証を損なう不正確なプロジェクションも得る。
本研究では,事実上重要な4x4 Birkhoffプロジェクション設定に着目し,エンドツーエンドのアクセラレーションフレームワークを開発する。
二重定式化を利用して、3次元の非拘束凸問題に問題を還元し、ニュートン法で解き、高速収束と高精度を実現する。
後方通過の場合、無回転微分を暗黙の微分に置き換え、中間状態を保存することなく正確な勾配を得る。
大規模な並列性を活用するために,レジスタレベルのプリミティブのみを使用するワープレベルのCUDAカーネルを設計し,グローバルメモリや共有メモリI/Oを回避する。
代表的なオープンソースベースラインに対する大規模な実験により、提案した解法は、特に入力サイズが大きい場合において、より信頼性の高い2倍確率射影を得られ、大きなバッチサイズで20倍以上の加速を達成し、限界誤差の桁数を極小に抑えながら、重要なエンドツーエンドのスピードアップ(後向きパスを含む)を達成することを示した。
関連論文リスト
- OScaR: The Occam's Razor for Extreme KV Cache Quantization in LLMs and Beyond [50.440302567029654]
マルチモーダルインテリジェンスにより、Key-Valueキャッシュは効率的なデプロイメントのための主要なメモリボトルネックとなった。
本研究では、チャネルごとの量子化パラダイムの本質的な限界を再考する。
X-LLMのための高精度かつ軽量なKVキャッシュ圧縮フレームワークOScaRを提案する。
論文 参考訳(メタデータ) (2026-05-19T10:53:03Z) - mHC-lite: You Don't Need 20 Sinkhorn-Knopp Iterations [5.518733929171501]
制約のない残留行列は訓練安定性を損なうことがある。
DeepSeek's Manifold-Constrained Hyper-Connections (mHC) は、これらの行列を反復シンクホーン-クノップ(SK)正規化を通じてバーホフポリトープに投影する。
論文 参考訳(メタデータ) (2026-01-09T11:19:14Z) - Parallel Diffusion Solver via Residual Dirichlet Policy Optimization [88.7827307535107]
拡散モデル(DM)は、最先端の生成性能を達成したが、シーケンシャルなデノナイジング特性のため、高いサンプリング遅延に悩まされている。
既存のソルバベースの加速度法では、低次元の予算で画像品質が著しく低下することが多い。
本研究では,各ステップに複数の勾配並列評価を組み込んだ新しいODE解法であるEnsemble Parallel Directionsolvr(EPD-EPr)を提案する。
論文 参考訳(メタデータ) (2025-12-28T05:48:55Z) - MPQ-DMv2: Flexible Residual Mixed Precision Quantization for Low-Bit Diffusion Models with Temporal Distillation [74.34220141721231]
我々は,textbfMixed textbfPrecision textbfQuantizationフレームワークを改良したMPQ-DMv2を提案する。
論文 参考訳(メタデータ) (2025-07-06T08:16:50Z) - Two-dimensional Parallel Tempering for Constrained Optimization [0.3068068202044424]
パワーパラレルテンパリングアルゴリズム(PT)の2次元拡張を導入する。
結果として得られる2次元並列テンパリングアルゴリズム(2D-PT)は、厳密な制約のあるレプリカの混合を改善する。
この方法は制約付きIsing問題に広く適用され、既存のIsingマシンにデプロイできる。
論文 参考訳(メタデータ) (2025-05-24T20:41:45Z) - Smoothing ADMM for Sparse-Penalized Quantile Regression with Non-Convex
Penalties [8.294148737585543]
本稿では,非二次絶対および非平滑収束ペナルティの存在下での凹凸および切断された量子レグレッションについて検討する。
本稿では,スパース回帰に特化してSIADと呼ばれるペナルティ乗算器が増加する新しいループADMアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-09-04T21:48:51Z) - Faster One-Sample Stochastic Conditional Gradient Method for Composite
Convex Minimization [61.26619639722804]
滑らかで非滑らかな項の和として形成される凸有限サム目標を最小化するための条件勾配法(CGM)を提案する。
提案手法は, 平均勾配 (SAG) 推定器を備え, 1回に1回のサンプルしか必要としないが, より高度な分散低減技術と同等の高速収束速度を保証できる。
論文 参考訳(メタデータ) (2022-02-26T19:10:48Z) - Distributed stochastic optimization with large delays [59.95552973784946]
大規模最適化問題を解決する最も広く使われている手法の1つは、分散非同期勾配勾配(DASGD)である。
DASGDは同じ遅延仮定の下で大域的最適実装モデルに収束することを示す。
論文 参考訳(メタデータ) (2021-07-06T21:59:49Z) - Hessian-Free High-Resolution Nesterov Acceleration for Sampling [55.498092486970364]
最適化のためのNesterovのAccelerated Gradient(NAG)は、有限のステップサイズを使用する場合の連続時間制限(ノイズなしの運動的ランゲヴィン)よりも優れたパフォーマンスを持つ。
本研究は, この現象のサンプリング法について検討し, 離散化により加速勾配に基づくMCMC法が得られる拡散過程を提案する。
論文 参考訳(メタデータ) (2020-06-16T15:07:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。