Fugu-MT 論文翻訳(概要): Breaking chains with trees: Deep learning with $\mathcal{O}(\log N)$ parallel time complexity

論文の概要: Breaking chains with trees: Deep learning with $\mathcal{O}(\log N)$ parallel time complexity

arxiv url: http://arxiv.org/abs/2606.21497v1
Date: Fri, 19 Jun 2026 14:44:07 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-25 13:07:05.81205
Title: Breaking chains with trees: Deep learning with $\mathcal{O}(\log N)$ parallel time complexity
Title（参考訳）: 木でチェーンを破る:$\mathcal{O}(\log N)$並列時間複雑性によるディープラーニング
Authors: Neeraj Mohan Sushma, Aditya Nagarsekar, Cabrel Teguemne Fokam, Robin Schiewer, Amit Kumar Pal, Anand Subramoney, David Kappel,
Abstract要約: 深層ニューラルネットワークを局所学習目標を用いて学習した階層的ブロックに分解するフレームワークである階層的ブロックローカラーニング(HBLL)を提案する。 HBLLは、$mathcalO(log N)$ parallel time complexityでディープニューラルネットワークをトレーニングできる最初のアルゴリズムである。 HBLLは、異なる階層パスに対応するニューラルネットワークのファミリーを暗黙的に定義し、異なる有効層数で柔軟な推論を可能にすることを示す。
参考スコア（独自算出の注目度）: 0.749500254646884
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Modern deep neural network architectures are trained via backpropagation, which requires errors to be sequentially propagated through all layers before parameters can be updated. This introduces two limitations: locking, where layer-wise updates are strictly interdependent and cannot proceed in parallel, and the weight transport problem, which requires symmetric forward and backward pathways for exact gradient computation. These constraints restrict parallelism, increase memory and communication overhead, and pose challenges for scalable learning. In this work, we propose Hierarchical Block-Local Learning (HBLL), a framework that decomposes deep neural networks into hierarchically linked blocks trained using local learning objectives derived from variational principles, eliminating the need for full end-to-end backpropagation while maintaining effective information propagation across the network. HBLL is the first algorithm that is able to train deep neural networks in $\mathcal{O}(\log N)$ parallel time complexity, where $N$ is the number of network layers. We show that HBLL implicitly defines a family of subnetworks corresponding to different hierarchical paths, enabling flexible inference with different effective numbers of layers. We evaluate HBLL on a set of challenging vision and language modeling tasks, achieving competitive performance. We also extend HBLL to recurrent sequence architectures, applying to settings that otherwise rely on backpropagation through time.
Abstract（参考訳）: 最新のディープニューラルネットワークアーキテクチャは、バックプロパゲーションを通じてトレーニングされるため、パラメータが更新される前に、すべてのレイヤを通じてエラーをシーケンシャルに伝播する必要がある。ロックは、レイヤワイズ更新が厳密に相互依存しており、並列に進行できないもので、厳密な勾配計算のために対称的な前方経路と後方経路を必要とするウェイトトランスポート問題である。これらの制約は並列性を制限し、メモリと通信のオーバーヘッドを増大させ、スケーラブルな学習に挑戦する。本研究では,深層ニューラルネットワークを局所学習目標を用いて学習した階層的ブロックに分解する階層的ブロック局所学習(HBLL)を提案する。 HBLLは、$\mathcal{O}(\log N)$並列時間複雑性でディープニューラルネットワークをトレーニングできる最初のアルゴリズムである。 HBLLは、階層的な異なるパスに対応するサブネットワークのファミリーを暗黙的に定義し、異なる有効層数で柔軟な推論を可能にすることを示す。我々は,HBLLを,難解なビジョンと言語モデリングタスクのセットで評価し,競争力のある性能を実現する。また、HBLLをリカレントシーケンスアーキテクチャに拡張し、時間とともにバックプロパゲーションに依存する設定に適用します。

関連論文リスト

Replacement Learning: Training Neural Networks with Fewer Parameters [15.09968642484538]
Replacement Learning (RepL) は、選択したブロックを置き換えることで、完全な冗長性を減らす訓練時間パラダイムである。 RepLは、不要なフルレイヤを避けながら、局所的なコンテキスト連続性を維持する。 RepLはトレーニング可能なパラメータ、GPUメモリ使用量、トレーニング時間を削減し、標準のエンドツーエンドトレーニングを適合または超過することを示す。
論文参考訳（メタデータ） (2026-05-19T08:34:31Z)
LESA: Learnable LLM Layer Scaling-Up [57.0510934286449]
LLM(Large Language Models)をスクラッチからトレーニングするには膨大な計算資源が必要であるため、非常に高価である。モデルスケーリングアップは、より小さなモデルのパラメータを活用してより大きなモデルを作成することで、有望なソリューションを提供する。深度スケールアップのための新しい学習方法である textbfLESA を提案する。
論文参考訳（メタデータ） (2025-02-19T14:58:48Z)
Lipschitz constant estimation for general neural network architectures using control tools [0.05120567378386613]
本稿では,半定値プログラミングを用いた一般ニューラルネットワークアーキテクチャのリプシッツ定数の推定について述べる。我々はニューラルネットワークを時間変動力学系と解釈し、そこでは、$k$th層は、時間で$k$の力学に対応する。
論文参考訳（メタデータ） (2024-05-02T09:38:16Z)
Unlocking Deep Learning: A BP-Free Approach for Parallel Block-Wise Training of Neural Networks [9.718519843862937]
ブロックワイズBPフリー(BWBPF)ニューラルネットワークを導入し、局所誤差信号を利用してサブニューラルネットワークを個別に最適化する。実験結果から,VGGとResNetのバラツキに対して,トランスファー可能な疎結合アーキテクチャを同定できることがわかった。
論文参考訳（メタデータ） (2023-12-20T08:02:33Z)
Efficient and Flexible Neural Network Training through Layer-wise Feedback Propagation [49.44309457870649]
レイヤワイドフィードバックフィードバック(LFP)は、ニューラルネットワークのような予測器のための新しいトレーニング原則である。 LFPはそれぞれの貢献に基づいて個々のニューロンに報酬を分解する。提案手法は,ネットワークの有用な部分と有害な部分の弱体化を両立させる手法である。
論文参考訳（メタデータ） (2023-08-23T10:48:28Z)
Improving the Trainability of Deep Neural Networks through Layerwise Batch-Entropy Regularization [1.3999481573773072]
ニューラルネットワークの各層を通しての情報の流れを定量化するバッチエントロピーを導入,評価する。損失関数にバッチエントロピー正規化項を追加するだけで、500層からなる「バニラ」完全連結ネットワークと畳み込みニューラルネットワークをトレーニングできることが示される。
論文参考訳（メタデータ） (2022-08-01T20:31:58Z)
GradInit: Learning to Initialize Neural Networks for Stable and Efficient Training [59.160154997555956]
ニューラルネットワークを初期化するための自動化およびアーキテクチャ手法であるgradinitを提案する。各ネットワーク層の分散は、SGDまたはAdamの単一ステップが最小の損失値をもたらすように調整される。また、学習率のウォームアップを伴わずに、オリジナルのPost-LN Transformerを機械翻訳用にトレーニングすることもできる。
論文参考訳（メタデータ） (2021-02-16T11:45:35Z)
DHP: Differentiable Meta Pruning via HyperNetworks [158.69345612783198]
本稿では,ネットワークの自動プルーニングのためのハイパーネットによる識別可能なプルーニング手法を提案する。遅延ベクトルは、バックボーンネットワーク内の畳み込み層の出力チャネルを制御し、レイヤのプルーニングのハンドルとして機能する。画像分類、単一画像超解像、復調のための様々なネットワークで実験が行われた。
論文参考訳（メタデータ） (2020-03-30T17:59:18Z)
Large-Scale Gradient-Free Deep Learning with Recursive Local Representation Alignment [84.57874289554839]
大規模データセット上でディープニューラルネットワークをトレーニングするには、重要なハードウェアリソースが必要である。これらのネットワークをトレーニングするためのワークホースであるバックプロパゲーションは、本質的に並列化が難しいシーケンシャルなプロセスである。本稿では、深層ネットワークのトレーニングに使用できるバックプロップに代わる、神経生物学的に有望な代替手段を提案する。
論文参考訳（メタデータ） (2020-02-10T16:20:02Z)
Backward Feature Correction: How Deep Learning Performs Deep (Hierarchical) Learning [66.05472746340142]
本稿では,SGD による階層的学習 _efficiently_ と _automatically_ を学習目標として,多層ニューラルネットワークがどのように行うかを分析する。我々は、下位機能のエラーを上位層と共にトレーニングする際に自動的に修正できる"後方特徴補正"と呼ばれる新しい原則を確立する。
論文参考訳（メタデータ） (2020-01-13T17:28:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。