Fugu-MT 論文翻訳(概要): Hierarchical Attention via Domain Decomposition

論文の概要: Hierarchical Attention via Domain Decomposition

arxiv url: http://arxiv.org/abs/2606.18525v1
Date: Tue, 16 Jun 2026 22:40:40 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-18 17:16:50.920901
Title: Hierarchical Attention via Domain Decomposition
Title（参考訳）: ドメイン分割による階層的注意
Authors: Stephan Köhler, Oliver Rheinbach,
Abstract要約: 2レベル重なり合うシュワルツ領域分解に基づく階層的注意機構を提案する。この手法は、2レベルシュワルツ領域分解法が局所的なサブドメイン補正と大域的、長距離的な情報を伝達する粗いレベルを組み合わせるという観察によって動機づけられた。同次ディリクレ境界条件を持つ単純な1次元拡散問題を用いて有限次元作用素学習の文脈でその有用性を検証した。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: We propose a hierarchical attention mechanism based on two-level overlapping Schwarz domain decomposition. The method is motivated by the observation that two-level Schwarz domain decomposition methods combine local subdomain corrections with a coarse level that communicates global, long-range information. We test its usefulness in the context of finite-dimensional operator learning using a simple, one-dimensional diffusion problem with homogeneous Dirichlet boundary conditions. Although elementary, this problem provides a controlled sequence-to-sequence setting in which the exact nonlocal solution operator is known. After discretization, learning the solution operator amounts to approximating the inverse of a symmetric positive definite matrix. As a baseline, we use a global softmax-free low-rank attention operator of the form $QK^T$. The proposed construction replaces this dense global factorization by a two-level additive structure: local low-rank attention blocks on overlapping subdomains are combined with a coarse attention block. The resulting operator has the form $$M_θ^{-1} = ΦQ_0 K_0^T Φ^T + \sum_{i=1}^{N} R_i^T D_i^{1/2} Q_i K_i^T D_i^{1/2} R_i.$$ Here $R_i$ restricts to an overlapping subdomain, $D_i$ is a partition-of-unity weight, and $Φ$ is a coarse interpolation (or prolongation) matrix. Numerical experiments for synthetic Fourier right-hand sides indicate that the domain-decomposition attention operator is able to train faster and can give more accurate approximations than a global low-rank attention baseline while using significantly fewer parameters.
Abstract（参考訳）: 2レベル重なり合うシュワルツ領域分解に基づく階層的注意機構を提案する。この手法は、2レベルシュワルツ領域分解法が局所的なサブドメイン補正と大域的、長距離的な情報を伝達する粗いレベルを組み合わせるという観察によって動機づけられた。同次ディリクレ境界条件を持つ単純な1次元拡散問題を用いて有限次元作用素学習の文脈でその有用性を検証した。基本的な問題ではあるが、この問題は、厳密な非局所解作用素が知られている制御されたシーケンス・ツー・シーケンス設定を提供する。離散化後、解作用素の学習は対称正定行列の逆を近似する。ベースラインとして、$QK^T$という形のグローバルなソフトマックスフリー低ランクアテンション演算子を用いる。提案手法は, 重なり合うサブドメイン上の局所的な低ランクアテンションブロックと粗いアテンションブロックを組み合わせ, この高密度なグローバルファクタライゼーションを2レベル付加構造で置き換える。この演算子は、$$M_θ^{-1} = >Q_0 K_0^T >^T + \sum_{i=1}^{N} R_i^T D_i^{1/2} Q_i K_i^T D_i^{1/2} R_i である。 $$$R_i$は重なり合うサブドメインに制限され、$D_i$はユニティのパーティショニングウェイトであり、$は粗い補間(または延長)行列である。合成フーリエ右辺の数値実験により、ドメイン分解アテンション演算子は、パラメータを著しく少なくして、グローバル低ランクアテンションベースラインよりも高速に訓練でき、より正確な近似を行うことができることが示された。

関連論文リスト

Sharper Guarantees for Misspecified Kernelized Bandit Optimization [34.863425530383545]
大規模なカーネルでは、不特定値の増幅は対数的あるいは多対数的成長に還元できることを示す。オフライン設定では、不特定項がスペクトルルベーグ定数によって支配される高確率単純回帰境界を最初に証明する。オンライン設定では、ドメイン分割アルゴリズムを変更して、緩やかな局所化された固有デカイ仮定の下で、$widetildemathcal O(sqrt_n n+nvarepsilon)$の累積後悔境界を証明する。
論文参考訳（メタデータ） (2026-05-07T10:12:56Z)
Regularized Online RLHF with Generalized Bilinear Preferences [68.44113000390544]
一般的な嗜好を伴う文脈的オンラインRLHFの問題を考える。一般化された双線形選好モデルを用いて、低ランクなスキュー対称行列による選好を捉える。グリーディポリシーの双対ギャップは推定誤差の正方形によって有界であることを示す。
論文参考訳（メタデータ） (2026-02-26T15:27:53Z)
A Derandomization Framework for Structure Discovery: Applications in Neural Networks and Beyond [25.592330047318274]
構造発見の側面に注目し、より弱い仮定の下で研究する。私たちのアプローチの中核は、キー$textitderandomization$ lemmaです。この補題は構造発見を直接説明し、他の領域で直ちに適用することができる。
論文参考訳（メタデータ） (2025-10-22T08:55:00Z)
Recursive Bound-Constrained AdaGrad with Applications to Multilevel and Domain Decomposition Minimization [0.0]
2つのOFOノイズ耐性アルゴリズムが提示され、制約を扱い、不正確な勾配を扱い、二階情報を使用する。数値実験は、PDEに基づく問題から深層ニューラルネットワークトレーニングに至るまでの応用について論じ、その卓越した計算効率を示す。
論文参考訳（メタデータ） (2025-07-15T17:32:10Z)
Mondrian: Transformer Operators via Domain Decomposition [2.1392064955842014]
ドメインを重複しないテキストに分解する変換演算子bfMondrianを導入する。各サブドメイン内では、標準的なレイヤを表現力のあるニューラル演算子に置き換え、関数上のソフトマックスベースの内部積によって注意が計算される。 Mondrianは、Allen-Cahn と Navier-Stokes PDE 上で強力なパフォーマンスを実現し、再トレーニングせずに解像度のスケーリングを実証している。
論文参考訳（メタデータ） (2025-06-09T20:52:04Z)
Near-Optimal Online Learning for Multi-Agent Submodular Coordination: Tight Approximation and Communication Efficiency [52.60557300927007]
離散部分モジュラー問題を連続的に最適化するために,$textbfMA-OSMA$アルゴリズムを提案する。また、一様分布を混合することによりKLの発散を効果的に活用する、プロジェクションフリーな$textbfMA-OSEA$アルゴリズムも導入する。我々のアルゴリズムは最先端OSGアルゴリズムによって提供される$(frac11+c)$-approximationを大幅に改善する。
論文参考訳（メタデータ） (2025-02-07T15:57:56Z)
Obtaining Lower Query Complexities through Lightweight Zeroth-Order Proximal Gradient Algorithms [65.42376001308064]
複素勾配問題に対する2つの分散化ZO推定器を提案する。我々は、現在最先端の機能複雑性を$mathcalOleft(minfracdn1/2epsilon2, fracdepsilon3right)$から$tildecalOleft(fracdepsilon2right)$に改善する。
論文参考訳（メタデータ） (2024-10-03T15:04:01Z)
Decentralized Riemannian Conjugate Gradient Method on the Stiefel Manifold [59.73080197971106]
本稿では,最急降下法よりも高速に収束する一階共役最適化法を提案する。これはスティーフェル多様体上の大域収束を達成することを目的としている。
論文参考訳（メタデータ） (2023-08-21T08:02:16Z)
On the Convergence of Overlapping Schwarz Decomposition for Nonlinear Optimal Control [7.856998585396421]
非線形シュワルツ問題を解くために重なり合う分解アルゴリズムの収束特性について検討する。アルゴリズムは局所的な線形収束を示し、収束速度は重なり合うサイズで指数関数的に向上することを示す。
論文参考訳（メタデータ） (2020-05-14T00:19:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。