論文の概要: Higher-Order Token Interactions via Quantum Attention
- arxiv url: http://arxiv.org/abs/2606.11673v2
- Date: Thu, 18 Jun 2026 08:19:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-19 13:55:51.407533
- Title: Higher-Order Token Interactions via Quantum Attention
- Title(参考訳): 量子注意による高次トークン相互作用
- Authors: Jian Xu, Chao Li, Delu Zeng, John Paisley, Qibin Zhao,
- Abstract要約: 我々は、浅いハードウェアで実現可能な量子アテンションヘッドである textbfQuantum Higher-Order Attention (QHA) を導入する。
QHAは回路内で秩序$kのトークン相互作用を合成し、局所的な単一ビット読み出しを通じて公開する。
応用として、QHAは3つの領域にわたるコンパクトな高次相互作用検出器として機能する。
- 参考スコア(独自算出の注目度): 30.903467721896487
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Standard dot-product self-attention computes, in a single layer, only pairwise (order-2) interactions between tokens; representing a generic order-$k$ interaction is known to require either super-quadratic resources in one layer or composition across depth. We introduce \textbf{Quantum Higher-Order Attention (QHA)}, a shallow, hardware-realizable quantum attention head that, via data re-uploading and an all-to-all non-Clifford entangler, synthesizes order-$k$ token interactions inside the circuit and exposes them through a local single-qubit read-out. We prove (i) an expressivity separation: any single standard self-attention layer with embedding dimension $m$, $H$ heads and $p$-bit precision satisfying $mHp=o(N/\log\log N)$ cannot represent the order-$k$ correlation family that one QHA head represents with circuit depth $O(\log k)$ ($O(k)$ two-qubit gates); and (ii) a trainability guarantee for its local-design instantiation: with a local read-out and $O(\log n)$ depth the gradient variance is $Ω(1/\mathrm{poly}(n))$ (no barren plateau), which we confirm empirically -- while being explicit that the more expressive all-to-all instantiation we benchmark is trained empirically and shows exponentially decaying gradients. Empirically, at a $6.5\times$ smaller parameter budget, QHA generalizes hidden-subset parity of every order $k\le6$ from disjoint inputs, whereas the larger classical attention head collapses past order~2; consistent with theory, the size of the advantage tracks the target's Fourier degree - largest for parity and shrinking when low-order structure is present. As an application, QHA serves as a compact high-order interaction detector across three domains - genetic epistasis, learning-parity-with-noise, and graph triangle detection - reaching the noise ceiling at the smallest parameter budget where field-standard linear methods fail.
- Abstract(参考訳): 標準的なドット積自己アテンション計算は、1つの層において、トークン間のペアワイズ(オーダー-2)の相互作用のみであり、一般的な順序-$k$の相互作用を表すことは、1つの層に超二次的なリソースを必要とするか、深さを越えて構成を必要とすることが知られている。
データ再アップロードとすべての非クリフォードエンタングルを通し、回路内部で秩序$kのトークンインタラクションを合成し、局所的な単一キュービット読み出しを通じてそれらを公開する、浅層でハードウェアで実現可能な量子アテンションヘッドである「textbf{Quantum Higher-Order Attention (QHA)」を紹介する。
証明する
i) 表現分離: 埋め込み次元が$m$,$H$ヘッド,$p$-bit精度が$mHp=o(N/\log\log N)$を満たす任意の標準自己保持層は、QHAヘッドが回路深度$O(\log k)$$$O(k)$2-qubitゲートで表される順序-$k$相関族を表現できない。
局所的な読み出しと深さが$O(\log n)$ 勾配分散は$Ω(1/\mathrm{poly}(n))$ (barren plateau)$ (no barren plateau)である。
経験的に、より小さいパラメータ予算の6.5\times$で、QHAは不整合入力から全ての位数$k\le6$の隠れサブセットパリティを一般化する一方、より大きい古典的注目ヘッドは過去の階数~2で崩壊する。
応用として、QHAは3つの領域にわたるコンパクトな高次相互作用検出器として機能する – 遺伝的エピスタシス、学習パリティ・ウィズ・ノイズ検出、グラフ三角形検出 – は、フィールド標準線形メソッドが失敗する最小のパラメータ予算でノイズ天井に到達する。
関連論文リスト
- Coherent Rollout Oracles for Finite-Horizon Sequential Decision Problems [0.0]
逐次決定問題に対するコヒーレント量子ロールアウトには、ユニタリシミュレータが必要である。
枝依存の有効作用では、この写像は、絡み合った$N-bitマスク上のコヒーレントなランク選択である。
このプリミティブの最初の可逆・可逆的複雑性解析を行う。
論文 参考訳(メタデータ) (2026-04-28T00:46:37Z) - Hardness of High-Dimensional Linear Classification [58.29089693778071]
我々は、最大半空間離散性問題に対する次元下界の新たな指数関数を確立する。
どちらも計算幾何学と機械学習の基本的問題であり、その正確で近似的な形式である。
論文 参考訳(メタデータ) (2026-03-19T15:53:41Z) - Unsupervised Discovery of Intermediate Phase Order in the Frustrated $J_1$-$J_2$ Heisenberg Model via Prometheus Framework [0.0]
本稿では,Prometheus変分オートエンコーダフレームワークを適用して,J_1$-$J$位相図を探索する。
構造因子 $S(,)$ と $S(,)$ を支配的順序パラメータとして同定する。
この研究は、フラストレーションのある量子システムに機械学習を適用するためのスケーラブルな経路を確立する。
論文 参考訳(メタデータ) (2026-02-25T00:44:51Z) - Hardware-Agnostic Modeling of Quantum Side-Channel Leakage via Conditional Dynamics and Learning from Full Correlation Data [0.0]
本研究では,敵プローブキュービットが隠れゲートシーケンス中にターゲットキュービットと相互作用するシーケンシャルサイドチャネルモデルについて検討する。
同じシークエンスを$N$ショットで繰り返すと、経験的な完全相関レコードが得られる。
広帯域結合とノイズグリッドの実験により、予測された結合帯域付近で厳密なシーケンス回復が集中していることが示されている。
論文 参考訳(メタデータ) (2026-02-17T19:33:23Z) - Minimax Rates for Hyperbolic Hierarchical Learning [3.3192479135000426]
階層データから学習するためのユークリッド表現と双曲表現の指数関数的分離を証明した。
任意のランク-$k$予測空間は、O(k)$標準階層的コントラストのみをキャプチャする。
論文 参考訳(メタデータ) (2026-01-27T20:50:24Z) - An Information-Minimal Geometry for Qubit-Efficient Optimization [0.0]
量子ビット効率の最適化を幾何学的問題として再検討する。
局所一貫性問題は、Sherali-Adams level-2 polytope $mathrmSA(2)$とちょうど一致する。
論文 参考訳(メタデータ) (2025-11-11T15:38:57Z) - Unveiling Induction Heads: Provable Training Dynamics and Feature Learning in Transformers [54.20763128054692]
我々は,2層変換器が$n$-gramのマルコフ連鎖データ上でICLを実行するためにどのように訓練されているかを検討する。
クロスエントロピー ICL 損失に対する勾配流が極限モデルに収束することを証明する。
論文 参考訳(メタデータ) (2024-09-09T18:10:26Z) - Learning with Norm Constrained, Over-parameterized, Two-layer Neural Networks [54.177130905659155]
近年の研究では、再生カーネルヒルベルト空間(RKHS)がニューラルネットワークによる関数のモデル化に適した空間ではないことが示されている。
本稿では,有界ノルムを持つオーバーパラメータ化された2層ニューラルネットワークに適した関数空間について検討する。
論文 参考訳(メタデータ) (2024-04-29T15:04:07Z) - Transformers as Support Vector Machines [54.642793677472724]
自己アテンションの最適化幾何と厳密なSVM問題との間には,形式的等価性を確立する。
勾配降下に最適化された1層変圧器の暗黙バイアスを特徴付ける。
これらの発見は、最適なトークンを分離し選択するSVMの階層としてのトランスフォーマーの解釈を刺激していると信じている。
論文 参考訳(メタデータ) (2023-08-31T17:57:50Z) - $O(n)$ Connections are Expressive Enough: Universal Approximability of
Sparse Transformers [71.31712741938837]
注意層ごとに$O(n)$接続しか持たないスパース変換器は、$n2$接続を持つ高密度モデルと同じ関数クラスを近似できることを示す。
また、標準NLPタスクにおいて、異なるパターン・レベルの違いを比較検討する。
論文 参考訳(メタデータ) (2020-06-08T18:30:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。