論文の概要: Boltzmann Attention: Learnable Ising Couplings for Cooperative Attention
- arxiv url: http://arxiv.org/abs/2606.12478v1
- Date: Wed, 10 Jun 2026 06:58:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-12 15:55:27.35258
- Title: Boltzmann Attention: Learnable Ising Couplings for Cooperative Attention
- Title(参考訳): Boltzmann氏の注意: 共同注意のためのペアリングは学習可能か
- Authors: Gilhan Kim, Daniel K. Park,
- Abstract要約: 我々は、相互作用するイジングモデルによって注意パターンが支配されるエネルギーベースの一般化であるボルツマン注意を提案する。
文字レベルの言語モデリングと合成ブラケットマッチングの実験により、ボルツマンの注意は標準ソフトマックスの注意よりも一貫して改善されることが示された。
- 参考スコア(独自算出の注目度): 0.21485350418225238
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Attention mechanisms are central to modern sequence models, yet standard attention computes relevance primarily through individual query--key similarities. Although softmax normalization introduces competition among positions, a standard attention layer does not explicitly parameterize learnable interactions between attention decisions. This limits its ability to directly model cooperative or antagonistic co-attention structure within the attention mechanism itself. We propose Boltzmann attention, an energy-based generalization in which attention patterns are governed by an interacting Ising model. The method augments the usual data-dependent local fields with learnable pairwise couplings, allowing the model to represent inter-position correlations beyond those captured by softmax or sigmoid attention. Experiments on character-level language modeling and synthetic bracket matching show that Boltzmann attention consistently improves over standard softmax attention within a standard Transformer architecture, with the advantage becoming more pronounced as sequence length increases. A four-way ablation confirms that the improvement arises from the learnable pairwise couplings. These results suggest that explicit inter-position interactions provide a principled enhancement for attention-based sequence modeling. Moreover, the Ising formulation opens a natural path toward quantum-computing-based sampling strategies: we demonstrate that diabatic quantum annealing provides a practical training method while maintaining competitive performance with exact Boltzmann computation.
- Abstract(参考訳): 注意機構は、近代的なシーケンスモデルの中心であるが、標準的な注意力は、主に個々のクエリー-キー類似性を通して関連性を計算する。
ソフトマックス正規化は位置間の競合をもたらすが、標準的な注意層は注意決定間の学習可能な相互作用を明示的にパラメータ化しない。
これにより、アテンション機構自体内での協調的または対角的なコアテンション構造を直接モデル化する能力が制限される。
我々は、相互作用するイジングモデルによって注意パターンが支配されるエネルギーベースの一般化であるボルツマン注意を提案する。
この手法は、学習可能なペアワイドカップリングで通常のデータ依存局所場を強化し、ソフトマックスやシグモイドの注意によって捉えた値を超える位置間相関をモデルで表現する。
文字レベルの言語モデリングと合成ブラケットマッチングの実験により、ボルツマンの注意は標準トランスフォーマーアーキテクチャにおける標準ソフトマックスの注意よりも一貫して改善され、シーケンス長が増加するにつれて利点がより顕著になることが示された。
4方向のアブレーションは、学習可能なペアワイズ結合から改善が生じることを確認します。
これらの結果は、明示的な位置間相互作用が注意に基づくシーケンスモデリングの原則的強化をもたらすことを示唆している。
さらに,Isingの定式化は,量子計算に基づくサンプリング戦略への自然な道を開く。
関連論文リスト
- Krause Synchronization Transformers [63.8469912831803]
トランスフォーマーにおける自己注意は、グローバルに正規化されたソフトマックスの重みに依存しており、すべてのトークンがすべての層で影響を競う。
クラーズ・アテンション(Krause Attention)は、有界信頼コンセンサス・ダイナミクスにインスパイアされた注意機構である。
論文 参考訳(メタデータ) (2026-02-12T03:47:53Z) - Nexus: Higher-Order Attention Mechanisms in Transformers [82.07756094886552]
トランスフォーマーは、依存関係をキャプチャするための自己アテンションに依存して、さまざまなドメインで大きな成功を収めています。
本稿では,再帰フレームワークによる表現力向上を目的とした新しいアーキテクチャであるNexusを提案する。
我々は,本手法が標準注意の線形ボトルネックを突破することを示す理論的解析を行った。
論文 参考訳(メタデータ) (2025-12-03T02:25:38Z) - Deconstructing Attention: Investigating Design Principles for Effective Language Modeling [37.92951508140559]
トランスフォーマー言語モデルは、ドット積の注意機構によって広く評価されている。
この研究は、これらの原則を緩和する制御された変種を設計することで、注意を体系的に分解する。
驚くべきことに、単独で失敗する変種でさえ、標準的な注意を引いた時に堅牢なパフォーマンスを達成することができる。
論文 参考訳(メタデータ) (2025-10-13T16:42:14Z) - Dynamic Relational Priming Improves Transformer in Multivariate Time Series [0.0]
動的リレーショナルプライミングによる注意(プライムアテンション)を提案する。
主要な注意力は、ベンチマーク全体で標準の注意力より一貫して優れています。
また、プライマリアテンションは、標準アテンションに比べて最大40%のシーケンス長を用いて、同等または優れたパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-09-15T17:56:15Z) - Mitigating Attention Hacking in Preference-Based Reward Modeling via Interaction Distillation [62.14692332209628]
インタラクション蒸留(Interaction Distillation)は、注意レベル最適化によるより適切な嗜好モデリングのための新しいトレーニングフレームワークである。
最先端のRM最適化法と比較して、より安定で一般化可能な報酬信号を提供する。
論文 参考訳(メタデータ) (2025-08-04T17:06:23Z) - Transformers Learn Faster with Semantic Focus [57.97235825738412]
学習性と一般化の観点からスパース変圧器について検討する。
入力依存のスパースアテンションモデルは、標準アテンションモデルよりも早く収束し、より一般化しているように見える。
論文 参考訳(メタデータ) (2025-06-17T01:19:28Z) - Revisiting Attention Weights as Explanations from an Information
Theoretic Perspective [4.499369811647602]
注意機構は、他のモデル要素と慎重に組み合わせた場合、説明をモデル化するためのショートカットとして機能する可能性があることを示す。
本研究により,注意機構は,他のモデル要素と慎重に組み合わせた場合,モデル説明のためのショートカットとして機能する可能性が示唆された。
論文 参考訳(メタデータ) (2022-10-31T12:53:20Z) - Learning Sequence Representations by Non-local Recurrent Neural Memory [61.65105481899744]
教師付きシーケンス表現学習のためのNon-local Recurrent Neural Memory (NRNM)を提案する。
我々のモデルは長距離依存を捉えることができ、潜伏した高レベル特徴を我々のモデルで抽出することができる。
我々のモデルは、これらのシーケンスアプリケーションごとに特別に設計された他の最先端の手法と比較して好意的に比較する。
論文 参考訳(メタデータ) (2022-07-20T07:26:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。