論文の概要: FiLM-Coordinated Dual-Branch Transformer for Global-Local Dependency Modeling in Language Modeling
- arxiv url: http://arxiv.org/abs/2606.21075v1
- Date: Fri, 19 Jun 2026 03:48:49 GMT
- ステータス: 情報取得中
- システム内更新日: 2026-06-23 11:19:13.241116
- Title: FiLM-Coordinated Dual-Branch Transformer for Global-Local Dependency Modeling in Language Modeling
- Title(参考訳): 言語モデリングにおけるグローバルローカル依存モデリングのためのFILMコーディネートデュアルブランチ変換器
- Authors: Zhiqiang Zhou, Xu Ling, Junliang Dai,
- Abstract要約: 言語モデリングのためのFILMコーディネート二分岐変換器を提案する。
2つのブランチは同じ入力の異なる依存性ビューを表す。
小規模な言語モデリング設定の実験では、提案した構造が同一幅の単一ブランチベースラインを一貫して上回っていることが示されている。
- 参考スコア(独自算出の注目度): 4.131782714245991
- License:
- Abstract: Standard Transformers use a single self-attention pathway to model both global dependencies and local patterns, creating tension between long-range structural reasoning and fine-grained local representation learning. We propose a FiLM-coordinated dual-branch Transformer for language modeling, where each layer explicitly contains a global branch and a local branch, and feature-wise linear modulation (FiLM) is used for dynamic cross-branch coordination instead of simple concatenation or static addition. The key idea is that the two branches represent different dependency views of the same input, making channel-wise calibration more suitable than heavy token-level interaction. We therefore design a bidirectional FiLM module in which each branch generates per-channel scaling and shifting parameters to condition the other. Experiments on multiple small-scale language modeling settings show that the proposed structure consistently outperforms same-width single-branch baselines and weakened dual-branch variants under a fixed lightweight configuration. On TinyShakespeare and a 1M-character subset of WikiText-2, the full dual-branch FiLM model achieves the best results among same-width structural baselines. Multi-seed results support the stability of the gains, while mechanistic analyses show that FiLM learns input-dependent, layer-dependent, and channel-selective modulation patterns rather than static scaling. Parameter-matched widened single-branch baselines also indicate that the current design still leaves room for improvement in parameter efficiency.
- Abstract(参考訳): 標準変換器は、グローバルな依存関係と局所的なパターンの両方をモデル化するために単一の自己注意経路を使用し、長距離構造推論ときめ細かい局所的な表現学習の間に緊張を生じさせる。
本研究では,言語モデリングのためのFLMコーディネート2分岐変換器を提案する。各層はグローバル分岐と局所分岐を明示的に含み,特徴量線形変調(FiLM)は単純な結合や静的付加ではなく動的クロスブランチコーディネートに使用される。
キーとなる考え方は、2つのブランチが同一入力の異なる依存性ビューを表しており、重いトークンレベルの相互作用よりもチャネルのキャリブレーションがより適しているということである。
そこで我々は、各分岐がチャネルごとのスケーリングとパラメータのシフトを生成する双方向FiLMモジュールを設計する。
複数の小規模言語モデリング設定の実験により、提案した構造は、固定された軽量な構成の下で、同一幅の単一ブランチベースラインと弱められた二重ブランチ変異を一貫して上回ることを示した。
TinyShakespeareとWikiText-2の1M文字のサブセットでは、フルデュアルブランチFiLMモデルは、同じ幅の構造ベースラインで最高の結果が得られる。
メカニスティック解析により,FiLMは静的スケーリングよりも入力依存,層依存,チャネル選択的な変調パターンを学習することがわかった。
パラメータマッチングされた拡張シングルブランチベースラインもまた、現在の設計ではパラメータ効率を改善する余地が残っていることを示している。
関連論文リスト
- Chain of Modality: From Static Fusion to Dynamic Orchestration in Omni-MLLMs [84.3271821505699]
カオス・オブ・モダリティ(Chain of Modality, CoM)は、マルチモーダル融合を受動的結合から動的オーケストレーションに移行するエージェントフレームワークである。
CoMはトレーニングフリーまたはデータ効率のSFT設定で動作し、様々なベンチマークで堅牢で一貫した一般化を実現する。
論文 参考訳(メタデータ) (2026-04-16T01:21:14Z) - Hierarchical vs. Flat Iteration in Shared-Weight Transformers [0.5076419064097734]
本稿では,トランスフォーマーに基づく言語モデルにおいて,階層的に構造化された共有重み付け繰り返しが独立層積み重ねの表現的品質に合致するか否かを実証研究する。
論文 参考訳(メタデータ) (2026-04-15T21:34:48Z) - From One-to-One to Many-to-Many: Dynamic Cross-Layer Injection for Deep Vision-Language Fusion [91.35078719566472]
VLM(Vision-Language Models)は、粗い非対称接続を使用することで、深刻な視覚的特徴のボトルネックを生み出す。
CLI(Cross-Layer Injection)は,2つのモダリティの間に動的に多対多の橋を架ける,斬新で軽量なフレームワークである。
論文 参考訳(メタデータ) (2026-01-15T18:59:10Z) - Gated Associative Memory: A Parallel O(N) Architecture for Efficient Sequence Modeling [0.0]
Gated Associative Memory (GAM) ネットワークは、シーケンスモデリングのための新しい完全に並列なアーキテクチャである。
我々はGAMをゼロから実装し、標準的なトランスフォーマーモデルと現代的な線形時間ベースラインに対して厳密な比較分析を行う。
我々の実験は、GAMは一貫して高速で、トレーニング速度のベースラインの両方を上回り、全てのデータセットで優れた、または競争力のある最終バリデーションの難しさを達成できることを示した。
論文 参考訳(メタデータ) (2025-08-30T20:59:46Z) - DC-Mamber: A Dual Channel Prediction Model based on Mamba and Linear Transformer for Multivariate Time Series Forecasting [6.238490256097465]
現在の主流モデルは主にTransformerと新しいMambaをベースにしている。
DC-Mamber は、時系列予測のためのMamba と linear Transformer に基づく二重チャネル予測モデルである。
8つの公開データセットの実験では、DC-Mamberの既存のモデルよりも優れた精度が確認されている。
論文 参考訳(メタデータ) (2025-07-06T12:58:52Z) - Mamba-FSCIL: Dynamic Adaptation with Selective State Space Model for Few-Shot Class-Incremental Learning [115.79349923044663]
FSCIL(Few-shot class-incremental Learning)は、限られた例から新しいクラスを段階的に学習することを目的としている。
静的アーキテクチャは固定パラメータ空間に依存して、逐次到着するデータから学習し、現在のセッションに過度に適合する傾向がある。
本研究では,FSCILにおける選択状態空間モデル(SSM)の可能性について検討する。
論文 参考訳(メタデータ) (2024-07-08T17:09:39Z) - AMT: All-Pairs Multi-Field Transforms for Efficient Frame Interpolation [80.33846577924363]
ビデオフレームギスブのための新しいネットワークアーキテクチャであるAMT(All-Pairs Multi-Field Transforms)を提案する。
まず、すべての画素に対して双方向のボリュームを構築し、予測された両側フローを用いて相関関係を検索する。
第2に、入力フレーム上で逆向きのワープを行うために、一対の更新された粗い流れから細粒度の流れ場の複数のグループを導出する。
論文 参考訳(メタデータ) (2023-04-19T16:18:47Z) - Squeezeformer: An Efficient Transformer for Automatic Speech Recognition [99.349598600887]
Conformerは、そのハイブリッドアテンション・コンボリューションアーキテクチャに基づいて、様々な下流音声タスクの事実上のバックボーンモデルである。
Squeezeformerモデルを提案する。これは、同じトレーニングスキームの下で、最先端のASRモデルよりも一貫して優れている。
論文 参考訳(メタデータ) (2022-06-02T06:06:29Z) - CSformer: Bridging Convolution and Transformer for Compressive Sensing [65.22377493627687]
本稿では,CNNからの詳細な空間情報を活用するためのハイブリッドフレームワークと,表現学習の強化を目的としたトランスフォーマーが提供するグローバルコンテキストを統合することを提案する。
提案手法は、適応的なサンプリングとリカバリからなるエンドツーエンドの圧縮画像センシング手法である。
実験により, 圧縮センシングにおける専用トランスアーキテクチャの有効性が示された。
論文 参考訳(メタデータ) (2021-12-31T04:37:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。