論文の概要: Fixed-Point Reasoners: Stable and Adaptive Deep Looped Transformers
- arxiv url: http://arxiv.org/abs/2606.18206v1
- Date: Tue, 16 Jun 2026 17:36:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-17 17:15:32.582515
- Title: Fixed-Point Reasoners: Stable and Adaptive Deep Looped Transformers
- Title(参考訳): 固定点共振器:安定かつ適応的な深いループ変換器
- Authors: Sajad Movahedi, Vera Milovanović, Shlomo Libo Feigin, Alexander Theus, Thomas Hofmann, Valentina Boeva, T. Konstantin Rusch, Antonio Orvieto,
- Abstract要約: 本稿では,ループ型アーキテクチャにおける終端停止機構として固定点収束を用いたトランスフォーマーベースの固定点推論モデルを提案する。
FPRMは、Sudoku、Maze、state-tracking、ARC-AGIといった一般的な推論ベンチマークで有効である。
- 参考スコア(独自算出の注目度): 72.66457738838515
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Looped architectures provide an inductive bias toward learning step-by-step procedures for tasks that require compositional reasoning. The number of effective layers reached by looping determines the quality of the solution these models find. Like deep architectures, looped architectures are prone to a signal propagation problem induced by depth as the halting decision is postponed. In this paper, we address this signal propagation issue using pre-norm layers and residual scaling. Building on these architectural modifications, we propose FPRM, a Transformer-based Fixed-Point Reasoning Model that uses fixed-point convergence as an end-to-end halting mechanism in a looped architecture. We show that fixed-point halting allows FPRM to adapt its compute to task difficulty. FPRM is effective on common reasoning benchmarks, namely Sudoku, Maze, state-tracking, and ARC-AGI.
- Abstract(参考訳): ループアーキテクチャは、構成的推論を必要とするタスクのステップバイステップの手順を学ぶための帰納的バイアスを提供する。
ループによって到達した有効なレイヤの数によって、これらのモデルが求めるソリューションの品質が決定される。
深いアーキテクチャと同様に、ループ化されたアーキテクチャは、停止決定が延期されるとき、深さによって引き起こされる信号伝搬問題を引き起こす。
本稿では、プレノーム層と残留スケーリングを用いて、この信号伝搬問題に対処する。
ループ型アーキテクチャにおける終端停止機構として固定点収束を用いた変換器ベースの固定点推論モデルであるFPRMを提案する。
固定点停止により、FPRMはその計算をタスクの難易度に適応させることができることを示す。
FPRMは、Sudoku、Maze、state-tracking、ARC-AGIといった一般的な推論ベンチマークで有効である。
関連論文リスト
- Runtime Burden Allocation for Structured LLM Routing in Agentic Expert Systems: A Full-Factorial Cross-Backend Methodology [16.053669481561354]
エージェントAIシステムにおいて、大規模言語モデル(LLM)がコアコントロールコンポーネントになるにつれて、信頼性の高い構造化ルーティングは、正確性、レイテンシ、実装コストのバランスをとる必要がある。
このバランスはプロンプトやスキーマだけでなく、生成スタック全体で構造的な作業がどのように割り当てられるかによっても形作られています。
この定式化は、48のデプロイメント構成と15,552のリクエストをOpenAI、Gemini、Llamaバックエンドでカバーする包括的なフルファクターベンチマークを通じて評価する。
論文 参考訳(メタデータ) (2026-03-26T18:50:46Z) - Adaptive Linear Path Model-Based Diffusion [52.84663832658799]
リニアパスモデルベース拡散(LP-MBD)を導入し、分散保存スケジュールをフローマッチング線形確率パスに置き換える。
また,適応型LP-MBD(ALP-MBD)を提案し,タスクの複雑さや環境条件に応じて拡散ステップやノイズレベルを調整する。
論文 参考訳(メタデータ) (2026-02-02T21:33:03Z) - SpanNorm: Reconciling Training Stability and Performance in Deep Transformers [55.100133502295996]
両パラダイムの強度を統合することでジレンマを解消する新しい手法であるSpanNormを提案する。
我々は、SpanNormと原則付きスケーリング戦略を組み合わせることで、ネットワーク全体にわたって有界信号のばらつきを維持できることを理論的に示す。
経験的に、SpanNormは、密集および混成実験(Mixture-of-Experts、MoE)のシナリオにおいて、標準正規化スキームを一貫して上回っている。
論文 参考訳(メタデータ) (2026-01-30T05:21:57Z) - Backscatter Device-aided Integrated Sensing and Communication: A Pareto Optimization Framework [59.30060797118097]
統合センシング・通信(ISAC)システムは、密集した都市非視線シナリオにおいて大きな性能劣化に遭遇する可能性がある。
本稿では,自然環境に分散した受動的BDを利用した後方散乱近似(BD)支援ISACシステムを提案する。
論文 参考訳(メタデータ) (2025-07-12T17:11:06Z) - FX-DARTS: Designing Topology-unconstrained Architectures with Differentiable Architecture Search and Entropy-based Super-network Shrinking [19.98065888943856]
微分可能なアーキテクチャサーチ(DARTS)の探索空間に強い先行性が課せられる
本稿では,セルトポロジの制約を排除し,スーパーネットワークの離散化機構を変更することで,これらの制約を緩和することを目的とする。
FX-DARTSは、パフォーマンスと計算複雑性の間の競合するトレードオフを持つ一連のニューラルネットワークを探索することができる。
論文 参考訳(メタデータ) (2025-04-25T08:34:29Z) - Diffusion & Adversarial Schrödinger Bridges via Iterative Proportional Markovian Fitting [89.38017281709686]
IMFの修正版とIPF(Iterative Proportional Fitting)の手続きの密接な関係を示す。
本稿では,この組み合わせをIPMF法(Iterative Proportional Markovian Fitting)と呼ぶ。
論文 参考訳(メタデータ) (2024-10-03T15:43:17Z) - Decomposable Transformer Point Processes [2.1756081703276]
本稿では,注目に基づくアーキテクチャの利点の維持と,薄型化アルゴリズムの限界を回避する枠組みを提案する。
提案手法は,その履歴が与えられたシーケンスの次の事象を予測する上で,最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-09-26T13:22:58Z) - DepGraph: Towards Any Structural Pruning [68.40343338847664]
我々は、CNN、RNN、GNN、Transformersのような任意のアーキテクチャの一般的な構造解析について研究する。
本稿では,階層間の依存関係を明示的にモデル化し,包括的にグループ化してプルーニングを行う汎用かつ完全自動な手法であるemphDependency Graph(DepGraph)を提案する。
本研究では,画像用ResNe(X)t,DenseNet,MobileNet,Vision Transformer,グラフ用GAT,3Dポイントクラウド用DGCNN,言語用LSTMなど,さまざまなアーキテクチャやタスクに関する手法を広範囲に評価し,言語用LSTMと並行して示す。
論文 参考訳(メタデータ) (2023-01-30T14:02:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。