論文の概要: FlexLAM: Resolving the Bottleneck Trade-off in Latent Action Learning
- arxiv url: http://arxiv.org/abs/2606.19408v1
- Date: Wed, 17 Jun 2026 14:42:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-19 18:23:39.448687
- Title: FlexLAM: Resolving the Bottleneck Trade-off in Latent Action Learning
- Title(参考訳): FlexLAM: 潜在行動学習におけるボタネックトレードオフの解決
- Authors: Takanori Yoshimoto, Yang Hu, Naruya Kondo, Tatsuya Matsushima,
- Abstract要約: ラテントアクションモデル(LAM)は、すべての遷移を固定容量ボトルネックを通じて強制する。
この固定容量を、ネストしたドロップアウトによってトレーニングされた可変長の潜伏アクションに置き換える。
1つのFlexLAMは、評価されたトークン予算ごとに、個別に訓練された固定容量 LAM と一致または超えます。
- 参考スコア(独自算出の注目度): 5.637511936865457
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Latent actions provide a compact interface between action-free video and downstream decision-making, yet existing Latent Action Models (LAMs) force every transition through a fixed-capacity bottleneck. We identify a bottleneck trade-off: overly tight codes can discard transition cues needed for action alignment, while overly loose codes preserve additional transition variation that must be resolved when alignment labels are scarce or narrowly distributed. FlexLAM replaces this fixed capacity with variable-length latent actions trained by nested dropout, yielding prefix-valid codes that capture compact transition structure first and add detail only when needed, without new architectures or losses. A single FlexLAM matches or surpasses separately trained fixed-capacity LAMs at every evaluated token budget under standard scarce-label supervision and under a low-return single-task alignment stress test, indicating that FlexLAM is not merely adjustable at inference time but learns a better latent-action interface at the same token budgets. The same model supports inference-time token-budget adjustment without retraining, and FlexLAM improves Ego4D transition reconstruction. These results suggest that variable-length latent actions are an architecture-free, drop-in upgrade to the fixed-capacity bottleneck in latent action models, latent-action world models, and video-pretrained action interfaces.
- Abstract(参考訳): 遅延アクションは、アクションフリービデオと下流の意思決定の間のコンパクトなインターフェースを提供するが、既存の遅延アクションモデル(LAM)は、すべての遷移を固定容量ボトルネックを通じて強制する。
過度にタイトなコードは、アクションアライメントに必要なトランジッションキューを捨てることができますが、過度にゆるいコードは、アライメントラベルが不足したり、狭く分散された時に解決しなければならない、追加のトランジッションのバリエーションを保持します。
FlexLAMは、この固定容量を、ネストしたドロップアウトによってトレーニングされた可変長の潜時アクションに置き換える。
1つのFlexLAMは、標準の不足ラベル監督の下で、低リターンのシングルタスクアライメントストレステストの下で、評価されたトークン予算ごとに、個別にトレーニングされた固定容量 LAM と一致または超える。
同じモデルは再トレーニングなしに推論時トークン予算調整をサポートし、FlexLAMはEgo4Dトランジション再構成を改善している。
これらの結果から, 可変長潜時動作はアーキテクチャフリーで, 潜時動作モデル, 潜時動作世界モデル, ビデオ予測動作インタフェースにおける固定容量ボトルネックへのアップグレードであることがわかった。
関連論文リスト
- Overcoming Dynamics-Blindness: Training-Free Pace-and-Path Correction for VLA Models [13.008047379870069]
既存のアプローチでは、高価な再トレーニングが必要か、レイテンシのボトルネックとアクションチャンク間の時間的一貫性の低下に悩まされる。
チャンクされた動作VLAをラップするトレーニングフリーでクローズド形式の推論時間演算子であるPace-and-Path Correctionを提案する。
動作を唯一の制御変数として分離する目的で設計された総合的な診断ベンチマークMoveBenchについて,本手法の評価を行った。
論文 参考訳(メタデータ) (2026-05-12T03:17:59Z) - Compatibility-Aware Dynamic Fine-Tuning for Large Language Models [48.855385240803436]
Supervised Fine-Tuning (SFT) は、大規模言語モデル (LLM) の調整における主要なパラダイムである。
最近の研究は、この問題を病理学的勾配のスケーリングに起因し、トークンレベルでの修正のために動的微調整(DFT)を提案する。
本稿では、サンプルレベルの最適化分散を制御するDFTの原理的拡張であるCompatibility-Aware Dynamic Fine-Tuning(CADFT)を紹介する。
論文 参考訳(メタデータ) (2026-04-22T14:47:30Z) - AnchorRefine: Synergy-Manipulation Based on Trajectory Anchor and Residual Refinement for Vision-Language-Action Models [60.04879435087352]
視覚言語アクション(VLA)ポリシーは、単一の統一空間内でアクションを生成する。
本稿では,VLAの動作モデリングを軌跡アンカーと残留精細化に分解する階層的フレームワークであるAnchorRefineを提案する。
LIBERO、CALVIN、および実ロボットタスクの実験では、AnchorRefineは回帰ベースと拡散ベースの両方のVLAバックボーンを一貫して改善している。
論文 参考訳(メタデータ) (2026-04-20T04:25:24Z) - LACE: Loss-Adaptive Capacity Expansion for Continual Learning [0.0]
LACE(Loss-Adaptive Capacity Expansion)は、トレーニング中にモデルの表現能力を拡張するオンラインメカニズムである。
LACEはラベルもリプレイバッファも外部コントローラも必要とせず、リソース制約下でのデバイス上での継続的な学習に適している。
論文 参考訳(メタデータ) (2026-03-30T15:58:33Z) - Olaf-World: Orienting Latent Actions for Video World Modeling [100.96069208914957]
アクションコントロール可能な世界モデルのスケーリングは、アクションラベルの不足によって制限される。
大規模受動的ビデオから行動条件付きビデオワールドモデルを事前訓練するパイプラインであるOraf-Worldを紹介する。
論文 参考訳(メタデータ) (2026-02-10T18:58:41Z) - On the Joint Minimization of Regularization Loss Functions in Deep Variational Bayesian Methods for Attribute-Controlled Symbolic Music Generation [47.38557855930304]
明示的な潜在変数モデルは、データ合成のための柔軟だが強力なフレームワークを提供する。
既存のアプローチは、両方の正規化目標を共同で最小化するのに苦労していることを示す。
適切な属性変換は、目標潜在次元の可制御性と正則化の両方を達成するのに有効であることを示す。
論文 参考訳(メタデータ) (2025-11-10T14:09:25Z) - Mental Accounts for Actions: EWA-Inspired Attention in Decision Transformers [2.9385229328767983]
オンライン決定変換器(EWA-VQ-ODT)のためのベクトル量子化を用いた経験量アトラクションを提案する。
EWA-VQ-ODTは、最近の成功と失敗をまとめた、アクションごとのメンタルアカウントを保持する軽量モジュールである。
標準の連続制御ベンチマークでは、EWA-VQ-ODTはサンプル効率とODTに対する平均リターンを改善している。
論文 参考訳(メタデータ) (2025-09-19T00:33:22Z) - GrAInS: Gradient-based Attribution for Inference-Time Steering of LLMs and VLMs [56.93583799109029]
GrAInSは推論時ステアリングのアプローチで、言語のみのモデルと視覚言語の両方のモデルとタスクで動作する。
推論中、GrAInSはトークンレベルの属性信号によって誘導されるトランスフォーマー層で隠されたアクティベーションを隠蔽し、アクティベーションを正規化し、表現スケールを保存する。
微調整と既存のステアリングベースラインの両方を一貫して上回る。
論文 参考訳(メタデータ) (2025-07-24T02:34:13Z) - FlexiAct: Towards Flexible Action Control in Heterogeneous Scenarios [49.09128364751743]
アクションカスタマイズでは、被験者が入力制御信号によって指示されたアクションを実行するビデオを生成する。
現在の手法では、ポーズ誘導やグローバルな動きのカスタマイズが使われているが、空間構造に対する厳密な制約によって制限されている。
本稿では、参照ビデオから任意のターゲット画像へアクションを転送するFlexiActを提案する。
論文 参考訳(メタデータ) (2025-05-06T17:58:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。