論文の概要: LAST: Bridging Vision-Language and Action Manifolds via Gromov-Wasserstein Alignment
- arxiv url: http://arxiv.org/abs/2606.11221v1
- Date: Wed, 27 May 2026 03:48:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-15 07:09:36.848979
- Title: LAST: Bridging Vision-Language and Action Manifolds via Gromov-Wasserstein Alignment
- Title(参考訳): LAST:Gromov-Wassersteinアライメントによるブリッジングビジョンランゲージとアクションマニフォールド
- Authors: Huaihai Lyu, Chaofan Chen, Yuheng Ji, Xiansheng Chen, Pengwei Wang, Shanghang Zhang, Changsheng Xu,
- Abstract要約: LASTはアクション空間を再構築し、ビジョン・ランゲージ・アクション・モダリティとの局所的な距離互換性を確立する。
LASTは収束性と一般化性に優れたVLAモデルを可能にする。
- 参考スコア(独自算出の注目度): 71.3712075841632
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We take a Gromov-Wasserstein perspective on Vision-Language-Action (VLA) learning, where the goal is to make the relational geometry of action representations compatible with the semantic geometry of VL embeddings. However, this alignment is non-trivial due to the mathematical heterogeneity between the domains: the semantic space of vision-language is topologically linear and isotropic, whereas the physical manifold of robotic action is non-Euclidean and anisotropic. Their disjoint metric structures render direct regression ill-posed. To resolve this incompatibility, we introduce LAST (Lie-algebraic Action Space Tokenizer), which reconstructs the action space to establish local metric compatibility with the VL modality via a two-stage transformation: (1) Global Topological Linearization: linearizing the action manifold via Lie-algebraic mapping, converting trajectories into a fixed-length, physically additive representation. (2) Local Metric Discretization: hierarchically discretizing the representation into schemas and whitened residuals, yielding approximately isotropic local charts that are statistically aligned with the semantic metric. By resolving the structural mismatch at both global and local levels, LAST enables VLA models with superior convergence and generalizability.
- Abstract(参考訳): 本稿では,視覚・言語・アクション(VLA)学習におけるGromov-Wassersteinの視点について述べる。
しかし、このアライメントは領域間の数学的不均一性のため自明ではない: 視覚言語の意味空間は位相的に線型で等方的であるのに対して、ロボット行動の物理的多様体は非ユークリッド的で異方的である。
それらの解離したメートル法構造は、直接回帰を偽造する。
この不整合性を解決するために、LAST(Lie-algebraic Action Space Tokenizer)を導入し、2段階変換によるVLモダリティとの局所的距離整合性を確立するためにアクション空間を再構成する。
2) 局所計量離散化: 階層的にスキーマと白色残差への表現を離散化し, 統計的に意味計量に整合したほぼ等方的な局所チャートを生成する。
グローバルレベルとローカルレベルの両方で構造ミスマッチを解決することで、LASTは収束性と一般化性に優れたVLAモデルを可能にする。
関連論文リスト
- General Covariant Action Modeling: Constructing Generalized Manifolds via Spatio-Temporal Decoupling [48.559681359374146]
GAM(Generalized Action Manifold)フレームワークは、構造的ゆがみを通じて一般的な共分散を強制する。
GAMは、ジオメトリーに依存しないベースラインよりも優れた転送能力とロバスト性を実現する。
論文 参考訳(メタデータ) (2026-05-27T03:38:15Z) - Hyperbolic Enhanced Representation Learning for Incomplete Multi-view Clustering [57.38215918201251]
本稿では,不完全なマルチビュークラスタリングのためのハイパーボリック拡張表現学習フレームワークであるHERLを提案する。
ポアンカレボール内で操作すると、HERLは表現学習を強化するために構造を意識した潜在空間を構築する。
HERLは最先端のアプローチよりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2026-04-18T10:50:46Z) - INST-Align: Implicit Neural Alignment for Spatial Transcriptomics via Canonical Expression Fields [1.0487944945684993]
INST-Alignは、座標ベースの変形ネットワークと共有カノニカル表現場を結合する。
最先端の平均OT精度(0.702)、NN精度(0.719)、チャンファー距離(94.9%)を実現している。
また、生物学的に意味のある空間埋め込みとコヒーレントな3D組織再構築をもたらす。
論文 参考訳(メタデータ) (2026-04-13T21:44:18Z) - LAG-XAI: A Lie-Inspired Affine Geometric Framework for Interpretable Paraphrasing in Transformer Latent Spaces [1.3788139387418392]
本稿では,埋め込み空間内の構造的アフィン変換としてパラフレージングをモデル化する幾何学的フレームワークであるRAG-XAIを紹介する。
Sentence-BERTでエンコードされた、ノイズの多いPIT-2015 Twitterコーパスの実験は、"線形透明性"現象を明らかにしている。
このモデルは、非線形ベースラインの効果的な分類能力(AUC 0.8405)の約80%を捕捉し、絶対精度の限界降下と引き換えに明確な解釈性を提供する。
論文 参考訳(メタデータ) (2026-04-07T17:02:21Z) - From Directions to Regions: Decomposing Activations in Language Models via Local Geometry [37.50120706345745]
活性化空間をモデル化するスケーラブルで教師なしの代替手段として、MFA(Mixture of Factor Analyzers)を利用する。
MFAは、活性化空間における領域のセントロイドと、セントロイドからの局所的な変化の2つの構成幾何学的対象に活性化を分解する。
Llama-3.1-8B と Gemma-2-2B の大規模 MFA を訓練し、活性化空間における複雑な非線形構造を捉えることを示す。
論文 参考訳(メタデータ) (2026-02-02T18:49:05Z) - Relative Representations: Topological and Geometric Perspectives [50.85040046976025]
相対表現はゼロショットモデルの縫合に対する確立されたアプローチである。
相対変換において正規化手順を導入し、非等方的再スケーリングや置換に不変となる。
第二に、クラス内のクラスタリングを促進するトポロジカル正規化損失である、微調整された相対表現におけるトポロジカルデシフィケーションの展開を提案する。
論文 参考訳(メタデータ) (2024-09-17T08:09:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。