論文の概要: Frequency-Aware Flow Matching for Continuous and Consistent Robotic Action Generation
- arxiv url: http://arxiv.org/abs/2606.20135v1
- Date: Thu, 18 Jun 2026 11:58:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-19 18:23:39.835211
- Title: Frequency-Aware Flow Matching for Continuous and Consistent Robotic Action Generation
- Title(参考訳): 連続的かつ一貫性のあるロボット行動生成のための周波数認識フローマッチング
- Authors: Jianing Guo, Fangzheng Chen, Zihao Mao, Wong Lik Hang Kenny, Zhenhong Wu, Yu Li, Yishuai Cai, Yuanpei Chen, Yikun Ban, Kai Chen, Qi Dou, Yaodong Yang, Xianglong Liu, Huijie Zhao, Simin Li,
- Abstract要約: 既存の方法は離散化されたアクションチャンクに依存しており、不均一な制御で収集されたデモに対して脆弱である。
本稿では、連続的かつ時間的に一貫した動作を出力する周波数認識フローマッチング(FAFM)を提案する。
FAFMは成功率、マルチモーダル表現性、運動の滑らか性、収束速度、機械的バイアスに対する堅牢性、混合周波数入力を改善する。
- 参考スコア(独自算出の注目度): 46.998628831231194
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Flow matching has emerged as a standard paradigm for robotic manipulation owing to its strong expressive power for modelling complex, multimodal action distributions, alongside similar approaches like diffusion policy. However, existing methods rely on discretized action chunks, making them brittle to demonstrations collected at heterogeneous control frequencies and prone to temporally inconsistent actions that degrade control stability. In this paper, we propose Frequency-Aware Flow Matching (FAFM), which outputs continuous, temporally consistent actions. To handle heterogeneous frequency input, we transform discrete action sequences into the frequency domain with the discrete cosine transform (DCT), perform flow matching over the resulting coefficients, and reconstruct continuous actions via cosine basis expansion. To generate temporally consistent actions, we regularize the first-order temporal derivative to promote smooth actions. This corresponds to a Sobolev-type constraint that suppresses high-frequency errors and discourages abrupt action changes. Our FAFM is simple, introduces no additional network parameters and applies to standalone flow-matching policies and vision-language action models. Across synthetic toy benchmark, obstacle avoidance, LapGym, and LIBERO, FAFM improves success rates, multimodal expressivity, motion smoothness, convergence speed, robustness to mechanical bias and mixed-frequency input. These gains are consistent when deployed on a real-world Franka robot. Code available at https://anonymous.4open.science/r/FAFM.
- Abstract(参考訳): フローマッチングは、拡散ポリシーのような類似したアプローチとともに、複雑なマルチモーダルなアクション分布をモデル化する強力な表現力のために、ロボット操作の標準パラダイムとして登場した。
しかし、既存の手法は離散化された動作チャンクに依存しており、不均一な制御周波数で収集されたデモに脆くなり、制御安定性を低下させる時間的に不整合な動作を起こしやすい。
本稿では、連続的かつ時間的に一貫した動作を出力する周波数認識フローマッチング(FAFM)を提案する。
不均一な周波数入力を処理するために、離散コサイン変換(DCT)を用いて離散アクションシーケンスを周波数領域に変換し、結果係数のフローマッチングを行い、コサイン基底展開により連続アクションを再構成する。
時間的に一貫した動作を生成するために、第1次時間微分を規則化し、スムーズな動作を促進する。
これは、高周波エラーを抑制し、突然の動作変化を阻止するソボレフ型制約に対応する。
我々のFAFMは単純で、追加のネットワークパラメータを導入せず、スタンドアロンのフローマッチングポリシーや視覚言語アクションモデルに適用します。
合成玩具ベンチマーク、障害物回避、LapGym、LIBEROでは、FAFMは成功率、マルチモーダル表現性、運動滑らか性、収束速度、機械的バイアスに対する堅牢性、混合周波数入力を改善する。
これらの利得は、現実世界のFrankaロボットにデプロイした場合、一貫したものだ。
コードはhttps://anonymous.4open.science/r/FAFMで公開されている。
関連論文リスト
- DFM-VLA: Iterative Action Refinement for Robot Manipulation via Discrete Flow Matching [20.252867273996085]
本稿では,アクショントークンの反復精製のための離散フローマッチングVLAであるDFM-VLAを提案する。
DFM-VLAは、操作性能において、強い自己回帰、離散拡散、連続拡散ベースラインよりも一貫して優れる。
論文 参考訳(メタデータ) (2026-03-27T11:38:43Z) - From Flow to One Step: Real-Time Multi-Modal Trajectory Policies via Implicit Maximum Likelihood Estimation-based Distribution Distillation [18.70033095161235]
Indicit Likelihood Estimation (IMLE) を用いて条件付きフローマッチングの専門家を高速な単一ステップの学生に蒸留する枠組みを提案する。
双方向のチャンファー距離は、モードカバレッジと忠実度の両方を促進する設定レベルの目的を提供する。
統合認識エンコーダは、さらに多視点RGB、深度、点雲、プロプレセプションを幾何学的認識表現に統合する。
論文 参考訳(メタデータ) (2026-03-10T09:30:05Z) - Primary-Fine Decoupling for Action Generation in Robotic Imitation [91.2899765310853]
ロボット操作動作シーケンスにおけるマルチモーダル分布は、模倣学習にとって重要な課題である。
PF-DAG(プライマリ・フィン・デカップリング・フォー・アクション・ジェネレーション、プライマリ・フィン・デカップリング・フォー・アクション・ジェネレーション、プライマリ・フィン・デカップリング・フォー・アクション・ジェネレーション、プライマリ・フィン・デカップリング・フォー・アクション・ジェネレーション、プライマリ・フィン・デカップリング・フォー・アクション・ジェネレーション、プライマリ・フィン・デカップリング・フォー・アクション・ジェネレーション、PF-DAG)を提案する。
PF-DAGは、Adroit、DexArt、MetaWorldベンチマークの56タスクで最先端のベースラインを上回っている。
論文 参考訳(メタデータ) (2026-02-25T08:36:45Z) - Towards Arbitrary Motion Completing via Hierarchical Continuous Representation [64.6525112550758]
Inlicit Representations(INR)に基づくNAMEと呼ばれる新しいパラメトリックアクティベーションによる階層的暗黙表現フレームワークを提案する。
本手法では,複数の時間スケールで動作列から特徴を抽出し,複雑な時間パターンを効果的に捕捉する階層的時間符号化機構を提案する。
論文 参考訳(メタデータ) (2025-12-24T14:07:04Z) - $\mathcal{E}_0$: Enhancing Generalization and Fine-Grained Control in VLA Models via Continuized Discrete Diffusion [65.77755100137728]
本稿では、量子化されたアクショントークンを反復的にデノケーションするアクション生成を定式化する、連続的な離散拡散フレームワークであるE0を紹介する。
E0は14の多様な環境において最先端のパフォーマンスを達成し、平均して10.7%強のベースラインを達成している。
論文 参考訳(メタデータ) (2025-11-26T16:14:20Z) - FreqPolicy: Efficient Flow-based Visuomotor Policy via Frequency Consistency [34.81668269819768]
本稿では,ロボット操作における時間情報を活用するFreqPolicyを提案する。
FreqPolicyは最初、フローベースのビジュモータポリシーに周波数一貫性の制約を課す。
推論周波数93.5Hzの実世界のロボットシナリオにおいて,効率と有効性を示す。
論文 参考訳(メタデータ) (2025-06-10T14:12:53Z) - FreqPolicy: Frequency Autoregressive Visuomotor Policy with Continuous Tokens [47.735852718586216]
本稿では,階層的な周波数成分を段階的にモデル化するビジュモータポリシー学習のための新しいパラダイムを提案する。
さらに精度を高めるために,動作空間の滑らかさと連続性を維持する連続潜在表現を導入する。
我々の手法は、精度と効率の両方で既存の手法より優れている。
論文 参考訳(メタデータ) (2025-06-02T12:13:51Z) - Consistency Flow Matching: Defining Straight Flows with Velocity Consistency [97.28511135503176]
本稿では,速度場の自己整合性を明示する新しいFM法であるConsistency Flow Matching(Consistency-FM)を紹介する。
予備実験により、一貫性FMは、一貫性モデルよりも4.4倍速く収束することにより、トレーニング効率を著しく向上することが示された。
論文 参考訳(メタデータ) (2024-07-02T16:15:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。