論文の概要: ATHENA: Accelerated Multi-Task Heterogeneous Influence Functions for Robot Data Curation
- arxiv url: http://arxiv.org/abs/2606.16208v1
- Date: Mon, 15 Jun 2026 04:33:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-16 18:36:05.025133
- Title: ATHENA: Accelerated Multi-Task Heterogeneous Influence Functions for Robot Data Curation
- Title(参考訳): AtheNA: ロボットデータキュレーションのための高速化マルチタスク不均一影響関数
- Authors: Tao Xu, Jiaxin Wang, Runhao Zhang, Jiayi Guan, Xianchao Zeng, Weixi Song, Xinyu Zhou, Zhetao Chen, Guang Chen, Yong-Lu Li,
- Abstract要約: 影響関数は、ロボットタスクの結果に対する各デモンストレーションの効果を定量化する、原則化されたアプローチを提供する。
本稿ではマルチタスクVLAデータキュレーションに適した影響関数フレームワークであるAtheNAを提案する。
AtheNAはRandomTrncated Approximationで高密度ヘシアンを近似し、インバージョンで約313.4倍のスピードアップを達成する。
- 参考スコア(独自算出の注目度): 22.819734321192026
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In robot imitation learning, influence functions provide a principled approach to quantify each demonstration's effect on robot task outcomes, yet scaling them to billion-parameter Vision-Language-Action (VLA) models is limited by computational and multitask bottlenecks. To this end, we propose ATHENA, an influence function framework tailored for multitask VLA data curation at a billion-parameter scale. Concretely, it leverages the Kronecker structure of linear-layer gradients to reduce projection cost, and approximates dense Hessian inversion with a rank-r Random Truncated Approximation, achieving about a 313.4x speedup in influence computation. Furthermore, ATHENA formulates global and local interactive influence to balance data curation across 50 jointly trained tasks. Extensive evaluations on RoboTwin 2.0 and real-robot deployment, covering 9.34 and 6.90 hours of demonstrations, respectively, show that ATHENA matches or exceeds full-data joint fine-tuning using only 50% of demonstrations in simulation and 66.7% of data across six real-robot tasks. Overall, ATHENA demonstrates its effectiveness for data curation in billion-parameter multitask VLA fine-tuning.
- Abstract(参考訳): ロボット模倣学習において、インフルエンス関数は、ロボットタスクの結果に対する各デモンストレーションの効果を定量化するための原則的なアプローチを提供するが、それを10億パラメータビジョン・ランゲージ・アクション(VLA)モデルにスケーリングすることは、計算とマルチタスクのボトルネックによって制限される。
そこで本稿では,マルチタスクVLAデータキュレーションに適した影響関数フレームワークであるAtheNAを提案する。
具体的には、線形層勾配のクロネッカー構造を利用してプロジェクションコストを低減し、ランクrのランダムトレンシド近似を用いて密度の高いヘッセン反転を近似し、影響計算において約313.4倍のスピードアップを達成する。
さらに、AtheNAは、50の共同訓練タスク間でのデータキュレーションのバランスをとるために、グローバルおよびローカルなインタラクティブな影響を定式化します。
RoboTwin 2.0と6.90時間にわたる実ロボットの展開に関する大規模な評価は、ATHENAが6つの実ロボットタスクでわずか50%のデモと66.7%のデータしか使用せず、ATHENAが全データの関節の微調整に適合または超えることを示している。
全体として、AtheNAは10億パラメータのマルチタスクVLAファインチューニングにおけるデータキュレーションの有効性を実証している。
関連論文リスト
- RoboEvolve: Co-Evolving Planner-Simulator for Robotic Manipulation with Limited Data [39.935955987139515]
RoboEvolveは、VLMプランナーとVGMシミュレータを相互に強化した共進化ループに結合する新しいフレームワークである。
無ラベルのシードイメージで 純粋に操作することです
自律的な進歩的なカリキュラムによってガイドされ、システムは自然に単純な原子活動から複雑なタスクへとスケールする。
論文 参考訳(メタデータ) (2026-05-13T16:54:36Z) - Global Prior Meets Local Consistency: Dual-Memory Augmented Vision-Language-Action Model for Efficient Robotic Manipulation [95.89924101984566]
GPM(Global Prior Memory)とLCM(Local Consistency Memory)を備えたデュアルメモリVLAフレームワークOptimusVLAを紹介する。
GPMはガウスノイズを意味論的に類似した軌道から取得したタスクレベルの先行値に置き換える。
LCMは、時間的コヒーレンスと軌道の滑らかさを強制する学習された一貫性制約を注入する。
論文 参考訳(メタデータ) (2026-02-22T15:39:34Z) - ICONS: Influence Consensus for Vision-Language Data Selection [39.454024810266176]
命令による視覚言語モデルの訓練は、多種多様なタスクとドメインにまたがる大量のデータに依存していることが多い。
既存のメソッドは通常、データの重要性を推定したり、単独でタスクを最適化することに集中するためにタスクに依存します。
我々は、視覚言語データ選択のための勾配に基づくインフルエンス・コンセンサス・アプローチであるICONSを紹介する。
論文 参考訳(メタデータ) (2024-12-31T21:33:38Z) - TraceVLA: Visual Trace Prompting Enhances Spatial-Temporal Awareness for Generalist Robotic Policies [95.30717188630432]
VLAモデルの行動予測のための時空間認識を容易にするために,視覚的トレースプロンプトを導入する。
我々は,これまでに収集した150Kロボット操作トラジェクトリのデータセットに基づいてOpenVLAを微調整し,新しいTraceVLAモデルを開発した。
4B Phi-3-Vision に基づくコンパクトな VLA モデルを提案する。
論文 参考訳(メタデータ) (2024-12-13T18:40:51Z) - GRAPE: Generalizing Robot Policy via Preference Alignment [58.419992317452376]
GRAPE: 優先度アライメントによるロボット政策の一般化について述べる。
GRAPEはドメイン内および未確認操作タスクにおける成功率をそれぞれ51.79%、58.20%向上させる。
GRAPEは安全性や効率、衝突速度の37.44%、ロールアウト長さの11.15%といった様々な目標に合わせることができる。
論文 参考訳(メタデータ) (2024-11-28T18:30:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。