論文の概要: C$^3$ache: Accelerating World Action Models with Cross Inference Chunk Cache
- arxiv url: http://arxiv.org/abs/2606.08962v1
- Date: Mon, 08 Jun 2026 03:01:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:06.669762
- Title: C$^3$ache: Accelerating World Action Models with Cross Inference Chunk Cache
- Title(参考訳): C$^3$ache: クロス推論チャンクキャッシュによるワールドアクションモデルの高速化
- Authors: Weisen Zhao, Lam Nguyen, Zhicong Lu, Yuzhang Shang,
- Abstract要約: C$3$acheはトレーニング不要のメソッドで、推論チャンクにまたがって残余をキャッシュし再利用する。
Fast-WAMのバックボーンでの実験では、C$3$acheは壁時計の総推定時間で最大2.5倍のスピードアップを達成している。
- 参考スコア(独自算出の注目度): 41.43227699724456
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: World Action Models (WAMs) generalize better than standard Vision-Language-Action (VLA) policies to novel motions and environments, because a video-modeling objective lets them learn from abundant unlabeled video rather than scarce labeled robot demonstrations. This generalization is computationally expensive. To complete a task, a WAM runs over multiple inference chunks, and each chunk requires a costly denoising process. Existing acceleration methods reduce this cost by caching and reusing computation within a single chunk's denoising trajectory. Our empirical analysis reveals a substantial source of redundancy they overlook: redundancy across chunks. When a robot executes a smooth behavior, the residuals computed at a given denoising step are strongly correlated from one chunk to the next. We introduce C$^3$ache, a training-free method that caches and reuses these residuals across inference chunks at the same denoising step. Experiments on benchmarks with a Fast-WAM backbone show that C$^3$ache achieves up to a $2.5\times$ speedup in total wall-clock inference time, with negligible degradation in task success rate.
- Abstract(参考訳): World Action Models (WAMs) は、新しい動きや環境に対する標準的なビジョン・ランゲージ・アクション(VLA)ポリシーよりも優れている。
この一般化は計算に高価である。
タスクを完了するには、WAMは複数の推論チャンク上で動作し、各チャンクはコストのかかる遅延処理を必要とする。
既存のアクセラレーション手法は、単一チャンクのデノイング軌道内の計算をキャッシュし再利用することで、このコストを削減する。
私たちの経験的分析は、彼らが見落としている実質的な冗長性(チャンク間の冗長性)の原因を明らかにします。
ロボットがスムーズな動作を行うとき、所定の認知ステップで計算された残差は、あるチャンクから次のチャンクに強く相関する。
C$^3$acheは、トレーニング不要のメソッドで、推論チャンクにまたがってこれらの残余をキャッシュし再利用する。
Fast-WAMのバックボーンを用いたベンチマーク実験では、C$^3$acheは壁面時間全体の推測時間で最大2.5\times$のスピードアップを実現し、タスク成功率の無視できる低下を実現している。
関連論文リスト
- Motion-Aware Caching for Efficient Autoregressive Video Generation [73.27762884730272]
MotionCacheは、ピクセルレベルのモーション特性の軽量プロキシとして、フレーム間の差異を利用する。
SkyReels-V2やMAGI-1のような最先端モデルの実験では、MotionCacheが大幅なスピードアップを実現している。
論文 参考訳(メタデータ) (2026-05-03T05:49:27Z) - Denoising as Path Planning: Training-Free Acceleration of Diffusion Models with DPCache [8.614492355393578]
本研究では,グローバルパス計画問題として拡散加速を定式化する学習自由加速フレームワークDPCacheを提案する。
DPCacheは動的プログラミングを使用して、トラジェクティブの忠実さを維持しながら、全体のパスコストを最小限に抑える、キータイムステップの最適なシーケンスを選択する。
DiT、FLUX、HunyuanVideoの実験では、DPCacheは最小品質の損失で強力な加速を実現している。
論文 参考訳(メタデータ) (2026-02-26T06:13:33Z) - DDiT: Dynamic Patch Scheduling for Efficient Diffusion Transformers [6.406853903837331]
Diffusion Transformer (DiTs) は画像およびビデオ生成において最先端のパフォーマンスを達成したが、その成功は重い計算コストが伴う。
動的トークン化(Dynamic tokenization)は,コンテントの複雑さと遅延時間に基づいて,パッチサイズを変化させる効率的なテストタイム戦略である。
提案手法は,画像生成と映像生成の段階でパッチサイズを動的に再配置し,知覚的生成品質を保ちながらコストを大幅に削減する。
論文 参考訳(メタデータ) (2026-02-19T00:15:20Z) - Test-Time Temporal Sampling for Efficient MLLM Video Understanding [26.144261085897863]
Test-Time Temporal Sampling (T3S) は、MLLMが効率よくかつ効果的に長編ビデオを処理できるトレーニングフリーのプラグアンドプレイ推論ラッパーである。
我々の手法は推論時に完全に動作し、モデル修正や微調整は不要であり、幅広い事前訓練されたMLLMと互換性がある。
論文 参考訳(メタデータ) (2025-11-22T06:59:21Z) - Real-Time Execution of Action Chunking Flow Policies [49.1574468325115]
本稿では,アクションインタラクションシステムの非同期実行を可能にする新しい推論時アルゴリズムを提案する。
これは、再トレーニングなしでボックスから実行する拡散またはVLAベースのシステムに適用できる。
その結果、RTCは高速で、性能が高く、推論操作に対して一意に堅牢であることがわかった。
論文 参考訳(メタデータ) (2025-06-09T01:01:59Z) - AB-Cache: Training-Free Acceleration of Diffusion Models via Adams-Bashforth Cached Feature Reuse [19.13826316844611]
拡散モデルは生成的タスクにおいて顕著に成功したが、反復的認知過程は推論を遅くする。
本稿では,第2次Adams-Bashforth法を用いて認知過程を解析することにより理論的に理解する。
キャッシュされた結果を直接再利用する代わりに,拡散モデルに対するキャッシングに基づく新しい高速化手法を提案する。
論文 参考訳(メタデータ) (2025-04-13T08:29:58Z) - Truncated Consistency Models [57.50243901368328]
トレーニング一貫性モデルは、PF ODE 軌道に沿ったすべての中間点を対応するエンドポイントにマッピングする学習を必要とする。
このトレーニングパラダイムが一貫性モデルの1ステップ生成性能を制限することを実証的に見出した。
整合性関数の新しいパラメータ化と2段階の訓練手順を提案し,時間外学習が崩壊することを防ぐ。
論文 参考訳(メタデータ) (2024-10-18T22:38:08Z) - An Efficient Rehearsal Scheme for Catastrophic Forgetting Mitigation during Multi-stage Fine-tuning [55.467047686093025]
このような忘れを緩和するための一般的なアプローチは、微調整中に以前のタスクからサンプルをリハーサルすることである。
側方損傷のリハーサルを優先するサンプリング手法である textttbf mix-cd を提案する。
我々の手法は計算効率が高く、実装が容易で、計算制約のある設定においていくつかの主要な連続学習手法より優れています。
論文 参考訳(メタデータ) (2024-02-12T22:32:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。