論文の概要: Learned Image Compression for Vision-Language-Action Models
- arxiv url: http://arxiv.org/abs/2606.16253v1
- Date: Mon, 15 Jun 2026 05:55:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-16 16:21:34.101994
- Title: Learned Image Compression for Vision-Language-Action Models
- Title(参考訳): 視覚言語行動モデルのための学習画像圧縮
- Authors: Hyeonjun Kim, Jegwang Ryu, Sangbeom Ha, Junhyeok Lee, Jun-Hyuk Kim, Hyemin Ahn, Jaeho Lee,
- Abstract要約: VLA(Vision-Constrained-action)モデルは、高周波マルチカメラの観測にますます依存している。
既存の画像コーデックとビデオコーデックは、下流VLAポリシーの制御性能よりも、一般的な視覚的忠実性を維持するように設計されている。
VLA駆動ロボットに適した学習画像圧縮フレームワーク(SPatially Adaptive Rate Control)を導入する。
- 参考スコア(独自算出の注目度): 12.831597450089433
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-language-action (VLA) models increasingly rely on high-frequency multi-camera observations, making visual communication a major bottleneck for real-time robotic control in bandwidth-constrained or distributed deployment settings. Existing image and video codecs, however, are designed to preserve generic visual fidelity rather than the control performance of downstream VLA policies. In this work, we introduce SPARC (SPatially Adaptive Rate Control), a learned image compression framework tailored for VLA-driven robots. Our key observation is that the importance of visual information varies substantially across both camera views and spatial regions within an image. Based on this observation, SPARC employs a lightweight temporal mask selector that adaptively allocates bitrate over latent representations according to task relevance while leveraging temporal context. We further introduce a tilted rate loss that stabilizes training by reducing the tendency of entropy-based objectives to over-suppress rare yet task-critical visual patterns. Experiments on diverse robotic benchmarks, including RoboCasa365, VLABench, and LIBERO, show that SPARC consistently achieves stronger control performance than conventional image/video codecs and recent learned compression methods under the same bitrate budget. We additionally demonstrate real-world deployment benefits in remote-control settings, where our method substantially improves the bitrate-success tradeoff.
- Abstract(参考訳): ヴィジュアル・ランゲージ・アクション(VLA)モデルは、高頻度のマルチカメラ観測にますます依存しており、帯域制限や分散配置設定において、視覚コミュニケーションがリアルタイムロボット制御の大きなボトルネックとなっている。
しかし、既存の画像コーデックとビデオコーデックは、下流VLAポリシーの制御性能よりも、一般的な視覚的忠実性を維持するように設計されている。
本稿では,VLA駆動ロボットに適した画像圧縮フレームワークであるSPARC(SPatially Adaptive Rate Control)を紹介する。
我々のキーとなる観察は、画像内のカメラビューと空間領域の両方で視覚情報の重要性が著しく異なることである。
この観測に基づいて、SPARCはタスク関連性に応じてビットレートを適応的に割り当てる軽量の仮面セレクタを採用している。
さらに、エントロピーに基づく目標の傾向を減らし、希少かつタスククリティカルな視覚パターンを過剰に抑制し、トレーニングを安定させる傾斜速度損失を導入する。
RoboCasa365、VLABench、LIBEROなどの多様なロボットベンチマークの実験は、SPARCが従来の画像/ビデオコーデックや最近の学習圧縮手法よりも一貫して強力な制御性能を達成していることを示している。
また,遠隔操作環境における実環境への展開の利点を実証し,ビットレート・サクセストレードオフを大幅に改善する手法を提案する。
関連論文リスト
- D-Compress: Detail-Preserving LiDAR Range Image Compression for Real-Time Streaming on Resource-Constrained Robots [2.6111100616898852]
D-Compressは、リアルタイムストリーミングのための新しいディテール保存と高速レンジ画像圧縮フレームワークである。
最新技術 (SOTA) 圧縮法は, 幾何的精度と下流タスク性能の両方で優れる。
論文 参考訳(メタデータ) (2026-03-14T02:15:25Z) - AnyCamVLA: Zero-Shot Camera Adaptation for Viewpoint Robust Vision-Language-Action Models [33.20237572326132]
デモデータやポリシーの微調整,アーキテクチャの変更を伴わないゼロショットカメラ適応フレームワークを提案する。
私たちのキーとなるアイデアは、テスト時間カメラの観察をリアルタイムで調整し、トレーニングカメラの設定に合わせることです。
このアプローチは、ポリシーの微調整や視覚入力のための3D認識機能にデータ拡張を使用するベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2026-03-06T03:44:23Z) - Benchmarking and Enhancing VLM for Compressed Image Understanding [52.98037879935058]
VLM(Vision-Language Models)は、主に高ビットレート圧縮画像の消化と理解を行う。
低ビットレート圧縮画像の解釈能力はまだ研究されていない。
圧縮画像に対するVLMの能力を評価するための,最初の総合的なベンチマークを導入する。
論文 参考訳(メタデータ) (2025-12-24T02:59:01Z) - MSNeRV: Neural Video Representation with Multi-Scale Feature Fusion [27.621656985302973]
Inlicit Neural representations (INRs) はビデオ圧縮の有望なアプローチとして登場した。
既存のINRベースの手法は、ディテール集約的で高速に変化するビデオコンテンツを効果的に表現するのに苦労する。
ニューラルビデオ表現のためのマルチスケール機能融合フレームワークMSNeRVを提案する。
論文 参考訳(メタデータ) (2025-06-18T08:57:12Z) - FCA2: Frame Compression-Aware Autoencoder for Modular and Fast Compressed Video Super-Resolution [68.77813885751308]
最先端(SOTA)圧縮ビデオ超解像(CVSR)モデルは、長期の推論時間、複雑なトレーニングパイプライン、補助情報への依存など、永続的な課題に直面している。
ハイパースペクトル画像(HSI)とビデオデータの構造的および統計的類似性から着想を得た,効率的でスケーラブルなソリューションを提案する。
提案手法では,計算複雑性を低減し,推論を高速化し,フレーム間の時間情報の抽出を促進する圧縮駆動型次元減少戦略を導入する。
論文 参考訳(メタデータ) (2025-06-13T07:59:52Z) - Plug-and-Play Versatile Compressed Video Enhancement [57.62582951699999]
ビデオ圧縮はファイルのサイズを効果的に削減し、リアルタイムのクラウドコンピューティングを可能にする。
しかし、それは視覚的品質の犠牲となり、下流の視覚モデルの堅牢性に挑戦する。
本稿では,異なる圧縮条件下で動画を適応的に拡張する多言語対応拡張フレームワークを提案する。
論文 参考訳(メタデータ) (2025-04-21T18:39:31Z) - VLA-Cache: Efficient Vision-Language-Action Manipulation via Adaptive Token Caching [23.52474883720957]
VLA(Vision-Language-Action)モデルは、視覚知覚と言語命令から直接のアクション生成を可能にする強力なマルチモーダル推論能力を示している。
本稿では,フレーム間の静的な視覚トークンを適応的にキャッシュ・再利用することにより,計算オーバーヘッドを低減する訓練不要な推論高速化手法であるVLA-Cacheを紹介する。
論文 参考訳(メタデータ) (2025-02-04T09:48:14Z) - GAN-Based Multi-View Video Coding with Spatio-Temporal EPI
Reconstruction [19.919826392704472]
GAN(Generative Adrial Network)の画像生成機能を活用した新しい多視点ビデオ符号化手法を提案する。
エンコーダでは,時空間平面画像(EPI)デコーダを構築し,さらに畳み込みネットワークを用いてGANの潜時符号をサイド情報(SI)として抽出する。
側面では、SIと隣接する視点を組み合わせて、GANジェネレータを用いて中間ビューを再構築する。
論文 参考訳(メタデータ) (2022-05-07T08:52:54Z) - Long-Short Temporal Contrastive Learning of Video Transformers [62.71874976426988]
ビデオのみのデータセットにおけるビデオトランスフォーマーの自己教師付き事前トレーニングは、大規模画像データセットでの教師付き事前トレーニングで得られたものよりも、同等以上のアクション認識結果につながる可能性がある。
我々の手法は、長短時空間コントラスト学習(Long-Short Temporal Contrastive Learning)と呼ばれ、ビデオトランスフォーマーが、より長い時間的範囲から捉えた時間的文脈を予測することによって、効果的なクリップレベルの表現を学習することを可能にする。
論文 参考訳(メタデータ) (2021-06-17T02:30:26Z) - An Emerging Coding Paradigm VCM: A Scalable Coding Approach Beyond
Feature and Signal [99.49099501559652]
Video Coding for Machine (VCM)は、視覚的特徴圧縮と古典的なビデオ符号化のギャップを埋めることを目的としている。
我々は,学習した動きパターンのガイダンスを用いて,映像フレームを再構成するために条件付き深層生成ネットワークを用いる。
予測モデルを介してスパース動作パターンを抽出することを学ぶことにより、特徴表現をエレガントに活用し、符号化されたフレームの外観を生成する。
論文 参考訳(メタデータ) (2020-01-09T14:18:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。