論文の概要: Planning-aligned Token Compression for Long-Context Autonomous Driving
- arxiv url: http://arxiv.org/abs/2606.07464v1
- Date: Fri, 05 Jun 2026 17:16:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-08 14:33:29.863327
- Title: Planning-aligned Token Compression for Long-Context Autonomous Driving
- Title(参考訳): 長期自動運転のための計画整列型トーケン圧縮
- Authors: Zhixuan Liang, Yuxiao Chen, Yurong You, Peter Karkus, Wenhao Ding, Boyi Li, Alexander Popov, Yan Wang, Maximilian Igl, Yiming Li, Danfei Xu, Nikolai Smolyanskiy, Boris Ivanovic, Ping Luo, Marco Pavone,
- Abstract要約: 条件付きVQ-VA上に構築した計画整合型ワーキングメモリフレームワークを提案する。
圧縮は歴史的軌跡と学習した計画意図の両方で条件付けられている。
歴史的文脈が行動の正確性に最も重要となる高信号動的シナリオについて評価する。
- 参考スコア(独自算出の注目度): 95.59023657139208
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Monolithic vision-action models represent an emerging paradigm in autonomous driving. However, this architecture produces token sequences that quickly exceed real-time computational budgets when encoding extended temporal context for complex interactions. While approaches like linear transformers and external memory try to make the context lightweight, token compression is most compatible with the architecture as it requires no backbone modifications. Yet existing compression adopts rule-based heuristics like temporal decay, decoupled from planning, risking loss of decision-critical information. We propose COMPACT-VA, a planning-aligned working memory framework built on conditional VQ-VAE, compressing extended context into bounded representations. Compression is conditioned on both historical trajectory and a learned planning intent that the posterior encoder distills from future trajectories during training, while the prior encoder learns to predict it from compressed observations. The compressed memory, concatenated with the predicted latent, feeds the policy for end-to-end optimization, planning with retained decision-critical information. We evaluate on high-signal dynamic scenarios where historical context is most critical for behavior correctness (e.g., stop, yield, or proceed), and accordingly design behavioral metrics. Under comparable token budgets, we achieve $>$6% improvement (68.3%) on success rates with consistent gains across metrics. Ablations validate planning-aligned coupling effectiveness. Closed-loop evaluation confirms that COMPACT-VA maintained general driving performance with 3.3* speedup and 2.7* memory reduction over uncompressed processing.
- Abstract(参考訳): モノリシックなビジョンアクションモデルは、自律運転における新たなパラダイムを表している。
しかし、このアーキテクチャは、複雑な相互作用のための拡張時間コンテキストを符号化する際に、リアルタイムの計算予算を迅速に超過するトークンシーケンスを生成する。
線形変換器や外部メモリのようなアプローチはコンテキストを軽量化しようとするが、トークン圧縮はバックボーンの変更を必要としないため、アーキテクチャと最も互換性がある。
しかし、既存の圧縮では、時間的減衰のようなルールに基づくヒューリスティックを採用しており、計画から切り離され、決定クリティカルな情報の喪失のリスクがある。
我々は,条件付きVQ-VAE上に構築された計画整合型ワーキングメモリフレームワークCompact-VAを提案し,拡張コンテキストを有界表現に圧縮する。
圧縮は、過去の軌跡と、後部エンコーダが訓練中に将来の軌跡から蒸留する学習計画意図の両方で条件付けられ、一方、前部エンコーダは圧縮された観測からそれを予測することを学ぶ。
圧縮されたメモリは予測された遅延と結合し、決定クリティカルな情報を保持するように、エンドツーエンドの最適化のためのポリシーを提供する。
歴史的文脈が行動の正しさ(例えば、停止、収量、進行)に最も重要であり、それに従って行動メトリクスを設計する高信号動的シナリオについて評価する。
同等のトークン予算の下では、メトリクス間で一貫した利得を持つ成功率において、6%以上の改善(68.3%)を達成しています。
アブレーションは計画整合結合の有効性を検証する。
閉ループ評価では、Compact-VAは圧縮されていない処理よりも3.3*の高速化と2.7*のメモリ削減で一般的な駆動性能を維持していた。
関連論文リスト
- ARKV: Adaptive and Resource-Efficient KV Cache Management under Limited Memory Budget for Long-Context Inference in LLMs [1.1267872663780352]
大規模言語モデル(LLM)は、超長期のコンテキスト推論を必要とするシナリオにますますデプロイされている。
既存のメモリ削減技術、例えば消去や量子化は、しばしば静的キャッシュに依存している。
キャッシュされたトークンに精度レベルを動的に割り当てる軽量で適応的なフレームワークARKVを提案する。
論文 参考訳(メタデータ) (2026-02-19T16:24:08Z) - Dynamic Long Context Reasoning over Compressed Memory via End-to-End Reinforcement Learning [47.87361916374891]
本稿では,チャンクワイズ圧縮と選択的メモリリコールに基づく,効率的な長文推論のためのフレームワークを提案する。
このフレームワークは、長い入力をチャンクに分割し、各チャンクを学習圧縮機を用いて圧縮されたメモリ表現に符号化する。
ピークGPUメモリ使用量の最大2倍の削減と,MemAgent上での6倍の推論高速化を実現している。
論文 参考訳(メタデータ) (2026-02-09T08:33:11Z) - DeltaKV: Residual-Based KV Cache Compression via Long-Range Similarity [50.52392445266824]
そこで本稿では,KV表現における長距離間類似性と高共有遅延成分を動機とする残差ベースのKVキャッシュ圧縮フレームワークを提案する。
DeltaKVはトークンを捨てる代わりに、検索した履歴参照に対するセマンティックな残基をエンコードし、保存を著しく削減する。
実験によると、DeltaKVは、LongBench、SCBench、AIMEでほぼロスレスの精度を維持しながら、KVキャッシュメモリを元の29%に削減している。
論文 参考訳(メタデータ) (2026-02-08T15:14:36Z) - Training-free Context-adaptive Attention for Efficient Long Context Modeling [57.703159205740185]
トレーニングフリーコンテキスト適応注意(TCA-Attention)は、学習不要なスパースアテンション機構であり、効率的な長文推論のための情報トークンのみに選択的に参画する。
TCA-Attentionは2.8$times$のスピードアップを実現し、128Kのコンテキスト長でKVキャッシュを61%削減し、フルアテンションに匹敵するパフォーマンスを維持している。
論文 参考訳(メタデータ) (2025-12-10T01:54:57Z) - Rethinking Autoregressive Models for Lossless Image Compression via Hierarchical Parallelism and Progressive Adaptation [75.58269386927076]
自己回帰(AR)モデルは、しばしば計算コストの禁止のために非現実的に除外される。
この研究は、階層的並列性とプログレッシブ適応に基づくフレームワークを導入して、このパラダイムを再考する。
各種データセット(自然,衛星,医療)の実験により,本手法が新たな最先端圧縮を実現することを確認した。
論文 参考訳(メタデータ) (2025-11-14T06:27:58Z) - PPMStereo: Pick-and-Play Memory Construction for Consistent Dynamic Stereo Matching [51.98089287914147]
textbfPick-and-textbflay textbfMemory (PM) construction module for dynamic bfStereo matching, called bftextPPMStereo。
bftextPPMStereo と呼ばれる動的 bfStereo マッチングのための textbfPick-and-textbflay textbfMemory (PM) 構築モジュールを提案する。
論文 参考訳(メタデータ) (2025-10-23T03:52:39Z) - CompGS++: Compressed Gaussian Splatting for Static and Dynamic Scene Representation [60.712165339762116]
CompGS++はコンパクトガウスプリミティブを活用して正確な3Dモデリングを実現する新しいフレームワークである。
私たちの設計は、プリミティブ間の冗長性をなくすという原則に基づいている。
私たちの実装は、さらなる研究を促進するためにGitHubで公開されます。
論文 参考訳(メタデータ) (2025-04-17T15:33:01Z) - Context Compression for Auto-regressive Transformers with Sentinel
Tokens [37.07722536907739]
本稿では,特定のトークンの中間活性化をコンパクトに段階的に圧縮できるプラグイン・アンド・プレイ方式を提案する。
ドメイン内言語モデリングとゼロショットオープンエンド文書生成の両方の実験は、我々のアプローチの利点を実証している。
論文 参考訳(メタデータ) (2023-10-12T09:18:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。