論文の概要: FlowR2A: Learning Reward-to-Action Distribution for Multimodal Driving Planning
- arxiv url: http://arxiv.org/abs/2606.24231v1
- Date: Tue, 23 Jun 2026 07:21:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-24 22:16:48.819413
- Title: FlowR2A: Learning Reward-to-Action Distribution for Multimodal Driving Planning
- Title(参考訳): FlowR2A:マルチモーダル運転計画のためのリワード・ツー・アクションの学習
- Authors: Xirui Li, Zhe Liu, Xiaoqing Ye, Wenhua Han, Yifeng Pan, Junyu Han, Hengshuang Zhao,
- Abstract要約: FlowR2Aは、スコアリングに基づく手法の厳密な監督と、単一の生成モデルによるアンカーベースの手法の提案を統一する。
ソフトプログレッシブ目標に対するハードセーフティ制約のバランスをとるために, 微粒度毎の報奨条件と報奨雑音の増大を導入する。
生成形式は、報酬誘導と固定サンプリングによる制御可能なテスト時間サンプリングをサポートし、高品質な提案を生成する。
- 参考スコア(独自算出の注目度): 63.80677039120727
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal driving planning faces a long-standing tension between two paradigms: scoring-based methods benefit from dense reward supervision but are confined to a fixed action vocabulary, while anchor-based methods generate proposals dynamically yet suffer from sparse supervision constrained to a single ground-truth trajectory. In this work, we propose FlowR2A, which resolves this tension by reframing simulation-based rewards from discriminative targets into generative conditions. By learning the reward-conditioned action distribution from dense trajectory-reward pairs with a flow-matching decoder, FlowR2A unifies the dense supervision of scoring-based methods with the proposal generation of anchor-based methods in a single generative model, forcing the model to internalize the correlation between an action and its outcomes in safety, progress, comfort, and rule compliance. To balance hard safety constraints against soft progress objectives, we introduce fine-grained per-timestep reward conditioning and reward noise augmentation. The generative formulation naturally supports controllable test-time sampling via reward guidance and anchored sampling, producing high-quality proposals. FlowR2A achieves state-of-the-art results on the NAVSIM v1 and v2 benchmarks, with multimodal proposals of substantially higher quality than prior methods.
- Abstract(参考訳): スコアベース手法は厳密な報酬監督の恩恵を受けるが、固定された行動語彙に制限される一方、アンカーベース手法は動的に提案を生成するが、1つの地平線軌道に制約された緩やかな監督に悩まされる。
本研究では,識別対象から得られるシミュレーションに基づく報酬を生成条件に変換することで,この緊張を解消するFlowR2Aを提案する。
フローマッチングデコーダを用いた高密度トラジェクトリ・リワード対から報酬条件付き動作分布を学習することにより、フローR2Aは、スコアベースの手法を単一の生成モデルで提案したアンカーベースの手法と統合し、モデルに安全、進歩、快適、規則遵守の相関関係を内部化させる。
ソフトプログレッシブ目標に対するハードセーフティ制約のバランスをとるために, 微粒度毎の報奨条件と報奨雑音の増大を導入する。
生成形式は、報酬誘導と固定サンプリングによる制御可能なテスト時間サンプリングをサポートし、高品質な提案を生成する。
FlowR2A は NAVSIM v1 と v2 のベンチマークで最先端の結果を達成し、従来の方法よりもかなり高い品質のマルチモーダルな提案を行う。
関連論文リスト
- Generative Actor-Critic with Soft Bridge Policies [19.121990264725028]
効果的なソフト生成ポリシーの訓練は、しばしば一緒に起こる2つの障害に直面します。
第一に、端的な作用密度はしばしば利用できないので、既存の方法は通常エントロピー境界、プロキシ、近似に依存する。
これらの障害は、単一のサンプル化されたアクターフォワードパスのみをアクション生成に必要としながら、抽出可能なMaxEnt目標を公開する生成ポリシーを求める動機となります。
論文 参考訳(メタデータ) (2026-05-09T06:36:32Z) - FAVE: Flow-based Average Velocity Establishment for Sequential Recommendation [33.3202615024807]
本稿では,フローベース平均速度設定(Fave)フレームワークを提案する。
Faveは、ターゲット分布の前に情報提供者から直接軌跡を学習する。
3つのベンチマークの実験では、Faveは最先端のレコメンデーションパフォーマンスを達成するだけでなく、推論効率のオーダー・オブ・マグニチュードの改善も実現している。
論文 参考訳(メタデータ) (2026-04-06T05:17:43Z) - OmniVL-Guard: Towards Unified Vision-Language Forgery Detection and Grounding via Balanced RL [63.388513841293616]
既存の偽造検出手法は、現実世界の誤報に多いインターリーブされたテキスト、画像、ビデオを扱うのに失敗する。
このギャップを埋めるため,本論文では,オムニバス・ビジョン言語による偽造検出と接地のための統一フレームワークの開発を目標としている。
我々は、OmniVL-Guardという、オムニバス視覚言語による偽造検出と接地のためのバランスの取れた強化学習フレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-11T09:41:36Z) - A Unified Density Operator View of Flow Control and Merging [37.902481322917396]
本稿では,制約ケースとして仮定し,報酬誘導型フローマージを可能にする統一確率空間フレームワークを提案する。
また、リワードガイドフローマージング(RFM)を導入し、報酬誘導フローマージングを標準的な微調整問題に還元するミラー発光方式を提案する。
RFMによる報酬誘導と純フローマージの第一種理論的保証を提供する。
論文 参考訳(メタデータ) (2026-02-08T15:27:28Z) - Euphonium: Steering Video Flow Matching via Process Reward Gradient Guided Stochastic Dynamics [49.242224984144904]
本稿では,プロセス報酬勾配誘導ダイナミクスによる生成を支援する新しいフレームワークであるEuphoniumを提案する。
我々の重要な洞察は、プロセス・リワード・モデルの勾配を明示的に組み込んだ理論的に原理化されたアルゴリズムとしてサンプリング・プロセスを定式化することである。
我々は,誘導信号をフローネットワークに内部化する蒸留目標を導出し,報奨モデルへの推論時間依存性を排除した。
論文 参考訳(メタデータ) (2026-02-04T08:59:57Z) - DenseGRPO: From Sparse to Dense Reward for Flow Matching Model Alignment [49.45064510462232]
テキスト・画像生成のためのGRPOベースのアプローチは、スパース報酬問題に悩まされる。
textbfDenseGRPOは、人間の好みと深い報酬を一致させる新しいフレームワークである。
論文 参考訳(メタデータ) (2026-01-28T03:39:05Z) - G$^2$RPO: Granular GRPO for Precise Reward in Flow Models [74.21206048155669]
本稿では,サンプリング方向の高精度かつ包括的な報酬評価を実現する新しいグラニュラー-GRPO(G$2$RPO)フレームワークを提案する。
複数の拡散スケールで計算された利点を集約するマルチグラニュラリティ・アドバンテージ・インテグレーション・モジュールを導入する。
G$2$RPOは既存のフローベースGRPOベースラインを著しく上回る。
論文 参考訳(メタデータ) (2025-10-02T12:57:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。