論文の概要: DF-ExpEnse: Diffusion Filtered Exploration for Sample Efficient Finetuning
- arxiv url: http://arxiv.org/abs/2606.19656v1
- Date: Wed, 17 Jun 2026 23:40:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-19 18:23:39.581391
- Title: DF-ExpEnse: Diffusion Filtered Exploration for Sample Efficient Finetuning
- Title(参考訳): DF-ExpEnse:Diffusion Filtered Exploration for Sample Efficient Finetuning
- Authors: Calvin Luo, Chen Sun, Shuran Song,
- Abstract要約: DF-ExpEnseは、オンラインエクスペリエンスコレクションの品質を改善する探索技術である。
DF-ExpEnseによる一貫したサンプル効率の利点を様々な操作や移動タスクで実験的に検証した。
- 参考スコア(独自算出の注目度): 24.64608078834848
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A natural recipe for intelligent robotic decision-making is initializing from pretrained generative control policies, which have summarized offline experience, and adapting them to self-collected online experience. We present DF-ExpEnse, an exploration technique that improves the quality of online experience collection, thus increasing finetuning sample-efficiency. DF-ExpEnse leverages the multimodal modeling capabilities of the generative control policy to create an expressive and tractably evaluatable candidate set. It then utilizes an ensemble of critics to identify the action that best balances quality with high exploration interest. In fleet settings, DF-ExpEnse further enables cross-agent communication to facilitate collaborative exploration as a group. DF-ExpEnse can be seamlessly integrated with existing strategies that finetune pretrained generative control policies via reinforcement learning. We experimentally validate consistent sample-efficiency benefits through DF-ExpEnse across a variety of manipulation and locomotion tasks, compared to default finetuning and alternative action selection schemes. Project can be found at https://df-expense.github.io.
- Abstract(参考訳): インテリジェントなロボット意思決定のための自然なレシピは、オフライン体験を要約した事前訓練された生成制御ポリシーから初期化し、自己コンパイルされたオンライン体験に適応させることである。
DF-ExpEnseは,オンライン体験収集の質を向上し,サンプル効率を向上する探索手法である。
DF-ExpEnseは、生成制御ポリシーのマルチモーダルモデリング機能を活用して、表現的かつ抽出可能な候補セットを作成する。
その後、批評家の集まりを利用して、高品質と高い調査利益のバランスをとる行動を特定する。
艦隊設定では、DF-ExpEnseはさらに、グループとしての協力的な探索を容易にするために、エージェント間の通信を可能にする。
DF-ExpEnseは、強化学習を通じて事前学習した生成制御ポリシーを微調整する既存の戦略とシームレスに統合することができる。
DF-ExpEnseによる一貫したサンプル効率の利点を、デフォルトのファインタニングや代替のアクション選択方式と比較して、様々な操作や移動タスクにわたって実験的に検証した。
プロジェクトはhttps://df-expense.github.ioで見ることができる。
関連論文リスト
- E$^2$DT: Efficient and Effective Decision Transformer with Experience-Aware Sampling for Robotic Manipulation [12.326967455610536]
Decision Transformer (DT) は、長期タスクに対処するための効果的なフレームワークとして登場した。
E$2$DTはDT誘導k-Determinantal Point Processサンプリングフレームワークである。
私たちのフレームワークはエクスペリエンスを意識しており、E$2$DTの両方を効率的にできます。
論文 参考訳(メタデータ) (2026-04-30T19:28:44Z) - Reparameterization Flow Policy Optimization [35.59197802340267]
フローポリシーは、差別化可能なODE統合を通じてアクションを生成する。
RFOは、フロー生成プロセスとシステムダイナミクスを共同でバックプロパゲーションすることで、ポリシー勾配を計算する。
RFOは最先端のベースラインの報酬として約2ドルを達成している。
論文 参考訳(メタデータ) (2026-02-03T13:22:08Z) - VADE: Variance-Aware Dynamic Sampling via Online Sample-Level Difficulty Estimation for Multimodal RL [38.782188833641676]
GRPOやGSPOのようなグループベースのポリシー最適化手法は、マルチモーダルモデルのトレーニングの標準となっている。
グループ内のすべての応答が同じ報酬を受けると、それらは致命的な急激な消滅問題に悩まされる。
textbfVADEは,オンラインサンプルレベルの難易度を用いたサンプリングフレームワークである。
論文 参考訳(メタデータ) (2025-11-24T08:59:54Z) - Compose Your Policies! Improving Diffusion-based or Flow-based Robot Policies via Test-time Distribution-level Composition [52.232968183793986]
General Policy Composition (GPC) は、複数の事前学習されたポリシーの分布スコアを組み合わせることで、パフォーマンスを向上させる訓練のない手法である。
GPCは、さまざまなタスクセットにおけるパフォーマンスと適応性を一貫して改善します。
論文 参考訳(メタデータ) (2025-10-01T16:05:53Z) - A Tale of Two Experts: Cooperative Learning for Source-Free Unsupervised Domain Adaptation [59.88864205383671]
Source-Free Unsupervised Domain Adaptation (SFUDA)は、ソースデータにアクセスすることなく、ターゲットドメインにソース学習モデルを適用するという現実的な課題に対処する。
既存のSFUDA手法は、ソースモデルの予測のみを利用するか、大きなマルチモーダルモデルを微調整する。
本稿では、補完的な洞察と対象データの潜在構造を利用するためのエキスパート協調学習(EXCL)を提案する。
論文 参考訳(メタデータ) (2025-09-26T11:39:50Z) - TGRPO :Fine-tuning Vision-Language-Action Model via Trajectory-wise Group Relative Policy Optimization [12.061547251822326]
Trajectory-based Group Relative Policy Optimization (TGRPO)は、Visual-Language-Action(VLA)モデルのためのオンラインRLベースのトレーニングフレームワークである。
TGRPOの平均成功率は80.7%で、これはスーパーバイザードファインチューニング(SFT)よりも4.2%高く、他の代表的RLベースのポストトレーニング手法よりも優れていた。
論文 参考訳(メタデータ) (2025-06-10T04:27:49Z) - Adaptive teachers for amortized samplers [76.88721198565861]
そこで,本研究では,初等無罪化標本作成者(学生)の指導を指導する適応的学習分布(教師)を提案する。
本研究では, この手法の有効性を, 探索課題の提示を目的とした合成環境において検証する。
論文 参考訳(メタデータ) (2024-10-02T11:33:13Z) - Robot Fleet Learning via Policy Merging [58.5086287737653]
我々はFLEET-MERGEを提案し、艦隊設定における政策を効率的にマージする。
本稿では,FLEET-MERGEがメタワールド環境における50のタスクで訓練されたポリシーの行動を統合することを示す。
合成・接触に富んだロボット操作タスクにおけるフリートポリシー学習のための新しいロボットツール用ベンチマークであるFLEET-TOOLSを導入する。
論文 参考訳(メタデータ) (2023-10-02T17:23:51Z) - Supervised Pretraining Can Learn In-Context Reinforcement Learning [96.62869749926415]
本稿では,意思決定問題における変換器の文脈内学習能力について検討する。
本稿では,変換器が最適動作を予測する教師付き事前学習法であるDPT(Decision-Pretrained Transformer)を導入,研究する。
事前学習した変換器は、オンラインと保守主義の両方をオフラインで探索することで、コンテキスト内における様々なRL問題の解決に利用できる。
論文 参考訳(メタデータ) (2023-06-26T17:58:50Z) - Reinforced Data Sampling for Model Diversification [15.547681142342846]
本稿では,データを適切にサンプリングする方法を学ぶための新しいReinforced Data Smpling (RDS)法を提案する。
モデルダイバーシフィケーションの最適化問題である$delta-div$をデータサンプリングで定式化し,モデルダイバーシフィケーションを注入することで学習ポテンシャルと最適アロケーションを最大化する。
モデル多様化のためのトレーニング可能なサンプリングは,各種機械学習タスクの潜在能力を追求する競技組織,研究者,さらには開始者にとって有用であることが示唆された。
論文 参考訳(メタデータ) (2020-06-12T11:46:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。