論文の概要: Offline Reinforcement Learning for Plasma Control in Nuclear Fusion: Codebase and Benchmark
- arxiv url: http://arxiv.org/abs/2606.07550v1
- Date: Tue, 19 May 2026 14:09:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-15 07:09:36.708781
- Title: Offline Reinforcement Learning for Plasma Control in Nuclear Fusion: Codebase and Benchmark
- Title(参考訳): 核融合におけるプラズマ制御のためのオフライン強化学習:コードベースとベンチマーク
- Authors: Yang Fu, Haomin Bao, Rohit Sonker, Xiaoyan Hu, Aravind Venugopal, Jeff Schneider, Jiayu Chen,
- Abstract要約: 核融合におけるプラズマ制御のためのオフライン強化学習ベンチマークRL4Fを紹介する。
RL4Fは、4つの完全追跡タスクのクローズドループ評価環境とベースライン比較を提供する。
我々は、統一されたプロトコルの下で、模倣学習とオフラインRLベースラインの幅広いセットを評価する。
- 参考スコア(独自算出の注目度): 25.41253331826036
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Offline reinforcement learning (RL) offers a promising route for developing plasma controllers from historical tokamak data, since online trial-and-error on real devices is costly and risky. However, progress in this direction remains difficult to measure due to the lack of a standardized offline RL benchmark for realistic multi-actuator, long-horizon plasma control problems in nuclear fusion. We introduce RL4F, an Offline Reinforcement Learning Benchmark for Plasma Control in Nuclear Fusion, providing closed-loop evaluation environments and baseline comparisons across four full-profile tracking tasks: rotation, density, temperature, and pressure. The dynamics function underlying the evaluation environment is built from historical discharge data from DIII-D, a real-world Tokamak. We evaluate a broad set of imitation learning and offline RL baselines under a unified protocol. We find that offline model-based RL methods obtain the best average performance on most objectives, although no single method dominates all tasks, highlighting the importance of dynamics modeling in complex, long-horizon plasma control tasks. To foster further research, we open-source the codebase, datasets, and evaluation framework, providing a benchmark not only for the fusion community but also for algorithm development in offline RL.
- Abstract(参考訳): オフライン強化学習(RL)は、実際のデバイスでのオンライン試行錯誤が高価でリスクが高いため、歴史的トカマクデータからプラズマコントローラを開発するための有望なルートを提供する。
しかし、この方向の進行は、核融合における現実的なマルチアクチュエーター、長距離プラズマ制御問題に対する標準のオフラインRLベンチマークが欠如しているため、測定が難しいままである。
核融合におけるプラズマ制御のためのオフライン強化学習ベンチマークであるRL4Fを導入し, 回転, 密度, 温度, 圧力の4つの追従タスクのクローズドループ評価環境とベースライン比較を行った。
評価環境の基盤となる力学関数は、実世界のトカマクであるDIII-Dの歴史的放電データから構築される。
我々は、統一されたプロトコルの下で、模倣学習とオフラインRLベースラインの幅広いセットを評価する。
オフラインモデルに基づくRL法は, 単一手法ではすべてのタスクが支配的ではないが, 複雑な長軸プラズマ制御タスクにおける動的モデリングの重要性が強調されている。
さらなる研究を促進するため、コードベース、データセット、評価フレームワークをオープンソース化し、融合コミュニティだけでなく、オフラインのRLにおけるアルゴリズム開発のためのベンチマークを提供しました。
関連論文リスト
- Offline Reinforcement Learning for Rotation Profile Control in Tokamaks [9.641882418424712]
トカマクは、実際の核融合エネルギーを達成するための主要な候補であり続けているが、これらのデバイス内の重要な制御問題は、いまだに難しいか未解決のままである。
そのような課題の1つは、安定性、閉じ込め、輸送に強く影響を及ぼすプラズマ回転プロファイルを制御することである。
強化学習(RL)のような学習に基づく制御手法は、この課題に対する潜在的な解決策を提供する。
論文 参考訳(メタデータ) (2026-05-07T08:26:59Z) - MOORL: A Framework for Integrating Offline-Online Reinforcement Learning [6.7265073544042995]
オフラインおよびオンライン学習を統合するハイブリッドフレームワークであるMOORL(Meta Offline-Online Reinforcement Learning)を提案する。
提案手法は,オフラインデータとオンラインデータの相補的強みを効果的に組み合わせることで,探索の促進を図っている。
計算オーバーヘッドが最小限であるMOORLは、実世界のシナリオにおける実用的な応用の可能性を強調し、高い性能を達成する。
論文 参考訳(メタデータ) (2025-06-11T10:12:50Z) - NeoRL-2: Near Real-World Benchmarks for Offline Reinforcement Learning with Extended Realistic Scenarios [8.93878940046993]
オフライン強化学習は、環境へのアクセスを(コスト的に)必要とせずに、歴史的なデータから学習することを目的としている。
このベンチマークは、7つのシミュレートされたタスクから7つのデータセットと、対応する評価シミュレータで構成されている。
我々はNeoRL-2が現実世界のアプリケーションのための強化学習アルゴリズムの開発を加速することを期待している。
論文 参考訳(メタデータ) (2025-03-25T02:01:54Z) - D5RL: Diverse Datasets for Data-Driven Deep Reinforcement Learning [99.33607114541861]
ロボット操作と移動環境の現実的なシミュレーションに焦点を当てたオフラインRLのための新しいベンチマークを提案する。
提案するベンチマークでは、状態ベースドメインと画像ベースドメインを対象とし、オフラインRLとオンライン微調整評価の両方をサポートしている。
論文 参考訳(メタデータ) (2024-08-15T22:27:00Z) - Offline Trajectory Optimization for Offline Reinforcement Learning [42.306438854850434]
オフライン強化学習は オンライン調査なしで 政策を学ぶことを目的としています
オフラインRLのための既存のデータ拡張手法は、(i)短期水平シミュレーションによる自明な改善に悩まされている。
オフライン強化学習(OTTO)のためのオフライン軌道最適化を提案する。
論文 参考訳(メタデータ) (2024-04-16T08:48:46Z) - Behavioral Priors and Dynamics Models: Improving Performance and Domain
Transfer in Offline RL [82.93243616342275]
適応行動優先型オフラインモデルに基づくRL(Adaptive Behavioral Priors:MABE)を導入する。
MABEは、ドメイン内の一般化をサポートする動的モデルと、ドメイン間の一般化をサポートする振る舞いの事前が相補的であることの発見に基づいている。
クロスドメインの一般化を必要とする実験では、MABEが先行手法より優れていることが判明した。
論文 参考訳(メタデータ) (2021-06-16T20:48:49Z) - RL Unplugged: A Suite of Benchmarks for Offline Reinforcement Learning [108.9599280270704]
オフラインのRL手法を評価・比較するためのRL Unpluggedというベンチマークを提案する。
RL Unpluggedにはゲームやシミュレートされたモーター制御問題を含むさまざまな領域のデータが含まれている。
本論文で提示した全タスクのデータと,全アルゴリズムをオープンソースとして公開する。
論文 参考訳(メタデータ) (2020-06-24T17:14:51Z) - MOReL : Model-Based Offline Reinforcement Learning [49.30091375141527]
オフライン強化学習(RL)では、環境との歴史的相互作用のデータセットのみに基づく高報酬政策を学習することが目的である。
モデルベースオフラインRLのためのアルゴリズムフレームワークMOReLを提案する。
オフラインRLベンチマークにおいてMOReLが最先端の結果と一致するか,あるいは超えるかを示す。
論文 参考訳(メタデータ) (2020-05-12T17:52:43Z) - D4RL: Datasets for Deep Data-Driven Reinforcement Learning [119.49182500071288]
オフラインRLのリアルタイムアプリケーションに関連するデータセットのキープロパティによってガイドされるオフライン設定用に特別に設計されたベンチマークを紹介する。
部分的に訓練されたRLエージェントによって収集された単純なベンチマークタスクやデータを超えて、既存のアルゴリズムの重要かつ未承認な欠陥を明らかにする。
論文 参考訳(メタデータ) (2020-04-15T17:18:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。