論文の概要: Supervised Reinforcement Learning for the Coordination of Distributed Energy Resources
- arxiv url: http://arxiv.org/abs/2606.24947v1
- Date: Tue, 23 Jun 2026 07:17:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-25 17:05:30.065028
- Title: Supervised Reinforcement Learning for the Coordination of Distributed Energy Resources
- Title(参考訳): 分散型エネルギー資源調整のための強化学習
- Authors: Haoyuan Deng, Yihong Zhou, Thomas Morstyn, Yi Wang,
- Abstract要約: 本稿では,DER調整政策を学習するための改良強化学習フレームワークを提案する。
実験により、提案したフレームワークに基づくRL実装は、すべてのベンチマークを著しく上回っていることが示された。
- 参考スコア(独自算出の注目度): 2.215175726710617
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The increasing integration of distributed energy resources (DERs) is crucial for power system decarbonization, yet unlocking DERs' flexibility is challenged by their inherent uncertainties and modelling complexity. As traditional optimization methods struggle with such uncertainty and complexity of DERs, reinforcement learning (RL) has emerged as a promising alternative for DER management. However, standard RL methods suffer from sample inefficiency and sub-optimality when trained from scratch. Inspired by the training paradigms in large language models, this paper proposes a Supervised Reinforcement Learning (SRL) framework for learning DER coordination policies. This framework first pre-trains a policy on demonstration data in a supervised-learning fashion, which is then further fine-tuned using RL. Furthermore, we propose a two-step fine-tuning process: offline fine-tuning for enhancing policy performance and online fine-tuning for adapting it to the real-world dynamics. Experiments demonstrate that RL implementations based on the proposed framework significantly outperform all benchmarks, achieving high cost efficiency even under low-quality demonstration data.
- Abstract(参考訳): 分散型エネルギー資源(DER)の統合の増大は、電力系統の脱炭に不可欠であるが、DERの柔軟性の解放は、その固有の不確かさとモデル化の複雑さによって困難である。
従来の最適化手法がDERの不確実性と複雑性に苦しむ中、強化学習(RL)がDERマネジメントの有望な代替手段として登場した。
しかし、標準RL法は、スクラッチからトレーニングした場合、サンプルの非効率性とサブ最適性に悩まされる。
大規模言語モデルにおける学習パラダイムに着想を得た本論文では,DER調整ポリシーを学習するためのSRL(Supervised Reinforcement Learning)フレームワークを提案する。
このフレームワークは、まず教師付き学習方式で実証データに関するポリシーを事前訓練し、さらにRLを用いて微調整する。
さらに,政策性能向上のためのオフラインファインチューニングと,現実のダイナミックスに適応するためのオンラインファインチューニングという2段階のファインチューニングプロセスを提案する。
実験により,提案したフレームワークに基づくRL実装は,低品質な実演データでも高いコスト効率が得られるという結果を得た。
関連論文リスト
- Beyond One-Size-Fits-All: Diagnosis-Driven Online Reinforcement Learning with Offline Priors [59.11261091345906]
現場は診断駆動型緊張管理に移行すべきだと我々は主張する。そこでは、デプロイ固有のエビデンスによって、学習者がトレーニングを通じてその先行とどのように関連しているかが示され、柔軟かつ適応的な展開を可能にする。
我々は,3つの機能的役割によるオンライン最適化の作り直し,ヘルプ・オー・ハート・リバーサルの実証実験の制御,基礎モデルのポストトレーニングから具体化インテリジェンスへのクロスドメインエビデンス,そして5つの実質的対策との関わりを特徴とする枠組みで,この立場を支持する。
論文 参考訳(メタデータ) (2026-06-24T08:05:28Z) - IPD: Boosting Sequential Policy with Imaginary Planning Distillation in Offline Reinforcement Learning [13.655904209137006]
オフラインプランニングをデータ生成,教師付きトレーニング,オンライン推論にシームレスに組み込む新しいフレームワークである textbfImaginary Planning Distillation (IPD) を提案する。
まず,オフラインデータから不確実性対策と準最適値関数を備えた世界モデルを学習する。
従来の手動で調整した戻り値関数を準最適値関数に置き換えることで、IDDは推論時の意思決定安定性と性能を改善する。
論文 参考訳(メタデータ) (2026-03-04T17:05:39Z) - MENTOR: A Reinforcement Learning Framework for Enabling Tool Use in Small Models via Teacher-Optimized Rewards [8.645370827540996]
大規模言語モデル (LLM) のツール使用能力をより小さく、より効率的な小言語モデル (SLM) に拡張することは、実用上の重要な課題である。
教師付き微調整(英語版)(SFT)は、堅牢な方法論を学ぶのではなく、静的な教師軌跡のセットを模倣するようにモデルを訓練するので、一般化に苦しむ。
本稿では,強化学習と教師誘導蒸留を組み合わせたフレームワークであるMENTORを提案する。
論文 参考訳(メタデータ) (2025-10-21T08:03:14Z) - Reinforcement Learning with Discrete Diffusion Policies for Combinatorial Action Spaces [57.466101098183884]
強化学習(Reinforcement Learning, RL)は、現実の多くの問題に共通する大規模なアクション空間にスケールするために苦労する。
本稿では、複雑な環境下での高効率なポリシーとして、離散拡散モデルを訓練するための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-26T21:53:36Z) - Diffusion Guidance Is a Controllable Policy Improvement Operator [98.11511661904618]
CFGRLは教師付き学習の単純さで訓練されているが、データ内のポリシーをさらに改善することができる。
オフラインのRLタスクでは、信頼性の高いトレンドが観察されます -- ガイダンスの重み付けの増加によって、パフォーマンスが向上します。
論文 参考訳(メタデータ) (2025-05-29T14:06:50Z) - Policy-Driven World Model Adaptation for Robust Offline Model-based Reinforcement Learning [6.189693079685375]
オフラインモデルベースRL(MBRL)は、静的データセットからワールドモデルを明示的に学習する。
政策とともに世界モデルを動的に適用する枠組みを提案する。
我々は,D4RL MuJoCoタスク12件とTokamak Controlタスク3件のアルゴリズムをベンチマークし,その最先端性能を実証した。
論文 参考訳(メタデータ) (2025-05-19T20:14:33Z) - Enhancing Spectrum Efficiency in 6G Satellite Networks: A GAIL-Powered Policy Learning via Asynchronous Federated Inverse Reinforcement Learning [67.95280175998792]
ビームフォーミング,スペクトルアロケーション,リモートユーザ機器(RUE)アソシエイトを最適化するために,GAILを利用した新しいポリシー学習手法を提案する。
手動チューニングなしで報酬関数を自動的に学習するために、逆RL(IRL)を用いる。
提案手法は従来のRL手法よりも優れており,コンバージェンスと報酬値の14.6%の改善が達成されている。
論文 参考訳(メタデータ) (2024-09-27T13:05:02Z) - Learning Reward and Policy Jointly from Demonstration and Preference Improves Alignment [58.049113055986375]
我々は、報酬モデルとポリシーをトレーニングするために、AIHF(Alignment with Integrated Human Feedback)と呼ばれる単一ステージアプローチを開発する。
提案した手法は、一般的なアライメントアルゴリズムに容易に還元し、活用できる、効率的なアルゴリズムの集合を認めている。
本研究では,LLMにおけるアライメント問題と,MuJoCoにおけるロボット制御問題を含む広範な実験により,提案手法の有効性を実証する。
論文 参考訳(メタデータ) (2024-06-11T01:20:53Z) - Progressive extension of reinforcement learning action dimension for
asymmetric assembly tasks [7.4642148614421995]
本稿では,RLアルゴリズムの収束を最適化するために,行動次元の漸進的拡張(PEAD)機構を提案する。
結果は,pead法がrlアルゴリズムのデータ効率と時間効率を向上し,安定した報酬を得ることを示す。
論文 参考訳(メタデータ) (2021-04-06T11:48:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。