論文の概要: On-sky demonstration of reinforcement learning for adaptive optics control
- arxiv url: http://arxiv.org/abs/2606.10771v1
- Date: Tue, 09 Jun 2026 12:26:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-10 15:40:58.486496
- Title: On-sky demonstration of reinforcement learning for adaptive optics control
- Title(参考訳): 適応光学制御のための強化学習のオンスキー実証
- Authors: Jalo Nousiainen, Vincent Chambouleyron, Benoit Neichel, Sylvain Cetre, Jean-Francois Sauvage, Angelie Alagao, Markus Kasper, Jonathan Dray, Romain Fetick, Byron Engler,
- Abstract要約: 適応光学のための強化学習制御器(PO4AO)の最初の実演を報告した。
PO4AOは、OHPの1.52m望遠鏡(T152)のクーデに設置されたパピルス適応光学系に実装され、展開された。
適切な実装と最適化を行うと、PO4AOは単一共役適応光学系のための堅牢で高性能なターンキーコントローラを構成する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning (RL)-based algorithms have recently emerged as a promising approach for adaptive optics (AO) control. In simulations and laboratory experiments, they have demonstrated robustness to real-world effects such as photon and detector noise, misregistration, vibrations, and rapid variations in seeing conditions. However, their performance has not yet been validated on sky. We report the first on-sky demonstration of a reinforcement learning controller for adaptive optics, named Policy Optimization for AO (PO4AO). We further analyze its on-sky behavior and identify directions for improving the algorithm and its implementation.PO4AO was implemented and deployed on the Papyrus adaptive optics system installed at the Coudé focus of the 1.52 m telescope (T152) at the OHP. A Python-based implementation was interfaced with the existing real-time controller (DAO RTC) via shared-memory buffers. The performance of PO4AO was compared to that of a standard integrator controller over several nights, covering a range of flux levels and atmospheric conditions. PO4AO consistently outperformed the standard integrator in all tested configurations. The controller successfully learned and compensated for vibration patterns and demonstrated strong robustness to measurement noise. Once tuned for Papyrus, PO4AO operated in a turnkey fashion, using a single set of hyperparameters across varying observing conditions and science targets. These performance gains were achieved despite a non-optimized Python implementation introducing approximately $750\,μ\text{s}$ of additional latency, along with control jitter and occasional frame drops. When properly implemented and optimized, PO4AO constitutes a robust and high-performance turnkey controller for single-conjugate adaptive optics systems, paving the way for broader adoption of reinforcement learning strategies in on-sky AO operations.
- Abstract(参考訳): Reinforcement Learning(RL)ベースのアルゴリズムは、適応光学(AO)制御のための有望なアプローチとして最近登場した。
シミュレーションや実験実験では、光子や検出器ノイズ、誤登録、振動、観察条件の急激な変動といった実世界の効果に対して堅牢性を示す。
しかし、その性能はまだ証明されていない。
本稿では,適応光学のための強化学習コントローラの実証実験として,AOのためのポリシー最適化(PO4AO)について報告する。
OHPの1.52m望遠鏡(T152)のクーデ焦点に設置されたパピルス適応光学系に実装・展開した。
Pythonベースの実装は、共有メモリバッファを介して既存のリアルタイムコントローラ(DAO RTC)とインターフェースされた。
PO4AOの性能は、標準的なインテグレータコントローラと数晩にわたって比較され、様々なフラックスレベルと大気条件をカバーした。
PO4AOは、テストされたすべての構成において、標準インテグレータよりも一貫して優れていた。
制御器は振動パターンの学習と補償に成功し、騒音測定に強い頑丈さを示した。
一度パピルスのために調整された後、PO4AOはターンキー方式で運用され、様々な観測条件と科学目標をまたいだ1組のハイパーパラメータを使用した。
これらのパフォーマンス向上は、最適化されていないPython実装で、約750,μ\text{s}$追加のレイテンシとコントロールジッタ、時にはフレームドロップが導入されたにもかかわらず達成された。
適切な実装と最適化を行うと、PO4AOは単一共役適応光学系のための堅牢で高性能なターンキーコントローラを構成し、オンスキーAO操作における強化学習戦略を広く採用する道を開く。
関連論文リスト
- LaST-R1: Reinforcing Robotic Manipulation via Adaptive Physical Latent Reasoning [90.86828952599147]
提案するLaST-R1(LaST-R1)は,「最近の推論・行動」政策を活用するために設計された,新しい強化学習フレームワークである。
LaST-R1 は LIBERO ベンチマークで 99.9% の平均成功率を達成した。
実世界の展開では、LaST-R1はSOTAが監督する微調整アプローチよりも22.5%平均的に改善されている。
論文 参考訳(メタデータ) (2026-04-30T17:59:52Z) - Focal plane wavefront control with model-based reinforcement learning [0.0]
居住可能な太陽系外惑星の直接イメージングは、非常に大きな望遠鏡上の高コントラストイメージング機器の第一の科学ケースである。
ほとんどの太陽系外惑星は宿主星の近くを公転しており、観測は準静電非共有経路収差(NCPA)によって制限されている。
本研究では,動的および静的なNCPAエラーを自動的に検出し,修正する,機械学習に基づくNCPA制御手法を提案する。
論文 参考訳(メタデータ) (2026-04-01T14:55:15Z) - Controlled LLM Training on Spectral Sphere [76.60985966206746]
重み付けと更新の両方に厳密なモジュール単位のスペクトル制約を課す textbfSpectral Sphere アルゴリズム (SSO) を導入する。
我々は,MoEルータロードバランシングの改善,外乱抑制,厳密な制限付きアクティベーションなど,重要な実用的安定性の利点を観察した。
論文 参考訳(メタデータ) (2026-01-13T09:59:47Z) - Comparison of Model Predictive Control and Proximal Policy Optimization for a 1-DOF Helicopter System [0.7499722271664147]
本研究は,Quanser Aero 2システムに適用された深層強化学習(DRL)アルゴリズムであるモデル予測制御(MPC)とPPOの比較分析を行う。
PPOは上昇時間と適応性に優れており、迅速な応答と適応性を必要とするアプリケーションには有望なアプローチである。
論文 参考訳(メタデータ) (2024-08-28T08:35:34Z) - Laboratory Experiments of Model-based Reinforcement Learning for
Adaptive Optics Control [0.565395466029518]
ESO本部のGHOSTテストベンチに、AO(PO4AO)のためのポリシー最適化と呼ばれるRL手法を実装し、適応する。
本手法の予測的・自己校正的側面について検討する。
PyTorchを実行しているGHOSTの新しい実装では、ハードウェア、パイプライン、Pythonインターフェースのレイテンシに加えて、700マイクロ秒程度しか導入されていない。
論文 参考訳(メタデータ) (2023-12-30T14:11:43Z) - Reinforcement Learning-based Wavefront Sensorless Adaptive Optics
Approaches for Satellite-to-Ground Laser Communication [1.8531813733282103]
光衛星間通信(OSGC)は、遠隔地における高速で安価なインターネットへのアクセスを改善する可能性がある。
従来のアダプティブ光学(AO)システムは、ファイバカップリングを改善するためにウェーブフロントセンサーを使用する。
本稿では、波面位相プロファイリングカメラではなく、低コストの二次光ダイオードと相互作用して制御ポリシーを学習することで、システムのレイテンシ、サイズ、コストを最大30~40%削減する強化学習(RL)を提案する。
論文 参考訳(メタデータ) (2023-03-13T23:03:17Z) - Thompson Sampling Achieves $\tilde O(\sqrt{T})$ Regret in Linear
Quadratic Control [85.22735611954694]
我々はトンプソンサンプリング(TS)を用いた安定化可能な線形四元系レギュレータ(LQR)の適応制御問題について検討する。
我々は,LQRの適応制御のための効率的なTSアルゴリズムTSACを提案し,多次元システムであっても,$tilde O(sqrtT)$ regretを実現する。
論文 参考訳(メタデータ) (2022-06-17T02:47:53Z) - Towards on-sky adaptive optics control using reinforcement learning [0.0]
居住可能な太陽系外惑星の直接イメージングは、地上の非常に大きな望遠鏡で、次世代の高コントラストイメージング機器の第一の科学ケースである。
この要求の大きい科学目標を達成するため、装置にはeXtreme Adaptive Optics (XAO)システムが搭載されており、数千のアクチュエータをキロヘルツから数キロヘルツのフレームレートで制御する。
居住可能な太陽系外惑星のほとんどは、現在のXAO系の制御法則が強い残基を残している宿主星から小さな角の分離点に位置している。
論文 参考訳(メタデータ) (2022-05-16T10:01:06Z) - Optimization-driven Deep Reinforcement Learning for Robust Beamforming
in IRS-assisted Wireless Communications [54.610318402371185]
Intelligent Reflecting Surface (IRS)は、マルチアンテナアクセスポイント(AP)から受信機へのダウンリンク情報伝達を支援する有望な技術である。
我々は、APのアクティブビームフォーミングとIRSのパッシブビームフォーミングを共同最適化することで、APの送信電力を最小化する。
過去の経験からビームフォーミング戦略に適応できる深層強化学習(DRL)手法を提案する。
論文 参考訳(メタデータ) (2020-05-25T01:42:55Z) - Guided Constrained Policy Optimization for Dynamic Quadrupedal Robot
Locomotion [78.46388769788405]
我々は,制約付きポリシー最適化(CPPO)の実装に基づくRLフレームワークであるGCPOを紹介する。
誘導制約付きRLは所望の最適値に近い高速収束を実現し,正確な報酬関数チューニングを必要とせず,最適かつ物理的に実現可能なロボット制御動作を実現することを示す。
論文 参考訳(メタデータ) (2020-02-22T10:15:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。