論文の概要: QnRL: Quantum-Native Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2606.08276v1
- Date: Sat, 06 Jun 2026 17:54:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:06.011517
- Title: QnRL: Quantum-Native Reinforcement Learning
- Title(参考訳): QnRL:量子ネイティブ強化学習
- Authors: Alexander DeRieux, Walid Saad,
- Abstract要約: 量子強化学習(QRL)は、環境のある複数のアプリケーションにわたる効果的な意思決定戦略を学ぶための有望なアプローチである。
既存のQRLアーキテクチャは、予測された結果を推定することで環境挙動を間接的に近似し、その表現力と適応ポテンシャルを制限する。
このような課題を克服するには、環境変数を直接量子状態分布としてモデル化するために、量子コンピュータの分布特性を利用する新しいQRLアプローチが必要である。
- 参考スコア(独自算出の注目度): 82.36163324220894
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Quantum reinforcement learning (QRL) is a promising approach to learn effective decision strategies across several applications with stochastic environments. Instead of directly modeling the random variables that govern these environments, existing QRL architectures indirectly approximate environment behavior by estimating expected outcomes, which limits their expressive power and adaptive potential. Overcoming such challenges requires a novel QRL approach that exploits the distributional nature of quantum computers to directly model environment random variables as quantum state distributions. Hence, in this paper, a novel framework dubbed quantum-native reinforcement learning (QnRL) is proposed. QnRL is a distributional RL framework that learns conditional distributions naturally in Hilbert space via superimposed and entangled quantum states. Thus, QnRL can directly model the behavior of stochastic learning environments via the natural properties of quantum systems. QnRL accomplishes this via a novel, proposed quantum amplitude kickback (QuAK) algorithm that enables comparing the $n$-th power of the $m$-th moment of multiple superimposed distributions. It is theoretically proven that a conditional action policy distribution is distilled from the moments of a quantum generative model entirely within Hilbert space via QuAK, and optimized via QnRL. This complex distribution composition is also shown to provide extra dimensions for expressing environment correlations that are unknown to purely classical and classically-sampled quantum distributional models. Experimental results across diverse environments show that QnRL achieves up to $82.9\%$ higher evaluation scores, with up to $94.3\%$ fewer parameters on average, more accurately estimates the expected return for unseen observations, and better adapts to varying stochastic conditions compared to the baseline.
- Abstract(参考訳): 量子強化学習(QRL)は確率的環境を持つ複数のアプリケーションにわたる効果的な意思決定戦略を学ぶための有望なアプローチである。
これらの環境を管理するランダム変数を直接モデル化する代わりに、既存のQRLアーキテクチャは予測された結果を推定することで間接的に環境挙動を近似し、その表現力と適応ポテンシャルを制限する。
このような課題を克服するには、環境変数を直接量子状態分布としてモデル化するために、量子コンピュータの分布特性を利用する新しいQRLアプローチが必要である。
そこで本研究では,量子ネイティブ強化学習(QnRL)と呼ばれる新しいフレームワークを提案する。
QnRLは分布RLフレームワークで、ヒルベルト空間における条件分布を重畳された量子状態と絡み合った量子状態を通じて自然に学習する。
したがって、QnRLは量子システムの自然な性質を介して確率論的学習環境の振舞いを直接モデル化することができる。
QnRLは、新しい量子振幅キックバック(QuAK)アルゴリズムによってこれを達成し、複数の重畳分布の$m$-thモーメントの$n$-thパワーを比較することができる。
条件付き行動ポリシー分布は、量子生成モデルのモーメントからQuAKを介してヒルベルト空間内で蒸留され、QnRLを介して最適化されることが理論的に証明されている。
この複雑な分布構成はまた、純粋に古典的、古典的にサンプリングされた量子分布モデルに未知な環境相関を表現するための余分な次元を提供する。
様々な環境での実験結果から、QnRLは最大で82.9\%、平均で最大で94.3\%のパラメータを減らし、予期しない観測のリターンをより正確に推定し、ベースラインと比較して様々な確率条件に適応する。
関連論文リスト
- Bowtie VarQTE: A Resource-Efficient Quantum State Preparation Primitive [0.9236074230806578]
VarQTEは、物理的に構造化された量子状態を作るためのプリミティブである。
これは、既存の構造と関連する古典的なシミュレーションを可能にする可能性を活用することで、量子リソースの要求を減らす。
2Dシステムの結果は、標準的なサンプルベースのクリロフ対角化計算と比較して、ボーティVarQTEが量子要求をいかに削減できるかを示している。
論文 参考訳(メタデータ) (2026-05-19T18:00:03Z) - MADQRL: Distributed Quantum Reinforcement Learning Framework for Multi-Agent Environments [25.155719953156723]
強化学習(Reinforcement Learning, RL)は、実生活のユースケースから学ぶための最も実践的な方法の1つである。
本稿では,複数のエージェントが独立して学習するQRLのための分散フレームワークを提案する。
動作と観測空間が不連続な環境でも有効であるが,妥当な近似で他のシステムにも拡張できる。
論文 参考訳(メタデータ) (2026-04-13T07:44:23Z) - Variational Quantum Circuit-Based Reinforcement Learning for Dynamic Portfolio Optimization [7.349651640835185]
本稿では,変分量子回路に基づく動的ポートフォリオ最適化問題に対する量子強化学習ソリューションを提案する。
我々の量子エージェントは、古典的なディープRLモデルに匹敵するリスク調整性能を達成できることを示す。
論文 参考訳(メタデータ) (2026-01-20T15:17:24Z) - VQC-MLPNet: An Unconventional Hybrid Quantum-Classical Architecture for Scalable and Robust Quantum Machine Learning [50.95799256262098]
変分量子回路(VQC)は量子機械学習を約束するが、表現性、訓練性、耐雑音性の課題に直面している。
本稿では,VQCが学習中に古典多層パーセプトロンの第一層重みを生成するハイブリッドアーキテクチャであるVQC-MLPNetを提案する。
論文 参考訳(メタデータ) (2025-06-12T01:38:15Z) - Stochastic Q-learning for Large Discrete Action Spaces [79.1700188160944]
離散的な行動空間を持つ複雑な環境では、強化学習(RL)において効果的な意思決定が重要である
我々は、$n$アクションの集合全体を最適化するのとは対照的に、おそらく$mathcalO(log(n)$)$のような変数の集合のみを考える。
提示された値ベースのRL手法には、Q-learning、StochDQN、StochDDQNなどが含まれる。
論文 参考訳(メタデータ) (2024-05-16T17:58:44Z) - Unifying (Quantum) Statistical and Parametrized (Quantum) Algorithms [65.268245109828]
我々はカーンズのSQオラクルとヴァリアントの弱い評価オラクルからインスピレーションを得ます。
評価クエリから学習するための非条件の下限を出力する,広範かつ直感的なフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-26T18:23:21Z) - Learnability of the output distributions of local quantum circuits [53.17490581210575]
2つの異なるオラクルモデルにおいて、量子回路Bornマシンの学習可能性について検討する。
我々はまず,超対数深度クリフォード回路の出力分布がサンプル効率良く学習できないという負の結果を示した。
より強力なオラクルモデル、すなわちサンプルに直接アクセスすると、局所的なクリフォード回路の出力分布は計算効率よくPACを学習可能であることを示す。
論文 参考訳(メタデータ) (2021-10-11T18:00:20Z) - Quantum agents in the Gym: a variational quantum algorithm for deep
Q-learning [0.0]
本稿では、離散的かつ連続的な状態空間に対するRLタスクを解くために使用できるパラメタライズド量子回路(PQC)のトレーニング手法を提案する。
量子Q学習エージェントのどのアーキテクチャ選択が、特定の種類の環境をうまく解決するのに最も重要であるかを検討する。
論文 参考訳(メタデータ) (2021-03-28T08:57:22Z) - Preparing random states and benchmarking with many-body quantum chaos [48.044162981804526]
時間に依存しないハミルトン力学の下で自然にランダム状態アンサンブルの出現を予測し、実験的に観察する方法を示す。
観測されたランダムアンサンブルは射影測定から現れ、より大きな量子系のサブシステムの間に構築された普遍的相関に密接に関連している。
我々の研究は、量子力学におけるランダム性を理解するための意味を持ち、より広い文脈でのこの概念の適用を可能にする。
論文 参考訳(メタデータ) (2021-03-05T08:32:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。