論文の概要: Optimising Entanglement Distillation Policies
- arxiv url: http://arxiv.org/abs/2606.14908v1
- Date: Fri, 12 Jun 2026 19:27:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-16 16:21:32.451236
- Title: Optimising Entanglement Distillation Policies
- Title(参考訳): エンタングルメント蒸留法を最適化する
- Authors: Jigyen Bhavsar, Rajni Bala, Siddhartha Santra,
- Abstract要約: エンタングルメント蒸留は量子情報処理の基本的な操作である。
我々はこのタスクをマルコフ決定問題として定式化し解析する。
対象の忠実度に到達するのに必要な待ち時間を最小化する最適決定性ポリシーを得る。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Entanglement distillation is a fundamental operation in quantum information processing used to obtain higher-fidelity entangled pairs from a supply of less entangled quantum states using local operations aided by classical communication (LOCC). In a physically relevant setting, where states with an initial fidelity of $f_0$, probabilistically generated over multiple, $m$, memory pairs distributed between two parties, Alice and Bob, are pairwise distilled, the optimal policy identifies the system-configuration dependent sequence of entanglement generation and distillation operations that need to be performed in order to minimize the expected time to reach some target fidelity $f_T>f_0$. Here, we formulate and systematically analyze this task as a Markov decision problem and using a value iteration algorithm, obtain optimal deterministic policies that minimize the expected waiting time required to reach a target fidelity. Our results show that the expected waiting time under the optimal policy decreases with increasing generation probability $p$ and number of quantum memories $m$ - as expected. In contrast, it exhibits non-monotonic behavior with respect to $f_0$ for a fixed fidelity gap, $(Δf = f_T-f_0)$. While the optimal policy consistently outperforms baseline policies such as the greedy, nested and entanglement pumping policies, its relative advantage is regime-dependent, being determined by the system parameters ($p,f_0,f_T,m$), and exhibits a nontrivial dependence on the fidelity gap $Δf$. Our results highlight the value of formulating entanglement distillation as a Markov decision problem, enabling the systematic design of policies that achieve target fidelity thresholds for quantum information tasks in realistic resource-constrained settings.
- Abstract(参考訳): エンタングルメント蒸留(Entanglement distillation)は、古典的通信(LOCC)によって支援された局所的な操作を用いて、より少ないエンタングルド量子状態の供給から高忠実なエンタングルドペアを得るために使用される量子情報処理の基本的な操作である。
物理的に関連性のある設定では、初期忠実度が$f_0$である状態が複数の$m$で確率的に生成され、2つのパーティ間に分散されたメモリ対であるAliceとBobが相互に蒸留され、最適なポリシーは、ある目標忠実度に到達するための期待される時間を最小化するために実行されるエンタングルメント生成および蒸留操作のシステム構成依存シーケンスを特定する。
そこで我々は,このタスクをマルコフ決定問題として定式化し,かつ値反復アルゴリズムを用いて,目標忠実度に到達するのに必要な待ち時間を最小限に抑える最適決定性ポリシーを定式化し,体系的に解析する。
その結果, 最適条件下での待ち時間は, 生成確率$p$, 量子メモリ数$m$により減少することがわかった。
対照的に、固定忠実度ギャップに対して$f_0$, $(Δf = f_T-f_0)$に対して非単調な振る舞いを示す。
最適ポリシーは、欲求、ネスト、絡み合いといった基本方針を一貫して上回るが、その相対的な優位性は、システムパラメータ(p,f_0,f_T,m$)によって決定され、フィデリティギャップ$Δf$に非自明な依存を示す。
本研究は, 実資源制約条件下での量子情報処理における目標忠実度しきい値を達成する政策の体系的設計を可能にすることを目的として, マルコフ決定問題として, コンタングル蒸留の定式化の価値を強調した。
関連論文リスト
- Stochastic MeanFlow Policies: One-Step Generative Control with Entropic Mirror Descent [53.828537014796574]
オンラインの非政治強化学習(RL)は、ポリシークラスと更新ルールの2つの選択肢によって構成されている。
我々は、MeanFlow変換を通じてノイズをアクションにマッピングする一段階生成ポリシークラスであるMeanFlow Policiesを提案する。
7つのMuJoCoベンチマークで、Sは1ステップの推論効率を維持しながら、ガウスおよび生成ベースラインを改善する。
論文 参考訳(メタデータ) (2026-05-20T15:14:14Z) - Holder Policy Optimisation [26.521180498291717]
textbfHlderPOは、一般的なポリシー最適化フレームワークである。
トークンレベルの確率アグリゲーションをHlder平均を介して統一する。
複数の数学ベンチマークにおいて、最先端の平均精度は54.9%である。
論文 参考訳(メタデータ) (2026-05-12T12:45:03Z) - Adaptive Policies for Resource Generation in a Quantum Network [0.5332865877117923]
分散量子システムのためのプロトコルは、通常、$n$の絡み合った状態の同時可用性を必要とする。
我々は、$n$の絡み合った状態が$F_mathrmapp$以上の忠実さで利用可能になるまでの期待時間を最小化する最適なポリシーを導出する。
論文 参考訳(メタデータ) (2025-09-22T11:04:12Z) - Quantile-Optimal Policy Learning under Unmeasured Confounding [55.72891849926314]
ここでは,報酬分布が (0, 1) で最大$alpha$-quantileを持つポリシーを見つけることを目標とする量子最適政策学習について検討する。
このような問題は、(i)報酬分布の関数としての量子目標の非線形性、(ii)未観測の共起問題、(iii)オフラインデータセットのカバー不足という3つの大きな課題に悩まされている。
論文 参考訳(メタデータ) (2025-06-08T13:37:38Z) - A safe exploration approach to constrained Markov decision processes [7.036452261968767]
無限水平制約マルコフ決定過程(CMDP)について考察する。
目標は、期待される累積的制約を満たしつつ、期待される累積的報酬を最大化する最適なポリシーを見つけることである。
安全クリティカルなシステムに対するオンライン学習におけるCMDPの適用により、モデルフリーでエフェミュレータフリーなアルゴリズムの開発に焦点をあてる。
論文 参考訳(メタデータ) (2023-12-01T13:16:39Z) - Maximum-Likelihood Inverse Reinforcement Learning with Finite-Time
Guarantees [56.848265937921354]
逆強化学習(IRL)は報酬関数と関連する最適ポリシーを回復することを目的としている。
IRLの多くのアルゴリズムは本質的にネスト構造を持つ。
我々は、報酬推定精度を損なわないIRLのための新しいシングルループアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-10-04T17:13:45Z) - Efficient Policy Iteration for Robust Markov Decision Processes via
Regularization [49.05403412954533]
ロバストな意思決定プロセス(MDP)は、システムのダイナミクスが変化している、あるいは部分的にしか知られていない決定問題をモデル化するためのフレームワークを提供する。
最近の研究は、長方形長方形の$L_p$頑健なMDPと正規化されたMDPの等価性を確立し、標準MDPと同じレベルの効率を享受する規則化されたポリシー反復スキームを導出した。
本研究では、政策改善のステップに焦点をあて、欲求政策と最適なロバストなベルマン作用素のための具体的な形式を導出する。
論文 参考訳(メタデータ) (2022-05-28T04:05:20Z) - Robust and Adaptive Temporal-Difference Learning Using An Ensemble of
Gaussian Processes [70.80716221080118]
本稿では、時間差学習(TD)による政策評価の世代的視点について考察する。
OS-GPTDアプローチは、状態-逆ペアのシーケンスを観測することにより、与えられたポリシーの値関数を推定するために開発された。
1つの固定カーネルに関連する限られた表現性を緩和するために、GP前の重み付けアンサンブル(E)を用いて代替のスキームを生成する。
論文 参考訳(メタデータ) (2021-12-01T23:15:09Z) - Understanding the Effect of Stochasticity in Policy Optimization [86.7574122154668]
最適化手法の優位性は、正確な勾配が用いられるかどうかに大きく依存することを示す。
次に,政策最適化におけるコミット率の概念を紹介する。
第三に、外部のオラクル情報がない場合には、収束を加速するために幾何を利用することと、最適性をほぼ確実に達成することとの間に本質的にトレードオフがあることが示される。
論文 参考訳(メタデータ) (2021-10-29T06:35:44Z) - Queueing Network Controls via Deep Reinforcement Learning [0.0]
待ち行列ネットワークのためのポリシ最適化アルゴリズムを開発した。
このアルゴリズムは、文学における最先端よりも優れた制御ポリシーを一貫して生成する。
PPOアルゴリズムの成功の鍵は、相対値関数を推定するために3つの分散還元技術を使用することである。
論文 参考訳(メタデータ) (2020-07-31T01:02:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。