論文の概要: Decision-Driven Geosteering Under Uncertainty: A Unified Framework for Sequential Decision Optimization
- arxiv url: http://arxiv.org/abs/2606.17331v1
- Date: Mon, 15 Jun 2026 22:22:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-17 17:15:32.159783
- Title: Decision-Driven Geosteering Under Uncertainty: A Unified Framework for Sequential Decision Optimization
- Title(参考訳): 不確実性下における決定駆動型ジオステアリング:逐次決定最適化のための統一フレームワーク
- Authors: Hibat Errahmen Djecta, Sergey Alyaev, Kristian Fossum, Reidar B. Bratvold, Ressi Bonti Muhammad, Apoorv Srivastava,
- Abstract要約: ジオステアリングは、未知の地質構造を通して良好な軌道をナビゲートする必要がある。
本研究では,粒子フィルタリングと確率的地下解釈,および逐次決定のための値に基づく強化学習を統合した不確実性を考慮したジオステアリングフレームワークを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Geosteering requires navigating a well trajectory through an unknown geological configuration, while sequentially updating decisions based on indirect measurements acquired during drilling. This work presents an uncertainty-aware geosteering framework that tightly integrates particle filtering for probabilistic subsurface interpretation with value-based reinforcement learning for sequential decision-making. Geological uncertainty ahead of the drill bit is represented explicitly through a particle filter (PF), enabling belief-informed control rather than deterministic trajectory correction. The framework couples PF belief updates with belief-informed decision policies and evaluates three decision-making options that operate under identical uncertainty representations: an interpretable Approximate Dynamic Programming (ADP) scheme, a Deep Q-learning baseline, and a Dual Deep Reinforcement Learning (Dual DRL) architecture trained with a target Q-network scheme for stability, using a dueling (value/advantage) decomposition for Q-value parameterization. Beyond final placement performance, we assess policy behavior using stability-oriented metrics that quantify steering smoothness over time, providing additional operational insight into how decision policies respond as uncertainty evolves. The framework is integrated with an API for validation within an industrial geosteering simulator under realistic measurement noise and drilling constraints. Using identical geological realizations, operational limits, and reward definitions across methods, the experiments provide a controlled and high-fidelity evaluation of how alternative decision policies behave throughout the drilling process, rather than evaluating performance solely from the final well trajectory.
- Abstract(参考訳): ジオステアリングは、未知の地質構造を通した良好な軌道をナビゲートし、掘削中に取得した間接的な測定に基づいて決定を逐次更新する必要がある。
本研究では,確率的地下解釈のための粒子フィルタリングと逐次的意思決定のための値に基づく強化学習を密接に統合する不確実性を考慮したジオステアリングフレームワークを提案する。
ドリルビットの前方における地質的不確実性は粒子フィルタ(PF)によって明確に表現され、決定論的軌道補正よりも信念インフォームド制御が可能である。
このフレームワークは、PFの信念更新と、同一の不確実性表現の下で機能する3つの意思決定オプション(解釈可能な近似動的プログラミング(ADP)スキーム、深部Qラーニングベースライン、およびQ値パラメータ化のためのデュアリング(値/アドバンテージ)分解を用いて、安定のためのQ-ネットスキームで訓練されたデュアルディープ強化学習(Dual DRL)アーキテクチャ)を評価する。
最終配置性能の他に、安定性指向のメトリクスを使用して、時間の経過とともにスムーズさを定量化し、不確実性の発展に伴う意思決定ポリシーの対応方法に関するさらなる運用上の洞察を提供する。
このフレームワークは,実測騒音および掘削制約下での産業用ジオステアリングシミュレータ内での検証のためのAPIと統合されている。
同一の地質学的実現、運用限界、メソッド間の報酬の定義を用いて、実験は最終の井戸軌道からのみの性能を評価するのではなく、掘削過程を通して代替的な決定ポリシーがどのように振る舞うかを制御され、高忠実に評価する。
関連論文リスト
- On the System Theoretic Offline Learning of Continuous-Time LQR with Exogenous Disturbances [3.701656361145375]
線形二次規制 (LQR) 戦略のオフライン設計を不確実な乱れを伴う解析を行う。
我々のアプローチは、適応動的プログラミングの基本的な学習ベースのフレームワークの上に構築されている。
論文 参考訳(メタデータ) (2025-09-20T17:14:27Z) - Learning Deterministic Policies with Policy Gradients in Constrained Markov Decision Processes [59.27926064817273]
我々はC-PGと呼ばれる探索非依存のアルゴリズムを導入し,支配的仮定の下でのグローバルな最終点収束保証を享受する。
制約制御タスクにおいて,アクションベース(C-PGAE)とパラメータベース(C-PGPE)の両方を実証的に検証する。
論文 参考訳(メタデータ) (2025-06-06T10:29:05Z) - Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。
一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。
本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文 参考訳(メタデータ) (2024-05-03T16:45:15Z) - Wasserstein Actor-Critic: Directed Exploration via Optimism for
Continuous-Actions Control [41.7453231409493]
Wasserstein Actor-Critic (WAC) は、Wasserstein Q-Learning (WQL) citepwqlにインスパイアされたアクター批判アーキテクチャである。
WACは、Q値の推定値の上限を最適化してポリシー学習プロセスを導くことによって、原則的な方法で探索を実施する。
論文 参考訳(メタデータ) (2023-03-04T10:52:20Z) - When Demonstrations Meet Generative World Models: A Maximum Likelihood
Framework for Offline Inverse Reinforcement Learning [62.00672284480755]
本稿では, 専門家エージェントから, 一定の有限個の実演において観測された動作を過小評価する報酬と環境力学の構造を復元することを目的とする。
タスクを実行するための正確な専門知識モデルは、臨床的意思決定や自律運転のような安全に敏感な応用に応用できる。
論文 参考訳(メタデータ) (2023-02-15T04:14:20Z) - Non-Parametric Stochastic Policy Gradient with Strategic Retreat for
Non-Stationary Environment [1.5229257192293197]
非パラメトリックな最適制御ポリシのシーケンスを学習するための体系的な方法論を提案する。
本手法はDDPG法とTD3法を学習性能の点で大きな差で上回っている。
論文 参考訳(メタデータ) (2022-03-24T21:41:13Z) - Identification of Unexpected Decisions in Partially Observable
Monte-Carlo Planning: a Rule-Based Approach [78.05638156687343]
本稿では,POMCPポリシーをトレースを検査して分析する手法を提案する。
提案手法は, 政策行動の局所的特性を探索し, 予期せぬ決定を識別する。
我々は,POMDPの標準ベンチマークであるTigerに対するアプローチと,移動ロボットナビゲーションに関する現実の問題を評価した。
論文 参考訳(メタデータ) (2020-12-23T15:09:28Z) - Confounding-Robust Policy Evaluation in Infinite-Horizon Reinforcement
Learning [70.01650994156797]
教育医療などのバッチ強化学習において、観察データからのシーケンシャルな意思決定方針のオフ・アセスメントが必要である。
我々は、ある政策の境界を推定するアプローチを開発する。
より凝縮したデータを集めることで、シャープな境界への収束を証明します。
論文 参考訳(メタデータ) (2020-02-11T16:18:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。