論文の概要: When Should a Robot Replan? Regret-Guided Update Scheduling in Time-Varying MDPs
- arxiv url: http://arxiv.org/abs/2606.16972v1
- Date: Mon, 15 Jun 2026 17:09:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-16 18:36:05.088762
- Title: When Should a Robot Replan? Regret-Guided Update Scheduling in Time-Varying MDPs
- Title(参考訳): ロボットはいつリプランすべきか? 時間変化型MDPにおけるレグレトガイド更新スケジューリング
- Authors: Negin Musavi, Gokul Puthumanaillam, Ruben Hernandez, William Schafer, Melkior Ornik,
- Abstract要約: 時間変化マルコフ決定過程において、遷移ドリフトの速度に既知の境界を持つ問題を定式化する。
我々は,TVMDPの特性とスキップ長の観点から,スキップ間隔でどのように成長するかを示す。
室内障害物場における時変スリップダイナミクスを用いた火星ローバーナビゲーションのシミュレーションとクレージーフリー四重項器におけるルールの評価を行った。
- 参考スコア(独自算出の注目度): 2.5861007846258417
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Robots operating in non-stationary environments must continually adapt their policies as the dynamics drift, but onboard energy and compute budgets cap how often a full state estimation and re-planning step can be performed. This raises a question: \emph{when}, along a horizon, should a robot spend its limited budget? We formulate this problem in time-varying Markov decision processes (TVMDPs) with a known bound on the rate of transition drift. We model execution as a \emph{skip-update} scheme in which, at chosen update times, the agent estimates the transition kernel by maximum likelihood and computes a finite-horizon policy, and between updates reuses this policy under a propagated state estimate. We analyze the dynamic regret of this scheme and show how it grows during skip intervals in terms of the properties of the TVMDP and the skip lengths; the resulting bound answers the opening question via an online, regret-guided update rule that allocates the budget adaptively. We evaluate the rule in a simulated Mars-rover navigation task with time-varying slip dynamics and on a Crazyflie quadrotor in indoor obstacle fields. Adaptive allocation outperforms other budgeted baselines.
- Abstract(参考訳): 非定常環境で動作しているロボットは、ダイナミクスがドリフトするにつれてポリシーを継続的に順応しなければならないが、搭載エネルギーと計算予算は、完全な状態推定と再計画のステップの実行頻度を抑える。
ロボットは限られた予算を使うべきか?
時間変化マルコフ決定過程 (TVMDP) でこの問題を定式化し, 遷移ドリフトの速度に依存した。
エージェントは、選択された更新時に、遷移カーネルを最大極大で推定し、有限水平ポリシーを計算し、更新の間は、このポリシーを伝播状態推定の下で再利用する、 \emph{skip-update} スキームとしてモデル化する。
我々は,このスキームの動的後悔を分析し,TVMDPの特性やスキップ長の観点から,スキップ間隔でどのように成長するかを示す。
室内障害物場における時変スリップダイナミクスを用いた火星ローバーナビゲーションのシミュレーションとクレージーフリー四重項器におけるルールの評価を行った。
アダプティブアロケーションは他の予算ベースラインを上回っます。
関連論文リスト
- LeapTS: Rethinking Time Series Forecasting as Adaptive Multi-Horizon Scheduling [74.94985663101906]
本稿では,予測地平線上での動的スケジューリングプロセスとして時系列予測を再構成する新しいフレームワーク LeapTSを提案する。
LeapTSは、Transformerベースのモデルよりも2.6$times$から5.3$times$推論スピードアップを実現しつつ、全体的な予測性能を少なくとも7.4%向上させる。
論文 参考訳(メタデータ) (2026-05-11T09:54:02Z) - Optimizing Task Completion Time Updates Using POMDPs [19.609728118458758]
アナウンスされたタスク完了時間の管理は、プロジェクト管理における基本的な制御の問題である。
タスク発表問題を部分観測可能なマルコフ決定プロセス(POMDP)として定式化する。
報奨構造は、通知エラーと更新頻度の2つのコストを捕捉し、最適な通知制御ポリシーの合成を可能にする。
論文 参考訳(メタデータ) (2026-03-12T18:03:18Z) - Perceptive Variable-Timing Footstep Planning for Humanoid Locomotion on Disconnected Footholds [2.963101656293054]
本稿では,足の配置と歩留まりを協調的に計画する,車載・知覚混合整数モデル予測制御フレームワークを提案する。
外部プッシュを含む無作為なステップストーン場におけるDigitのシミュレーションにおけるアプローチを評価する。
論文 参考訳(メタデータ) (2026-03-08T01:04:30Z) - Anytime Incremental $ρ$POMDP Planning in Continuous Spaces [5.767643556541711]
我々は、時間とともに改善の正式な保証とともに、信念表現を動的に洗練する時限解法を提案する。
一般的なエントロピー推定器の有効性を示し、計算コストを桁違いに削減する。
実験の結果,$rho$POMCPOW は効率と解品質の両方において最先端の解法よりも優れていた。
論文 参考訳(メタデータ) (2025-02-04T18:19:40Z) - Finite-time System Identification and Adaptive Control in Autoregressive
Exogenous Systems [79.67879934935661]
未知のARXシステムのシステム識別と適応制御の問題について検討する。
我々は,オープンループとクローズループの両方のデータ収集の下で,ARXシステムに対する有限時間学習保証を提供する。
論文 参考訳(メタデータ) (2021-08-26T18:00:00Z) - Modular Deep Reinforcement Learning for Continuous Motion Planning with
Temporal Logic [59.94347858883343]
本稿では,マルコフ決定過程(MDP)をモデルとした自律動的システムの運動計画について検討する。
LDGBA と MDP の間に組込み製品 MDP (EP-MDP) を設計することである。
モデルフリー強化学習(RL)のためのLDGBAベースの報酬形成と割引スキームは、EP-MDP状態にのみ依存する。
論文 参考訳(メタデータ) (2021-02-24T01:11:25Z) - Acting in Delayed Environments with Non-Stationary Markov Policies [57.52103323209643]
本稿では,MDPにおける学習と計画のためのフレームワークについて紹介する。
実行が遅れると、元の状態空間における決定論的マルコフポリシーは最大報酬を得るのに十分であるが、非定常である必要があることを証明します。
我々は、状態拡張に頼らずに遅延実行タスクを解く非定常Q学習スタイルのモデルベースアルゴリズムを考案した。
論文 参考訳(メタデータ) (2021-01-28T13:35:37Z) - Stochastic Finite State Control of POMDPs with LTL Specifications [14.163899014007647]
部分的に観測可能なマルコフ決定プロセス(POMDP)は、不確実性の下での自律的な意思決定のためのモデリングフレームワークを提供する。
本稿では,POMDPに対する準最適有限状態制御器(sFSC)の合成に関する定量的問題について考察する。
本稿では,sFSC サイズが制御される有界ポリシアルゴリズムと,連続的な繰り返しにより制御器の性能が向上する任意の時間アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-01-21T18:10:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。