論文の概要: REBA: A Revealed Belief Automaton Framework for Online Planning in Continuous POMDPs
- arxiv url: http://arxiv.org/abs/2606.21971v1
- Date: Sat, 20 Jun 2026 10:01:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-25 23:28:47.902675
- Title: REBA: A Revealed Belief Automaton Framework for Online Planning in Continuous POMDPs
- Title(参考訳): REBA: 継続的POMDPにおけるオンラインプランニングのためのRevealed Belief Automatonフレームワーク
- Authors: Xiangwei Chen, Lingling Fang, Andreas Holzinger, Liming Chen,
- Abstract要約: Revealed Belief Automaton (REBA)は、啓示イベントのオンライン認証のためのイベント駆動フレームワークである。
我々は、オンライン有限オートマトンを実現するために、認証アンカー上で漸進的なトポロジー適応機構を開発する。
REBAは評価されたベースラインすべてと一致または超え、主要なメートル法は、最先端のアプローチに対して+17.0%から+47.4%である。
- 参考スコア(独自算出の注目度): 10.520568737566732
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Online planning in continuous partially observable Markov decision processes (POMDPs) using $ω$-regular specifications requires handling continuous belief dynamics within the finite symbolic memory in order to track temporal progress. Existing methods based on either direct search in belief space or predefined discrete abstractions suffer from drawbacks, e.g., lack of symbolic memory for long-horizon logical progress or difficult to certify from noisy online beliefs. As such, obtaining reliable symbolic states online from continuous observations remains a challenge. To address this issue, we introduce the Revealed Belief Automaton (REBA), an event-driven framework that advances the research from global belief-space discretization to a fundamental new way of thinking, namely online certification of revelation events. Specifically, we propose an online revelation method that, through information-theoretic gates, can dynamically analyse and establish belief abstraction from the continuous belief space by discovering reliable anchors among noisy beliefs. We then develop an incremental topology adaptation mechanism over the certified anchors to realise the online finite Belief Automaton. By combining with the $ω$-regular specification, REBA is able to support formal parity policy synthesis without a predefined discrete abstraction, which in turn can guide the Monte Carlo Tree Search process to perform online search beyond its local horizon. In addition, we design an error decomposition analysis which can assess the effectiveness and reliability of this discrete guidance for the underlying continuous POMDP. Empirical evaluations in patrolling and navigation scenarios show that REBA matches or exceeds all evaluated baselines, with primary metric gains of +17.0\% to +47.4\% over state-of-the-art approaches.
- Abstract(参考訳): ω$-regular仕様を用いた連続的部分観測可能なマルコフ決定プロセス(POMDP)のオンライン計画では、時間的進行を追跡するために有限シンボルメモリ内の連続的信念ダイナミクスを扱う必要がある。
信念空間の直接探索や事前定義された離散抽象概念に基づく既存の手法は、例えば、長期の論理的進歩のためのシンボル記憶の欠如や、ノイズの多いオンライン信念からの認証が困難といった欠点に悩まされている。
このように、連続的な観測から信頼できるシンボル状態を取得することは、依然として課題である。
この問題に対処するため、我々はRevealed Belief Automaton(REBA)というイベント駆動のフレームワークを導入し、世界的信念空間の離散化から基本的な新しい思考方法、すなわち、啓示イベントのオンライン認証へと研究を進める。
具体的には、情報理論ゲートを通して、ノイズのある信念間の信頼なアンカーを発見することによって、継続的な信念空間からの信念抽象化を動的に分析し、確立できるオンライン啓示手法を提案する。
そこで我々は,オンライン有限オートマトンを実現するために,認証アンカー上に漸進的なトポロジー適応機構を開発する。
ω$-regular仕様と組み合わせることで、REBAは、事前に定義された抽象概念を使わずに、公式なパリティポリシー合成をサポートすることができる。
さらに,この離散的ガイダンスの有効性と信頼性を評価できる誤り分解解析を設計する。
パトロールとナビゲーションのシナリオにおける実証的な評価は、REBAがすべての評価基準値に一致または超え、主要なメートル法は+17.0.%から+47.4.%であることを示している。
関連論文リスト
- VeriTrip: A Verifiable Benchmark for Travel Planning Agents over Unstructured Web Corpora [24.484384823423216]
既存のベンチマークでは、情報ノイズを考慮せず、複数ソースの事実矛盾を無視し、論理的計画に視覚的認識を根ざす必要性を見落としている。
エージェントの堅牢性と信頼性の増大に対応するために設計された検証可能なベンチマークであるVeriTripを紹介する。
論文 参考訳(メタデータ) (2026-05-27T16:14:47Z) - LaSER: Internalizing Explicit Reasoning into Latent Space for Dense Retrieval [74.72139580745511]
LaSERは、レトリバーの潜在空間に明示的な推論を内部化する、新しい自己蒸留フレームワークである。
提案手法は, 明示的なCoTパイプラインの推論深度と, 標準的な高密度検索器の推論効率をうまく組み合わせる。
論文 参考訳(メタデータ) (2026-03-02T04:11:18Z) - Online identification of nonlinear time-varying systems with uncertain information [7.071760583269057]
デジタルツイン(DT)は、複雑なサイバー物理システムのリアルタイム監視と予測保守のためのコアイネーブラーとして機能する。
既存の技術はこれらの要求を同時に満たすのに苦労している。
本稿では,ベイズ回帰に基づくシンボリックラーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2026-01-15T13:33:48Z) - Towards Inference-time Scaling for Continuous Space Reasoning [55.40260529506702]
推論時間スケーリングは、大規模言語モデルにおけるテキストベースの推論に有効であることが証明されている。
本稿では,そのような確立された手法が連続空間における推論にうまく適応できるかどうかを考察する。
本研究では,ドロップアウト型サンプリングによる多種多様な推論経路の実現可能性を示す。
論文 参考訳(メタデータ) (2025-10-14T05:53:41Z) - Retrieval is Not Enough: Enhancing RAG Reasoning through Test-Time Critique and Optimization [58.390885294401066]
Retrieval-augmented Generation (RAG) は知識基底型大規模言語モデル(LLM)を実現するためのパラダイムとして広く採用されている。
RAGパイプラインは、モデル推論が得られた証拠と整合性を維持するのに失敗することが多く、事実上の矛盾や否定的な結論につながる。
批判駆動アライメント(CDA)に基づく新しい反復的枠組みであるAlignRAGを提案する。
AlignRAG-autoは、動的に洗練を終了し、批判的な反復回数を事前に指定する必要がなくなる自律的な変種である。
論文 参考訳(メタデータ) (2025-04-21T04:56:47Z) - Interpretable Concept-Based Memory Reasoning [12.562474638728194]
コンセプトベースのメモリリゾナー(CMR)は、人間に理解でき、検証可能なタスク予測プロセスを提供するために設計された新しいCBMである。
CMRは、最先端のCBMに対する精度-解釈可能性のトレードオフを向上し、基礎的な真実と整合した論理規則を発見し、規則の介入を可能にし、事前デプロイ検証を可能にする。
論文 参考訳(メタデータ) (2024-07-22T10:32:48Z) - Modular Deep Reinforcement Learning for Continuous Motion Planning with
Temporal Logic [59.94347858883343]
本稿では,マルコフ決定過程(MDP)をモデルとした自律動的システムの運動計画について検討する。
LDGBA と MDP の間に組込み製品 MDP (EP-MDP) を設計することである。
モデルフリー強化学習(RL)のためのLDGBAベースの報酬形成と割引スキームは、EP-MDP状態にのみ依存する。
論文 参考訳(メタデータ) (2021-02-24T01:11:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。