論文の概要: A Reward-Petri-Net Interpretation of Temporal Behavior Trees
- arxiv url: http://arxiv.org/abs/2606.21350v1
- Date: Fri, 19 Jun 2026 11:47:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-25 14:09:24.339687
- Title: A Reward-Petri-Net Interpretation of Temporal Behavior Trees
- Title(参考訳): 時間的行動木の逆ペトリネット解釈
- Authors: Till Schmeil, Günther Waxenegger-Wilfing, Sebastian Schirmer,
- Abstract要約: 本稿では、強化学習のためのReward-Petri-Nets(RPN)として、TBT(Temporal Behavior Tree)の解釈を紹介する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper introduces an interpretation of Temporal Behavior Trees (TBTs) as Reward-Petri-Nets (RPNs) for reinforcement learning (RL). Designing reward functions for complex, long-horizon robotic tasks is notoriously difficult, especially when tasks have hierarchical structure and temporal constraints. TBTs extend conventional behavior trees (BTs) used in robotic applications by incorporating temporal properties into their leaf nodes. This allows TBTs to represents not only the behavioral task structure defined by BT operators such as Sequence, Fallback, and Parallel, but also the task's temporal constraints. In this work, the constraints are specified in the leaf nodes using Linear Temporal Logic. In order to inform RL rewards using TBTs, we provide a translation from TBT into a Petri Net (PN) and show how rewards can be automatically assigned based on the TBT's structure, resulting in a RPN. In a series of increasingly challenging environments, we demonstrate how TBT-based rewards enable learning where vanilla RL fails, improve sample efficiency, and offer flexible, intuitive control over the learning progress. We showcase the learning impact by using different reward distribution schemes and TBT structures.
- Abstract(参考訳): 本稿では,強化学習のためのReward-Petri-Nets (RPNs) として,TBT(Temporal Behavior Trees)の解釈を紹介する。
複雑な長距離ロボットタスクの報酬関数を設計することは、特にタスクが階層構造と時間的制約を持つ場合、非常に難しい。
TBTは、葉ノードに時間的特性を組み込むことで、ロボットアプリケーションで使用される従来の行動木(BT)を拡張している。
これにより、TBTは、Sequence、Fallback、ParallelといったBT演算子によって定義された行動的タスク構造だけでなく、タスクの時間的制約も表現できる。
この作業では、制約を線形時間論理を用いて葉ノードに指定する。
TBTを用いてRL報酬を通知するために、TBTからペトリネット(PN)に変換し、TBTの構造に基づいて報酬を自動的に割り当てる方法を示し、RPNとなる。
TBTベースの報酬によって、バニラRLが失敗する場所を学習し、サンプル効率を改善し、学習の進捗を柔軟で直感的に制御できることを示す。
報酬分布の異なるスキームとTBT構造を用いて学習効果を示す。
関連論文リスト
- Reward Shaping and Action Masking for Compositional Tasks using Behavior Trees and LLMs [3.285378336473673]
強化学習は、エージェントポリシーを最適化してサブタスクを完了するために使用することができる。
最近の研究は、報酬形成とアクションマスキングを自動化するために、大きな言語モデル(LLM)を使用している。
マスク報酬行動木(MRBT, masking reward behavior tree)は,反応型およびモジュラー型報酬およびアクションマスク機能として使用されるシンボル構造である。
論文 参考訳(メタデータ) (2026-05-07T07:33:08Z) - Zero-Shot Instruction Following in RL via Structured LTL Representations [50.41415009303967]
マルチタスク強化学習では、エージェントが訓練中に見えない新しいタスクをゼロショットで実行しなければならない。
この設定では、最近、時間的に拡張された構造化タスクを特定するための強力なフレームワークとして線形時間論理が採用されている。
既存のアプローチはジェネラリストの政策を訓練することに成功しているが、仕様に固有のリッチな論理的・時間的構造を効果的に捉えるのに苦労することが多い。
論文 参考訳(メタデータ) (2026-02-15T23:22:50Z) - Zero-Shot Instruction Following in RL via Structured LTL Representations [54.08661695738909]
リニア時間論理(LTL)は、強化学習(RL)エージェントのための複雑で構造化されたタスクを特定するための魅力的なフレームワークである。
近年の研究では、命令を有限オートマトンとして解釈し、タスク進捗を監視する高レベルプログラムと見なすことができ、テスト時に任意の命令を実行することのできる1つのジェネラリストポリシーを学習できることが示されている。
本稿では,この欠点に対処する任意の命令に従うために,マルチタスクポリシーを学習するための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2025-12-02T10:44:51Z) - Gradient Boosting Reinforcement Learning [9.66275447955737]
Gradient Boosting Reinforcement Learning (GBRL) は、勾配強化木(GBT)の強みを強化学習(RL)タスクに適応させるフレームワークである。
GBRLは、構造化された観察と分類的特徴を持つ領域において、ニューラルネットワーク(NN)よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-07-11T07:52:33Z) - Shrink-Perturb Improves Architecture Mixing during Population Based
Training for Neural Architecture Search [62.997667081978825]
ニューラルネットワークを同時にトレーニングし、混合することは、ニューラルネットワークサーチ(NAS)を実行するための有望な方法であることを示す。
PBT-NAS は PBT-NAS をNAS に適応させる手法であり,低性能なネットワークを個体群で置き換えることでアーキテクチャを改良し,良好な性能のネットワークを混合し,縮小パーターブ法を用いて重みを継承する手法を提案する。
論文 参考訳(メタデータ) (2023-07-28T15:29:52Z) - Scalable Real-Time Recurrent Learning Using Columnar-Constructive
Networks [19.248060562241296]
リアルタイム反復学習をスケーラブルにする2つの制約を提案する。
ネットワークを独立したモジュールに分解するか、段階的にネットワークを学習することで、RTRLをパラメータ数と線形にスケールできることを示す。
本稿では,動物学習とアタリ2600ゲームに対する事前学習ポリシーのポリシー評価により,Trncated-BPTTに対するアプローチの有効性を示す。
論文 参考訳(メタデータ) (2023-01-20T23:17:48Z) - TR-BERT: Dynamic Token Reduction for Accelerating BERT Inference [54.791572981834435]
既存の訓練済み言語モデル(PLM)は推論において計算コストがかかることが多い。
TR-BERT と呼ばれる PLM の推論を高速化する動的トークン削減手法を提案する。
TR-BERTは、トークン削減プロセスを多段階のトークン選択問題として定式化し、強化学習を通じて選択戦略を自動的に学習する。
論文 参考訳(メタデータ) (2021-05-25T02:28:51Z) - Towards Evaluating and Training Verifiably Robust Neural Networks [81.39994285743555]
We study the relationship between IBP and CROWN, and prove that CROWN are always tight than IBP when select each bounding lines。
線形結合伝播(LBP) CROWNの緩やかなバージョンを提案する。これは、大きなネットワークを検証して、より低い検証エラーを得るのに使用できる。
論文 参考訳(メタデータ) (2021-04-01T13:03:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。