Fugu-MT 論文翻訳(概要): Select-to-Act: Hierarchical Reinforcement Learning via Adaptive Language Guidance

論文の概要: Select-to-Act: Hierarchical Reinforcement Learning via Adaptive Language Guidance

arxiv url: http://arxiv.org/abs/2606.22350v1
Date: Sun, 21 Jun 2026 06:15:42 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-25 18:49:32.271882
Title: Select-to-Act: Hierarchical Reinforcement Learning via Adaptive Language Guidance
Title（参考訳）: Select-to-Act:適応型言語指導による階層的強化学習
Authors: Hanping Zhang, Adam Koziak, Yuhong Guo,
Abstract要約: 強化学習(RL)は、逐次意思決定に広く適用されてきたが、環境とのコストのかかる相互作用により、サンプル効率の低下に悩まされることが多い。自然言語命令を動的に選択可能な意味指導として明示的にモデル化する階層的RLフレームワークであるemphHierarchical Reinforcement Learning with Language Instructions (HRLLI)を提案する。
参考スコア（独自算出の注目度）: 21.023547622557775
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Reinforcement Learning (RL) has been widely applied to sequential decision-making, yet it often suffers from poor sample efficiency due to costly interactions with the environment. A limited line of recent work has started exploring improving RL efficiency by leveraging external knowledge expressed in natural-language instructions. However, the few existing approaches typically treat the entire instruction as a single conditioning input, failing to account for the stage-dependent nature of language guidance, especially in complex environments. In this paper, we propose \emph{Hierarchical Reinforcement Learning with Language Instructions (HRLLI)}, a hierarchical RL framework that explicitly models natural-language instructions as dynamically selectable semantic guidance during decision-making. HRLLI decomposes instructions into a set of piecewise guidance elements, where each instruction piece may become relevant at different stages of interaction with the environment. A novel hierarchical RL policy structure is then formulated in a \emph{Select-to-Act} paradigm: a high-level semantic policy acts as a guidance selector that selects the most relevant instruction piece to the current state to guide the low-level agent's decision, while a low-level policy executes environment actions conditioned on the selected guidance. The two-level policies are learned simultaneously to maximize augmented expected returns from interactions with the environment. This design enables the agent to adaptively ground language instructions into stage-specific decisions during interaction. Experiments on the instruction-intensive RTFM benchmark show that HRLLI consistently outperforms strong instruction-conditioned RL baselines, demonstrating that explicitly modeling adaptive instruction selection significantly improves the effectiveness of RL.
Abstract（参考訳）: 強化学習(Reinforcement Learning, RL)は、逐次的な意思決定に広く適用されてきたが、環境とのコストのかかる相互作用により、サンプル効率の低下に悩まされることが多い。最近の研究の限られた行は、自然言語命令で表される外部知識を活用することにより、RL効率の改善を探求し始めている。しかし、いくつかの既存手法では命令全体を単一条件入力として扱い、特に複雑な環境では言語指導の段階依存の性質を考慮できない。本稿では,自然言語命令を動的に選択可能な意味指導として明示的にモデル化する階層的RLフレームワークである「HRLLI」を提案する。 HRLLIは命令を断片的な誘導要素に分解し、各命令片は環境との相互作用の異なる段階で関連付けられる。次に、新しい階層的なRLポリシー構造を「emph{Select-to-Act}」パラダイムで定式化し、高レベルのセマンティックポリシーは、選択したガイダンスに基づいて環境アクションを実行するとともに、最も関連性の高い命令片を現在の状態に選択し、低レベルのエージェントの決定を誘導するガイダンスセレクタとして機能する。 2段階のポリシーを同時に学習し、環境との相互作用から期待されるリターンを最大化する。この設計により、エージェントは対話中に言語命令をステージ固有の決定に適応的に下すことができる。命令集中型RTFMベンチマークの実験では、HRLLIは強い命令条件付きRLベースラインを一貫して上回り、適応型命令選択を明示的にモデル化することでRLの有効性が大幅に向上することを示した。

関連論文リスト

Learning to Route Languages for Multilingual Policy Optimization [50.044784120224335]
大規模言語モデルは異種多言語コーパスで訓練される。本稿では,言語を選択可能な変数として扱うオンラインポリシー最適化フレームワークLRPOを提案する。
論文参考訳（メタデータ） (2026-05-25T02:28:41Z)
Moira: Language-driven Hierarchical Reinforcement Learning for Pair Trading [34.923407379006626]
多くのシーケンシャルな意思決定問題は階層構造を示し、ハイレベルなセマンティックな選択は下流の動作を制限し、フィードバックは遅延し曖昧である。この課題は、資産対選択のための長期水平意味推論と、部分的可観測性の下での短期水平実行を自然に組み合わせたドメインであるペアトレーディングを通じて研究する。階層的強化学習問題としてペアトレーディングを定式化し,高レベルかつ低レベルのポリシを大言語モデル(LLM)でパラメータ化し,即時更新によってのみ最適化する言語駆動型最適化フレームワークを提案する。
論文参考訳（メタデータ） (2026-05-03T16:37:52Z)
Self-Guided Plan Extraction for Instruction-Following Tasks with Goal-Conditional Reinforcement Learning [49.0945829107309]
SuperIgorは,自己学習機構を通じて,高レベルプランの生成と洗練を可能にする。 RLエージェントは生成された計画に従うように訓練され、言語モデルはRLのフィードバックと好みに基づいてこれらの計画を適応し、修正する。その結果、SuperIgorエージェントはベースラインメソッドよりも厳密な命令に固執する一方で、これまで見つからなかった命令に対して強力な一般化を示すことが明らかとなった。
論文参考訳（メタデータ） (2026-04-22T14:19:23Z)
Zero-Shot Instruction Following in RL via Structured LTL Representations [54.08661695738909]
リニア時間論理(LTL)は、強化学習(RL)エージェントのための複雑で構造化されたタスクを特定するための魅力的なフレームワークである。近年の研究では、命令を有限オートマトンとして解釈し、タスク進捗を監視する高レベルプログラムと見なすことができ、テスト時に任意の命令を実行することのできる1つのジェネラリストポリシーを学習できることが示されている。本稿では,この欠点に対処する任意の命令に従うために,マルチタスクポリシーを学習するための新しいアプローチを提案する。
論文参考訳（メタデータ） (2025-12-02T10:44:51Z)
Agentic Policy Optimization via Instruction-Policy Co-Evolution [44.74237684380034]
INSPOは、命令-政治共進化のための新しいフレームワークである。強化学習ループの動的コンポーネントとして命令最適化を統合する。実験では、INSPOは計算オーバーヘッドを極端に増加させるだけで、かなりの性能向上を達成する。
論文参考訳（メタデータ） (2025-12-01T17:56:29Z)
A Fuzzy Logic Prompting Framework for Large Language Models in Adaptive and Uncertain Tasks [2.1756081703276]
動的でユーザ中心のタスクにまたがる大規模言語モデル(LLM)のより安全で適応的な利用をサポートするモジュール型プロンプトフレームワークを導入する。本手法は,ファジィな足場論理と適応規則を符号化した制御スキーマと,自然言語境界プロンプトを組み合わせる。シミュレーションされたインテリジェントなチューター設定では、このフレームワークは、複数のモデル間の足場品質、適応性、命令的アライメントを改善し、標準のベースラインを上回ります。
論文参考訳（メタデータ） (2025-08-08T23:50:48Z)
Instruction Following with Goal-Conditioned Reinforcement Learning in Virtual Environments [42.06453257292203]
本稿では,大規模言語モデルの深い言語理解と強化学習エージェントの適応行動実行能力を組み合わせた階層型フレームワークを提案する。 IGLUではエージェントが構造を構築するように指示され、Crafterではエージェントがタスクを実行し、言語コマンドに従って周辺環境のオブジェクトと対話する。
論文参考訳（メタデータ） (2024-07-12T14:19:36Z)
AutoGuide: Automated Generation and Selection of Context-Aware Guidelines for Large Language Model Agents [74.17623527375241]
オフライン体験からコンテキスト認識ガイドラインを自動的に生成する,AutoGuideという新しいフレームワークを導入する。その結果,本ガイドラインはエージェントの現在の意思決定プロセスに関連性のある知識の提供を促進する。評価の結果, AutoGuide は複雑なベンチマーク領域において, 競争ベースラインを著しく上回っていることがわかった。
論文参考訳（メタデータ） (2024-03-13T22:06:03Z)
Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文参考訳（メタデータ） (2024-02-09T07:45:26Z)
ELLA: Exploration through Learned Language Abstraction [6.809870486883877]
ELLAは、環境によって提供されるスパースな報酬を豊かにするために、単純な低レベルの指示と高レベルの指示と相関する報酬形成アプローチです。 ELLAは、競合言語ベースの報酬形成やノーシェイピング方法と比較して、複数の環境でサンプル効率が大幅に向上しています。
論文参考訳（メタデータ） (2021-03-10T02:18:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。