論文の概要: When in Doubt, Plan It Out: Committed Small Language Model Deliberation for Reactive Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2606.16995v1
- Date: Mon, 15 Jun 2026 17:31:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-16 18:36:05.106798
- Title: When in Doubt, Plan It Out: Committed Small Language Model Deliberation for Reactive Reinforcement Learning
- Title(参考訳): 疑わしい時、計画する: リアクティブ強化学習のための小さな言語モデル検討
- Authors: Nathan Gavenski, Juarez Monteiro, Francisco Galuppo, Adriano Veloso, Odinaldo Rodrigues,
- Abstract要約: 強化学習 (Reinforcement Learning, RL) の方針は、明示的な熟考が欠如しているため、よく馴染みのない環境では劣化する。
高速でリアクティブなRLポリシと低速で検討可能なSLM(Small Language Model)プランナを組み合わせたハイブリッドアーキテクチャであるPlan,Align,Commit,Think(PACT)を提案する。
- 参考スコア(独自算出の注目度): 1.2526963688768455
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement Learning (RL) policies often degrade in unfamiliar environments because they lack explicit deliberation. We propose Plan, Align, Commit, Think (PACT), a hybrid architecture that combines a fast, reactive RL policy with a slow, deliberative Small Language Model (SLM) planner. PACT invokes the SLM asynchronously to generate and validate candidate action plans. Once a plan is verified through simulation as safe, feasible, and complete, it is executed directly, bypassing the RL policy without retraining or modifying it. Evaluated on three FrozenLake configurations of increasing difficulty, PACT outperforms all baselines while relying on a 2B-parameter SLM backbone, suggesting that deliberative planning and reactive execution are more powerful in concert than either is alone in these settings.
- Abstract(参考訳): 強化学習 (Reinforcement Learning, RL) の方針は、明示的な熟考が欠如しているため、よく馴染みのない環境では劣化する。
高速でリアクティブなRLポリシと低速で検討可能なSLM(Small Language Model)プランナを組み合わせたハイブリッドアーキテクチャであるPlan,Align,Commit,Think(PACT)を提案する。
PACTはSLMを非同期に呼び出し、候補となるアクションプランを生成し検証する。
計画が安全で実現可能で完了したとしてシミュレーションによって検証されると、RLポリシーを回避し、再トレーニングや修正を行わずに直接実行される。
PACTは2BパラメータのSLMバックボーンを頼りに、すべてのベースラインを上回ります。
関連論文リスト
- Beyond Action Residuals: Real-World Robot Policy Steering via Bottleneck Latent Reinforcement Learning [42.74142065376427]
本稿では,Z-Perturbation Reinforcement Learning (ZPRL)を提案する。
現実世界では、ZPRLは模倣ベースポリシーよりも4つのタスクの平均成功率を33.7%向上させる。
論文 参考訳(メタデータ) (2026-05-19T14:43:26Z) - In-Context Autonomous Network Incident Response: An End-to-End Large Language Model Agent Approach [3.733830491643117]
我々は,大規模言語モデルの事前訓練されたセキュリティ知識とコンテキスト内学習を活用して,インシデント対応計画のためのエンドツーエンドのエージェントソリューションを作成することを提案する。
具体的には、認識、推論、計画、行動の4つの機能を1つの軽量LCM(14bモデル)に統合する。
我々のエージェントは、フロンティアLSMよりも最大で23%早く回復できる。
論文 参考訳(メタデータ) (2026-02-13T18:09:30Z) - Enhancing Long Chain-of-Thought Reasoning through Multi-Path Plan Aggregation [32.86351316550696]
我々は、生の長いCoTを分析し、計画と実行ステップからなる推論階層を明らかにする。
本研究の目的は,計画探索と集約による単一パス推論を増強するMPPA(Multi-Path Plan Aggregation)を提案することである。
これを解決するために, Twisted Sequential Monte Carlo (TSMC) を利用するプロセスレベルの優先度最適化スキームであるStep-DPOを導入する。
論文 参考訳(メタデータ) (2025-10-13T17:02:41Z) - ReflecSched: Solving Dynamic Flexible Job-Shop Scheduling via LLM-Powered Hierarchical Reflection [4.101501114944147]
ReflecSchedは、直接スケジューラ以上の LLM を強化するフレームワークである。
複数の計画地平線にまたがるシミュレーションを、簡潔で自然言語の要約に蒸留する。
この要約は、最終的な意思決定モジュールのプロンプトに統合され、非ミオピックアクションを生成するためのガイドとなる。
論文 参考訳(メタデータ) (2025-08-03T11:26:35Z) - Planning without Search: Refining Frontier LLMs with Offline Goal-Conditioned RL [62.984693936073974]
大きな言語モデル(LLM)は、質問応答や対話といったタスクに優れています。
交渉や説得のような相互作用を必要とする複雑なタスクは、さらなる長期の推論と計画を必要とする。
目的条件付き値関数を用いて LLM エージェントの推論を導出する手法を提案する。
論文 参考訳(メタデータ) (2025-05-23T16:51:54Z) - Towards Efficient LLM Grounding for Embodied Multi-Agent Collaboration [68.29746557968107]
本稿では,多エージェント協調のための新しいフレームワークを提案する。これは,効率的な自己調整のための強化アドバンテージフィードバック(Reinforced Advantage feedback, ReAd)を導入する。
Over-AIと難解なRoCoBenchの実験は、ReAdが成功率のベースラインを超え、エージェントの相互作用ステップを著しく減少させることを示している。
論文 参考訳(メタデータ) (2024-05-23T08:33:19Z) - REBEL: Reinforcement Learning via Regressing Relative Rewards [59.68420022466047]
生成モデルの時代における最小限のRLアルゴリズムであるREBELを提案する。
理論的には、自然ポリシーグラディエントのような基本的なRLアルゴリズムはREBELの変種と見なすことができる。
我々はREBELが言語モデリングと画像生成に一貫したアプローチを提供し、PPOやDPOとより強くあるいは類似した性能を実現することを発見した。
論文 参考訳(メタデータ) (2024-04-25T17:20:45Z) - AdaPlanner: Adaptive Planning from Feedback with Language Models [56.367020818139665]
大規模言語モデル(LLM)は、最近、シーケンシャルな意思決定タスクの自律的エージェントとして機能する可能性を実証している。
本研究では,LLMエージェントが環境フィードバックに応じて自己生成計画を適応的に改善することのできるクローズドループアプローチであるAdaPlannerを提案する。
幻覚を緩和するために,様々なタスク,環境,エージェント機能にまたがる計画生成を容易にするコードスタイルのLCMプロンプト構造を開発した。
論文 参考訳(メタデータ) (2023-05-26T05:52:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。