Fugu-MT 論文翻訳(概要): Connect the Dots: Training LLMs for Long-Lifecycle Agents with Cross-Domain Generalization Via Reinforcement Learning

論文の概要: Connect the Dots: Training LLMs for Long-Lifecycle Agents with Cross-Domain Generalization Via Reinforcement Learning

arxiv url: http://arxiv.org/abs/2606.20002v1
Date: Thu, 18 Jun 2026 09:38:45 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-19 18:23:39.77107
Title: Connect the Dots: Training LLMs for Long-Lifecycle Agents with Cross-Domain Generalization Via Reinforcement Learning
Title（参考訳）: ドットを接続する: クロスドメイン一般化型強化学習による長ライフサイクルエージェントのLLM訓練
Authors: Yanxi Chen, Weijie Shi, Yuexiang Xie, Boyi Hu, Yaliang Li, Bolin Ding, Jingren Zhou,
Abstract要約: 大型言語モデル(LLM)を"Connect the Dots"(CoD)に接続するためのフレームワークを提案する。 LLMベースのAIエージェントが環境にデプロイされると、環境を継続的に探索しながら、タスクの長いシーケンスを解決する。本稿では,詳細な信用代入を伴うGRPOスタイルのRLアルゴリズムを含む,CoDフレームワークの概念実証実装を提案する。
参考スコア（独自算出の注目度）: 82.3676770818744
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This work presents a general framework for training large language models (LLMs) to "Connect the Dots" (CoD), a meta-capability required by long-lifecycle agents: as an LLM-based AI agent gets deployed in an environment, it solves a long sequence of tasks while continuously exploring the environment, learning from its own experiences, and iteratively self-updating its context about the environment, thereby achieving progressively better performance on future tasks conditioned on the updated context. Major components of the CoD framework include: (1) algorithm design and infrastructure for end-to-end reinforcement learning (RL) with long rollout sequences interleaving solve-task and update-context episodes; (2) tasks and environments for incentivizing and eliciting the targeted meta-capability in LLMs during training, as well as for faithfully measuring progress during evaluation. We present proof-of-concept implementations of the CoD framework, including a GRPO-style RL algorithm with fine-grained credit assignment, as well as tasks and environments tailored to the targeted meta-capability (rather than domain-specific LLM capabilities or standard task-by-task RL). Empirical results validate the efficacy of end-to-end RL training in the CoD setting, and demonstrate the potential for out-of-distribution generalization -- within the training domains, across different domains, and from CoD to Ralph-loop settings -- of the elicited meta-capability. Our investigation of CoD connects several lines of prior works, and opens up new opportunities for advancing LLMs and AI agents. To facilitate further research and applications, we release our implementations at \url{https://github.com/agentscope-ai/Trinity-RFT/tree/research/cod/examples/research_cod}.
Abstract（参考訳）: この研究は、LLMベースのAIエージェントが環境にデプロイされると、環境を継続的に探索しながらタスクの長いシーケンスを解決し、自身の経験から学び、環境に関するコンテキストを反復的に自己更新し、それによって、更新されたコンテキストに照らされた将来のタスクに対する徐々に優れたパフォーマンスを達成する。 CoDフレームワークの主な構成要素は,(1)解決タスクと更新コンテキストのエピソードをインターリーブする長いロールアウトシーケンスを持つエンドツーエンド強化学習(RL)のためのアルゴリズム設計と基盤,(2)学習中のLLMの目標となるメタ能力のインセンティブと引き起こし,評価中の進捗を忠実に測定するタスクと環境である。提案するCoDフレームワークの概念実証実装には,詳細なクレジット割り当てを備えたGRPOスタイルのRLアルゴリズムや,対象とするメタ能力(ドメイン固有のLLM機能や標準タスクバイタスクRLではなく)に適したタスクや環境などが含まれる。実証的な結果は、CoD設定におけるエンドツーエンドのRLトレーニングの有効性を検証し、トレーニングドメイン内、異なるドメイン内、そしてCoDからラルフループ設定(英語版)から引き出されたメタキャパビリティのアウト・オブ・ディストリビューションの一般化の可能性を示す。我々のCoDに関する調査は、いくつかの先行研究を結び、LLMやAIエージェントを前進させる新たな機会を開く。さらなる研究と応用を促進するため、我々は \url{https://github.com/agentscope-ai/Trinity-RFT/tree/research/cod/examples/research_cod} で実装をリリースしました。

関連論文リスト

A Practitioner's Guide to Multi-turn Agentic Reinforcement Learning [12.179148605060298]
マルチターン強化学習を通じて,大規模言語モデルをエージェントとして訓練する上で,実際にどのような効果があるのか,どのような効果があるのかを検討する。デザインスペースを環境、報酬、ポリシーという3つの相互関係の柱に分割します。これらの知見を,3つの柱にまたがる共同設計を指導する学習レシピに抽出する。
論文参考訳（メタデータ） (2025-10-01T17:23:04Z)
Agentic Reinforced Policy Optimization [66.96989268893932]
検証可能な報酬付き大規模強化学習(RLVR)は,大規模言語モデル(LLM)を単一ターン推論タスクに活用する効果を実証している。現在のRLアルゴリズムは、モデル固有のロングホライゾン推論能力と、マルチターンツールインタラクションにおけるその習熟性のバランスが不十分である。エージェント強化ポリシー最適化(ARPO: Agentic Reinforced Policy Optimization)は,マルチターンLDMエージェントを学習するためのエージェントRLアルゴリズムである。
論文参考訳（メタデータ） (2025-07-26T07:53:11Z)
Omni-Thinker: Scaling Multi-Task RL in LLMs with Hybrid Reward and Task Scheduling [66.0871543682453]
我々はOmni-Thinkerについて紹介する。Omni-Thinkerは多種多様なタスクにわたって大きな言語モデルをスケールする統合強化学習フレームワークである。我々のスケジューラは,BWTに基づいてタスクを順序付けし,マルチタスク性能を向上する。
論文参考訳（メタデータ） (2025-07-20T01:50:16Z)
UAS Visual Navigation in Large and Unseen Environments via a Meta Agent [0.13654846342364302]
本研究では,大規模都市環境下でのナビゲーションを効率的に学習するためのメタカリキュラムトレーニング手法を提案する。トレーニングカリキュラムを階層的に整理し,エージェントを粗い状態から目標タスクへ誘導する。特定のタスクに対するポリシーの獲得に焦点を当てた従来の強化学習(RL)とは対照的に、MRLは、新しいタスクへの高速転送能力を持つポリシーを学習することを目的としている。
論文参考訳（メタデータ） (2025-03-20T01:44:59Z)
SWEET-RL: Training Multi-Turn LLM Agents on Collaborative Reasoning Tasks [110.20297293596005]
大規模言語モデル(LLM)エージェントは、実世界のタスクでマルチターンインタラクションを実行する必要がある。 LLMエージェントを最適化するための既存のマルチターンRLアルゴリズムは、LLMの一般化能力を活用しながら、複数回にわたって効果的なクレジット割り当てを行うことができない。本稿では,新たなRLアルゴリズムであるSWEET-RLを提案する。我々の実験は、SWEET-RLがコルベンチにおける成功率と勝利率を、他の最先端マルチターンRLアルゴリズムと比較して6%向上することを示した。
論文参考訳（メタデータ） (2025-03-19T17:55:08Z)
Words as Beacons: Guiding RL Agents with High-Level Language Prompts [6.7236795813629]
大型言語モデル(LLM)は「教師」として、複雑なタスクをサブゴールに分解することでエージェントの学習プロセスを導く。 LLMは、人間と同じような方法で、環境のために定義されたタスクを達成するためのサブゴールを提供することができる。トレーニングフェーズの間のみLLMに問い合わせることができ、エージェントはLLMの介入なしに環境内で操作できる。
論文参考訳（メタデータ） (2024-10-11T08:54:45Z)
Discrete Factorial Representations as an Abstraction for Goal Conditioned Reinforcement Learning [99.38163119531745]
離散化ボトルネックを適用することにより,目標条件付きRLセットアップの性能が向上することを示す。分布外目標に対する期待した回帰を実験的に証明し、同時に表現的な構造で目標を指定できるようにします。
論文参考訳（メタデータ） (2022-11-01T03:31:43Z)
Continuous Coordination As a Realistic Scenario for Lifelong Learning [6.044372319762058]
ゼロショット設定と少数ショット設定の両方をサポートするマルチエージェント生涯学習テストベッドを導入する。最近のMARL法、および制限メモリおよび計算における最新のLLLアルゴリズムのベンチマークを評価します。我々は経験的に、我々の設定で訓練されたエージェントは、以前の作業による追加の仮定なしに、未発見のエージェントとうまく協調できることを示します。
論文参考訳（メタデータ） (2021-03-04T18:44:03Z)
Meta Reinforcement Learning with Autonomous Inference of Subtask Dependencies [57.27944046925876]
本稿では,タスクがサブタスクグラフによって特徴づけられるような,新しい数発のRL問題を提案し,対処する。メタ政治を直接学習する代わりに、Subtask Graph Inferenceを使ったメタラーナーを開発した。実験の結果,2つのグリッドワールド領域とStarCraft II環境において,提案手法が潜在タスクパラメータを正確に推定できることが確認された。
論文参考訳（メタデータ） (2020-01-01T17:34:00Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。