論文の概要: Multi-agent rendezvous in fluid flows via reinforcement learning
- arxiv url: http://arxiv.org/abs/2606.11274v1
- Date: Tue, 09 Jun 2026 09:44:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-11 16:42:38.103984
- Title: Multi-agent rendezvous in fluid flows via reinforcement learning
- Title(参考訳): 強化学習による流体流動のマルチエージェントランデブー
- Authors: Bocheng Li, Jingran Qiu, Lihao Zhao,
- Abstract要約: 我々は多エージェント強化学習(MARL)アプローチを採用し、渦流における物理インフォームドランデブー戦略を開発した。
エージェントが相手に向かってナビゲートするナイーブ戦略と比較して、MARL戦略はランデブー率を大幅に改善する。
理論的解析により、流体の変形がランデブー過程を妨げることが示されている。
- 参考スコア(独自算出の注目度): 2.020917258669917
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Rendezvous is a critical task for multi-agent systems, requiring agents to coordinate to meet at an unspecified location. However, achieving this in fluid environments presents a challenge, as it remains unclear how agents can exploit underlying fluid kinematics to facilitate convergence. In this study, we adopt a multi-agent reinforcement learning (MARL) approach to develop physics-informed rendezvous strategies in vortical flows. Compared to a naive strategy, where agents navigate toward their counterparts, MARL strategies significantly improve the rendezvous rate. MARL strategies also show transferability across varying vortex intensities, vortex scales, and swarm sizes. By breaking the symmetry of the state-action map, MARL strategy leverages a non-intuitive mechanism that prevents agents from becoming trapped in separate vortices, thereby enhancing rendezvous success. Additionally, a heuristic strategy is extracted from the learned strategy and also outperforms the naive strategy. Furthermore, a theoretical analysis demonstrates that fluid deformation impedes the rendezvous process. Large finite-time Lyapunov exponents identify where fluid effects separate adjacent agents, suggesting that targets should be planned in weak-deformation regions. Our findings reveal the important role that agent-fluid interactions play in multi-agent tasks and highlight the MARL capability to explore swarm intelligence in complex flow environments.
- Abstract(参考訳): Rendezvousはマルチエージェントシステムにとって重要なタスクであり、エージェントが特定されていない場所で会うように調整する必要がある。
しかし、流体環境においてこれを達成することは、エージェントが流体キネマティクスを利用して収束を促進する方法が不明確であることから、課題となっている。
本研究では,多エージェント強化学習(MARL)アプローチを用いて,渦流における物理インフォームドランデブー戦略を開発する。
エージェントが相手に向かってナビゲートするナイーブ戦略と比較して、MARL戦略はランデブー率を大幅に改善する。
MARL戦略はまた、様々な渦強度、渦スケール、Swarmサイズにわたる転送可能性を示す。
状態-作用マップの対称性を破ることによって、MARLの戦略は、エージェントが別々の渦に閉じ込められるのを防ぐ非直感的なメカニズムを活用する。
さらに、学習した戦略からヒューリスティック戦略を抽出し、ナイーブ戦略を上回ります。
さらに、理論的解析により、流体の変形がランデブー過程を阻害することを示した。
大規模な有限時間リアプノフ指数は、流体効果が隣接する物質を分離する場所を同定し、弱い変形領域で標的を計画すべきであることを示唆する。
本研究は,エージェント-流体相互作用がマルチエージェントタスクにおいて果たす重要な役割を明らかにし,複雑なフロー環境における群知能を探索するMARL機能を強調した。
関連論文リスト
- HiRO-Nav: Hybrid ReasOning Enables Efficient Embodied Navigation [58.29060712443587]
HiRO-Navは、自身のアクションエントロピーに基づいて、各ステップで思考を行うかどうかを適応的に決定できる最初の種類のエージェントである。
そこで本研究では,ハイブリッド型微調整をコールドスタートとし,その後にオンライン強化学習を施した調整訓練パイプラインを提案する。
textscCHORES-$mathbbS$ObjectNavベンチマークの実験では、HiRO-Navは、密集した考え方と非考えのベースラインの両方よりも成功率とトークン効率のトレードオフが優れていることが示されている。
論文 参考訳(メタデータ) (2026-04-09T13:22:24Z) - Expanding LLM Agent Boundaries with Strategy-Guided Exploration [51.98616048282804]
強化学習(RL)は、コンピュータ使用、ツール呼び出し、コーディングなどのタスクのエージェントとして、大規模言語モデル(LLM)の訓練後において顕著な成功を収めた。
我々は,低レベルな行動から高レベルな言語戦略に移行するための戦略ガイド探索(SGE)を提案する。
論文 参考訳(メタデータ) (2026-03-02T16:28:39Z) - TopoCurate:Modeling Interaction Topology for Tool-Use Agent Training [53.93696896939915]
訓練用ツール使用エージェントは一般的に、パスレート選択されたタスクに対して、軌道変更の成功と強化学習(RL)に依存している。
TopoCurateは,同一タスクから多段階的なロールアウトを統一的な意味的商トポロジに投影する対話型フレームワークである。
TopoCurateは最先端のベースラインに対して4.2%(SFT)と6.9%(RL)という一貫したゲインを達成している。
論文 参考訳(メタデータ) (2026-03-02T10:38:54Z) - Fluid-Agent Reinforcement Learning [28.83171804545455]
現実の世界では、エージェントの数は固定されておらず、プリオリも知られていない。
我々はエージェントが他のエージェントを作成できるフレームワークを提案し、これを流体エージェント環境と呼ぶ。
本稿では,流体エージェントゲームに対するゲーム理論解の概念を提案し,本フレームワーク内でのMARLアルゴリズムの性能を実証的に評価する。
論文 参考訳(メタデータ) (2026-02-16T08:37:46Z) - Grounded Test-Time Adaptation for LLM Agents [75.62784644919803]
大規模言語モデル(LLM)ベースのエージェントは、新規で複雑な環境への一般化に苦慮している。
環境特化情報を活用することで, LLMエージェントを適応するための2つの戦略を提案する。
論文 参考訳(メタデータ) (2025-11-06T22:24:35Z) - Alignment Tipping Process: How Self-Evolution Pushes LLM Agents Off the Rails [103.05296856071931]
本稿では,自己進化型大規模言語モデル(LLM)エージェントに特有の,アライメント・ティッピング・プロセス(ATP)を同定する。
ATPは、連続的な相互作用によってエージェントが訓練中に確立されたアライメント制約を放棄し、強化された自己関心の戦略を支持するときに生じる。
実験の結果、アライメントの利点は自己進化の下で急速に低下し、最初は整合性のない状態に収束したモデルであることが判明した。
論文 参考訳(メタデータ) (2025-10-06T14:48:39Z) - The Landscape of Agentic Reinforcement Learning for LLMs: A Survey [103.32591749156416]
エージェント強化学習(Agentic RL)の出現は、大規模言語モデル(LLM RL)に適用された従来の強化学習からパラダイムシフトを示している。
本研究では, LLM-RLの縮退した単段階マルコフ決定過程(MDPs)と, エージェントRLを定義する部分可観測マルコフ決定過程(POMDPs)とを対比することにより, この概念シフトを定式化する。
論文 参考訳(メタデータ) (2025-09-02T17:46:26Z) - Emergence of Chemotactic Strategies with Multi-Agent Reinforcement Learning [1.9253333342733674]
ケモタキシーの訓練において,強化学習が生物学的システムに対する洞察を与えることができるかどうかを検討する。
各種エージェントの形状,サイズ,水泳速度をシミュレーションし,生物学的水泳選手の身体的制約,すなわちブラウン運動が,強化学習者のトレーニングが失敗する地域につながるかどうかを判定する。
RLの薬剤は、物理的に可能であればすぐに遊泳でき、場合によっては、アクティブスイミングが環境を圧倒する前にも、遊泳が可能であることが判明した。
論文 参考訳(メタデータ) (2024-04-02T14:42:52Z) - Joint Intrinsic Motivation for Coordinated Exploration in Multi-Agent
Deep Reinforcement Learning [0.0]
本稿では,エージェントが一括して斬新な行動を示すような報奨戦略を提案する。
ジムは連続した環境で機能するように設計されたノベルティの集中的な尺度に基づいて共同軌道に報いる。
その結果、最適戦略が高レベルの調整を必要とするタスクの解決には、共同探索が不可欠であることが示唆された。
論文 参考訳(メタデータ) (2024-02-06T13:02:00Z) - Toward Risk-based Optimistic Exploration for Cooperative Multi-Agent
Reinforcement Learning [9.290757451344673]
分布のサンプリング領域をシフトさせることにより協調的に楽観的な行動をもたらすリスクベースの探索を提案する。
本手法は, 量子レグレッションに基づく協調探索を必要とするマルチエージェント環境において, 顕著な性能を示す。
論文 参考訳(メタデータ) (2023-03-03T08:17:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。