Fugu-MT 論文翻訳(概要): Dreaming when Necessary: Advancing World Action Models with Adaptive Multi-Modal Reasoning

論文の概要: Dreaming when Necessary: Advancing World Action Models with Adaptive Multi-Modal Reasoning

arxiv url: http://arxiv.org/abs/2606.07089v1
Date: Fri, 05 Jun 2026 09:35:48 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-08 14:33:29.672064
Title: Dreaming when Necessary: Advancing World Action Models with Adaptive Multi-Modal Reasoning
Title（参考訳）: 必要なときの夢 - 適応型マルチモーダル推論による世界行動モデルの改善
Authors: Yinzhou Tang, Jingbo Xu, Yu Shang, Zihao Song, Chen Gao, Wei Wu, Yong Li,
Abstract要約: 世界行動モデル(WAM)は、インテリジェンスを具現化するための有望なアプローチを提供する。既存の方法は、アクション先行としてビデオ予測に大きく依存しており、適応的なマルチモーダル推論が欠如している。適応型マルチモーダル推論能力を持つ世界行動モデルである textbfAdaWAM を提案する。
参考スコア（独自算出の注目度）: 12.751695880459053
License: http://creativecommons.org/licenses/by/4.0/
Abstract: World Action Models (WAMs) offer a promising approach to embodied intelligence, yet existing methods rely heavily on video prediction as action priors and lack adaptive multimodal reasoning, limiting their effectiveness on long-horizon, complex tasks. We observe that WAMs require different multimodal reasoning modes under different execution contexts: textual reasoning is essential during task transitions to guide high-level action prediction, while visual reasoning is critical during fine-grained manipulation for precise control. Motivated by this observation, we propose \textbf{AdaWAM}, a world action model with adaptive multimodal reasoning abilities. AdaWAM integrates a lightweight dynamic router that autonomously triggers textual or visual reasoning as needed during task execution. Experiments on both simulated and real-world embodied tasks show that AdaWAM substantially improves inference efficiency while outperforming state-of-the-art embodied policies. Codes and demos are available at: https://adawam.github.io/.
Abstract（参考訳）: 世界行動モデル(WAM)は、インテリジェンスを具現化するための有望なアプローチを提供するが、既存の手法は、アクション先行としてビデオ予測に大きく依存し、適応的なマルチモーダル推論を欠いている。テキスト推論はタスク遷移時に必須であり、視覚的推論は精密な制御のためのきめ細かい操作において重要である。本稿では,適応型マルチモーダル推論能力を持つ世界行動モデルである「textbf{AdaWAM}」を提案する。 AdaWAMは、タスク実行中に必要に応じてテキストまたは視覚的推論を自律的にトリガーする軽量な動的ルータを統合している。 AdaWAMは、シミュレーションと実世界のエンボディドタスクの両方の実験により、最先端のエンボディドポリシーを上回りながら、推論効率を大幅に改善することを示した。コードとデモは、https://adawam.github.io/.com/で公開されている。

関連論文リスト

Walk the Talk: Bridging the Reasoning-Action Gap for Thinking with Images via Multimodal Agentic Policy Optimization [89.68681087743876]
MLLM(Multimodal Large Language Models)は,マルチターン推論において視覚ツールを積極的に呼び出すことによって,イメージで考えるモデルにインセンティブを与えている。結果に基づく報酬を頼りにする一般的な強化学習の実践は、テキストの妥当性が経営幹部の失敗を隠蔽するという事実を無視します。マルチモーダルエージェントポリシー最適化(MAPO)を導入し、テキスト推論とモデルが生成する視覚行動のギャップを埋める。
論文参考訳（メタデータ） (2026-04-08T07:48:07Z)
Perception-Aware Multimodal Spatial Reasoning from Monocular Images [57.42071289037214]
単眼画像からの空間的推論は自律運転には不可欠です現在のヴィジュアルランゲージモデル(VLM)は、微粒な幾何学的知覚に苦慮している。本稿では,VLMを明示的な対象中心の接地能力を持つ知覚認識型マルチモーダル推論フレームワークを提案する。
論文参考訳（メタデータ） (2026-03-07T02:05:12Z)
Omni-AutoThink: Adaptive Multimodal Reasoning via Reinforcement Learning [57.96134674544638]
本稿では,タスクの難易度に応じてモデルの推論深度を動的に調整する適応推論フレームワークを提案する。本研究の枠組みは,(1)大規模推論データを用いた基本推論能力を備えた適応監視ファインチューニング段階,(2)タスク複雑性と報酬フィードバックに基づく推論行動の最適化を行う適応強化学習段階の2段階からなる。
論文参考訳（メタデータ） (2025-12-03T13:33:28Z)
UNeMo: Collaborative Visual-Language Reasoning and Navigation via a Multimodal World Model [19.343780691204792]
VLN(Vision-and-Language Navigation)は、視覚画像と自然言語による複雑な環境を自律的にナビゲートするエージェントである。事前学習型大言語モデル(LLM)を用いた言語誘導ナビゲーション推論の強化に関する最近の研究は、有望な可能性を示している。視覚状態推論とナビゲーション決定の協調最適化を目的とした新しいフレームワークUNeMoを紹介する。
論文参考訳（メタデータ） (2025-11-24T07:31:58Z)
EscapeCraft: A 3D Room Escape Environment for Benchmarking Complex Multimodal Reasoning Ability [11.721839449847472]
マルチモーダル推論のベンチマークであるMM-Escapeを紹介する。 MM-Escapeは最終タスク完了と同時に中間モデル動作を強調している。大規模な実験により、MLLMはスケールに関係なく、最も単純な部屋の脱出タスクを完了できることが示されている。性能ボトルネックはモデルによって異なり、異なる障害モードとマルチモーダル推論能力の制限が明らかになる。
論文参考訳（メタデータ） (2025-03-13T04:48:43Z)
Task Preference Optimization: Improving Multimodal Large Language Models with Vision Task Alignment [58.94611347128066]
マルチモーダル大言語モデル(MLLM)は、視覚のきめ細やかな理解に苦しむ。近年の研究では、ツールの使用や視覚的なタスクを自動回帰フレームワークに統一する手法が開発されており、多くの場合、全体的なマルチモーダルパフォーマンスを犠牲にしている。本稿では,典型的な視覚的タスクから派生した微分可能なタスク選好を利用する新しい手法であるタスク選好最適化(TPO)を提案する。
論文参考訳（メタデータ） (2024-12-26T18:56:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。