論文の概要: Test-Time Scaling in Multimodal Foundation Models: A Comprehensive Survey of Generation and Reasoning
- arxiv url: http://arxiv.org/abs/2606.08231v1
- Date: Sat, 06 Jun 2026 15:39:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:05.983906
- Title: Test-Time Scaling in Multimodal Foundation Models: A Comprehensive Survey of Generation and Reasoning
- Title(参考訳): マルチモーダルファンデーションモデルにおけるテスト時間スケーリング:生成と推論に関する包括的調査
- Authors: Cong Wan, Ying He, Zhongzhan Huang, Hefeng Wu,
- Abstract要約: テストタイムスケーリング(TTS)は,モデル性能向上のための重要な研究方向として登場した。
最近の進歩は、このパラダイムをMFM(Multimodal Foundation Models)に適用している。
MFMのためのTS研究の総合的なレビューを初めて紹介する。
- 参考スコア(独自算出の注目度): 26.30578541156939
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Test-time Scaling (TTS) has emerged as a pivotal research direction for enhancing model performance by dynamically allocating computational resources during inference. Recent advancements have adapted this paradigm to Multimodal Foundation Models (MFMs), unlocking their potential in multimodal reasoning and generation. Despite rapid progress, the field lacks a systematic survey and unified theoretical framework to delineate the developmental landscape of multimodal TTS. To bridge this gap, we present the first comprehensive review of TTS research for MFMs, proposing a unified taxonomic framework that categorizes existing methodologies into three distinct strategies: sampling-based, feedback-based, and search-based approaches. We further summarize representative applications and benchmarks commonly utilized to evaluate multimodal TTS capabilities in generation and reasoning tasks. Finally, this survey discusses open challenges and outlines future research directions, providing a systematic roadmap for subsequent studies in this rapidly evolving field.
- Abstract(参考訳): テストタイムスケーリング(TTS)は、推論中に動的に計算資源を割り当てることでモデル性能を向上させるための重要な研究方向として登場した。
近年、このパラダイムをMFM(Multimodal Foundation Models)に適用し、マルチモーダル推論と生成の可能性を解き放ちつつある。
急速な進歩にもかかわらず、この分野はマルチモーダルTSの発達状況を説明するための体系的な調査と統合された理論的枠組みを欠いている。
このギャップを埋めるために、我々は、既存の方法論をサンプリングベース、フィードバックベース、検索ベースのアプローチの3つの異なる戦略に分類する統合分類学の枠組みを提案する。
さらに、汎用アプリケーションとベンチマークを用いて、生成および推論タスクにおけるマルチモーダルTS機能の評価を行う。
最後に、オープンな課題について論じ、今後の研究の方向性を概説し、この急速に発展する分野におけるその後の研究の体系的なロードマップを提供する。
関連論文リスト
- Deep Research: A Systematic Survey [118.82795024422722]
Deep Research (DR)は、大規模言語モデルの推論能力と検索エンジンなどの外部ツールを組み合わせることを目的としている。
本調査は,深層研究システムの包括的かつ体系的な概要を提示する。
論文 参考訳(メタデータ) (2025-11-24T15:28:28Z) - From Perception to Reasoning: Deep Thinking Empowers Multimodal Large Language Models [36.54062692717823]
CoT(Chain-of-Thought)推論は、推論の透明性と出力の解釈可能性を高めることによって、言語モデルにおいて有意な効果を示した。
本稿では,Multimodal Chain-of-Thought(MCoT)を中心にしたシステムレビューを行う。
論文 参考訳(メタデータ) (2025-11-17T01:22:37Z) - Multimodal Chain-of-Thought Reasoning: A Comprehensive Survey [124.23247710880008]
マルチモーダルCoT (MCoT) 推論は近年大きな研究の注目を集めている。
既存のMCoT研究は、画像、ビデオ、音声、オーディオ、3D、構造化データの課題に対処する様々な手法を設計している。
我々はMCoT推論に関する最初の体系的な調査を行い、関連する基礎概念と定義を解明する。
論文 参考訳(メタデータ) (2025-03-16T18:39:13Z) - Low-Rank Adaptation for Foundation Models: A Comprehensive Review [56.341827242332194]
Low-Rank Adaptation (LoRA)は、これらの課題を緩和するための非常に有望なアプローチとして登場した。
この調査は、大規模な言語モデルから一般的な基礎モデルまで、LoRAテクニックの包括的なレビューを初めて提供する。
論文 参考訳(メタデータ) (2024-12-31T09:38:55Z) - Progressive Multimodal Reasoning via Active Retrieval [64.74746997923967]
多段階多モーダル推論タスクは、大規模言語モデル(MLLM)に重大な課題をもたらす
本稿では,MLLMの推論能力の向上を目的とした汎用フレームワークAR-MCTSを提案する。
我々は,AR-MCTSがサンプリングの多様性と精度を最適化し,信頼性の高いマルチモーダル推論を実現することを示す。
論文 参考訳(メタデータ) (2024-12-19T13:25:39Z) - A Survey on Multimodal Benchmarks: In the Era of Large AI Models [13.299775710527962]
MLLM(Multimodal Large Language Models)は、人工知能に大きな進歩をもたらした。
この調査は、4つのコアドメイン(理解、推論、生成、アプリケーション)にわたるMLLMを評価する211のベンチマークを体系的にレビューする。
論文 参考訳(メタデータ) (2024-09-21T15:22:26Z) - Exploring Progress in Multivariate Time Series Forecasting: Comprehensive Benchmarking and Heterogeneity Analysis [70.78170766633039]
我々は、MTS予測提案を確実かつ公平に評価する手段の必要性に対処する。
BasicTS+は、MTS予測ソリューションの公平で包括的で再現可能な比較を可能にするために設計されたベンチマークである。
リッチデータセットとともにBasicTS+を適用し,45 MTS以上の予測ソリューションの性能を評価する。
論文 参考訳(メタデータ) (2023-10-09T19:52:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。