論文の概要: Are We There Yet? Exploring the Capabilities of MLLMs in Assistive AI Applications
- arxiv url: http://arxiv.org/abs/2606.25084v1
- Date: Tue, 23 Jun 2026 18:44:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-25 17:05:30.119707
- Title: Are We There Yet? Exploring the Capabilities of MLLMs in Assistive AI Applications
- Title(参考訳): まだ存在するのか? 補助AIアプリケーションにおけるMLLMの能力を探る
- Authors: Shayon Dasgupta, Avijit Dasgupta, C. V. Jawahar,
- Abstract要約: マルチモーダル大言語モデル(MLLM)は、視覚エンコーダと大規模言語モデルを組み合わせることで、視覚的理解を再定義する。
本研究は,実世界のタスクにおける最先端モデルを評価することによって,MLLMがAssistive AIをサポートすることができるかどうかを考察する。
- 参考スコア(独自算出の注目度): 13.70614147379083
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal Large Language Models (MLLMs) have redefined visual understanding by combining vision encoders with large-scale language models. This unified architecture enables strong performance on tasks like image captioning, visual question answering, and multimodal dialogue, often in zero- and few-shot settings. Their general-purpose capabilities and flexible interfaces make MLLMs a promising foundation for real-world vision-language applications. Assistive AI aims to help users interact with their environments through natural language. These scenarios demand robust visual recognition, contextual reasoning, and multilingual comprehension-capabilities that MLLMs are believed to offer. However, their effectiveness in assistive settings remains to be fully understood. In this work, we explore whether MLLMs can support Assistive AI by evaluating state-of-the-art models on real-world tasks: recognizing everyday objects like currency, answering questions based on scene text, and reading visually presented content across multiple languages. To this end, we developed a system, NetraLink, using a head-mounted GoPro to capture real-world egocentric data, and collected a benchmark covering these assistive scenarios. Our findings provide a comprehensive diagnostic of current MLLMs, highlighting their strengths and limitations in enabling assistive technologies grounded in visual perception and language interaction.
- Abstract(参考訳): マルチモーダル大言語モデル(MLLM)は、視覚エンコーダと大規模言語モデルを組み合わせることで、視覚的理解を再定義する。
この統合アーキテクチャは、画像キャプション、視覚的質問応答、マルチモーダル対話といったタスクにおいて、ゼロショットや少数ショットの設定で強力なパフォーマンスを実現する。
汎用性とフレキシブルインターフェースにより、MLLMは現実の視覚言語アプリケーションにとって有望な基盤となっている。
Assistive AIは、自然言語を使ってユーザが環境と対話することを支援する。
これらのシナリオは、MLLMが提供すると思われる堅牢な視覚認識、文脈推論、多言語理解能力を必要とする。
しかし、それらの補助的設定の有効性は、まだ完全には理解されていない。
本研究では、MLLMが現実世界のタスクにおける最先端のモデルを評価することで、Assistive AIをサポートできるかどうかを検討する。
そこで我々は,現実の自我中心のデータをヘッドマウントしたGoProを用いたNetraLinkというシステムを開発し,これらの支援シナリオをカバーするベンチマークを収集した。
本研究は,現在のMLLMを包括的に診断し,視覚知覚と言語相互作用を基盤とした支援技術の実現におけるその強みと限界を強調した。
関連論文リスト
- TWIST & SCOUT: Grounding Multimodal LLM-Experts by Forget-Free Tuning [54.033346088090674]
TWIST と SCOUT は,事前学習したMLLM に視覚的接地能力を持たせるフレームワークである。
モデルを効果的に微調整するために,SCOUTと呼ばれる高品質な合成データセットを生成する。
このデータセットは、ステップバイステップのマルチモーダル推論プロセスを記述する、豊富な監視信号を提供する。
論文 参考訳(メタデータ) (2024-10-14T13:35:47Z) - Rethinking Visual Prompting for Multimodal Large Language Models with External Knowledge [76.45868419402265]
マルチモーダルな大言語モデル(MLLM)は、膨大な高品質の画像テキストデータセットをトレーニングすることで、大きな進歩を遂げている。
しかし、マスクのような細粒度や空間的に密集した情報をテキストで明示的に伝達することの難しさは、MLLMにとって困難である。
本稿では、特殊な視覚モデルから派生した細粒度の外部知識をMLLMに統合する新しい視覚的プロンプト手法を提案する。
論文 参考訳(メタデータ) (2024-07-05T17:43:30Z) - Draw-and-Understand: Leveraging Visual Prompts to Enable MLLMs to Comprehend What You Want [58.091825321168514]
我々はDraw-and-Understandフレームワークを提案し、視覚的プロンプト理解機能をMLLM(Multimodal Large Language Models)に統合する方法を探る。
視覚的なプロンプトにより、ユーザーはマルチモーダルなインストラクションを通じて対話することができ、モデルの対話性ときめ細かなイメージ理解を高めることができる。
本稿では,様々な学習済みMLLMに適応し,様々な視覚的プロンプトを認識可能な汎用アーキテクチャを提案する。
論文 参考訳(メタデータ) (2024-03-29T16:26:20Z) - VCoder: Versatile Vision Encoders for Multimodal Large Language Models [46.95488342139727]
MLLM(Multimodal Large Language Models)は近年,視覚言語タスクにおける優れたパフォーマンスを実現している。
しかし、ある画像内のエンティティを識別またはカウントするよう促された場合、既存のMLLMシステムは失敗する。
We propose using Versatile vision enCoders (VCoder) as perception eyes for Multimodal LLMs。
論文 参考訳(メタデータ) (2023-12-21T18:49:47Z) - Behind the Magic, MERLIM: Multi-modal Evaluation Benchmark for Large Image-Language Models [50.653838482083614]
本稿では,IT-LVLMの基本的なコンピュータビジョンタスクにおける能力を評価するために,スケーラブルなテストベッドを提案する。
MERLIMには300K以上の画像検索ペアが含まれており、IT-LVLMにおけるクロスモーダルな"ハロシン化"イベントの検出に重点を置いている。
論文 参考訳(メタデータ) (2023-12-03T16:39:36Z) - TouchStone: Evaluating Vision-Language Models by Language Models [91.69776377214814]
本稿では,LVLMの様々な能力を総合的に評価するために,強大な言語モデルを用いた評価手法を提案する。
オープンワールドイメージと質問からなる包括的ビジュアル対話データセットTouchStoneを構築し,5つの主要な機能カテゴリと27のサブタスクをカバーした。
GPT-4のような強力なLVLMは、テキスト機能のみを活用することで、対話品質を効果的に評価できることを実証する。
論文 参考訳(メタデータ) (2023-08-31T17:52:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。