論文の概要: ROSE: Benchmarking the Perception-to-Action Gap in Multimodal Models
- arxiv url: http://arxiv.org/abs/2606.19965v1
- Date: Thu, 18 Jun 2026 09:05:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-19 18:23:39.753861
- Title: ROSE: Benchmarking the Perception-to-Action Gap in Multimodal Models
- Title(参考訳): ROSE:マルチモーダルモデルにおける知覚対行動ギャップのベンチマーク
- Authors: Yihao Wang, Zijian He, Jie Ren, Keze Wang,
- Abstract要約: textscROSEは、モデルが暗黙の多数派参照を推論し、結果の微妙な視覚的証拠に作用するかどうかをテストする。
最近の9つのMLLMでは、人のパフォーマンスは98.8%だが、カウント指向のタスクから地域条件のアクションまで、パフォーマンスは最大44.5ポイント低下した。
- 参考スコア(独自算出の注目度): 25.79334428120671
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal large language models (MLLMs) are increasingly expected to act on visual information, yet the same scene may require different actions under different task contexts. How reliably can a model turn the same visual evidence into the action required by the current context? To answer this question, we introduce \textsc{ROSE} (\textbf{R}eference-conditioned \textbf{O}ddity and \textbf{S}ymbolic \textbf{E}xecution), a controlled benchmark that holds the visual scene fixed while varying region constraints and required symbolic outputs. Through coupled counting and coordinate-action tasks, \textsc{ROSE} tests whether models can infer an implicit majority reference and act on the resulting fine-grained visual evidence under changing contexts. Across nine recent MLLMs, performance drops by as much as 44.5 percentage points from counting-oriented tasks to region-conditioned action, despite 98.8\% human performance. The gap persists on paired scenes and regions for which the same model returns the correct count, while global-click and matched local controls show that coordinate grounding explains only part of the loss, revealing a distinct, model-dependent bottleneck in turning shared visual evidence into context-specific actions.
- Abstract(参考訳): マルチモーダルな大規模言語モデル(MLLM)は、視覚情報に作用することがますます期待されているが、同じシーンでは異なるタスクコンテキスト下で異なるアクションが必要になるかもしれない。
モデルは、同じ視覚的証拠を現在の文脈で要求されるアクションにどの程度確実に変換できますか?
この問いに答えるために、各領域の制約や要求されるシンボル出力に固定された視覚的シーンを保持する制御ベンチマークである \textsc{ROSE} (\textbf{R}eference-conditioned \textbf{O}ddity and \textbf{S}ymbolic \textbf{E}xecution) を紹介する。
カウントと座標-アクションのタスクを組み合わせることで、モデルが暗黙の多数派参照を推論し、結果の微妙な視覚的エビデンスに作用するかどうかをテストする。
最近の9つのMLLMでは、人的パフォーマンスが98.8%であるにもかかわらず、カウント指向のタスクからリージョン条件のアクションまで、パフォーマンスは最大44.5ポイント低下した。
ギャップは、同じモデルが正しいカウントを返すようなペア化されたシーンや領域に持続するが、グローバルクリックとマッチしたローカルコントロールは、座標グラウンドが損失の一部だけを説明することを示している。
関連論文リスト
- Affordance2Action: Task-Conditioned Scene-level Affordance Grounding for Real-Time Manipulation [18.782084217347187]
Affordance2Action (A2A) は、シーンレベル、タスク条件付き部分割当基盤のためのベンチマーク中心の学習フレームワークである。
A2A-ベンチ(A2A-Bench)は、日常の場面における単一領域と複数領域の命令対応をカバーする操作指向のベンチマークである。
A2Aは、ジェネリックセグメンテーション、VLMベースの接地、および余剰蒸留ベースラインにおいてかなりのギャップを露呈する。
論文 参考訳(メタデータ) (2026-06-02T19:36:13Z) - Contextual inference from single objects in Vision-Language models [10.367669666212473]
一つのオブジェクトがどれくらいのシーンコンテキストを持つかは、人間のシーン知覚においてよく研究されている問題である。
この能力が視覚言語モデル(VLM)でどのように構成されるかはいまだに理解されていない。
本研究では,単一対象からの文脈推論の系統的・機械的解析を通じて,この問題を考察する。
論文 参考訳(メタデータ) (2026-03-20T13:24:15Z) - Same Task, Different Circuits: Disentangling Modality-Specific Mechanisms in VLMs [49.42020616826156]
VLM(Vision-Language Model)は、視覚的な入力に関する質問に答える能力を示すが、テキスト上で類似のタスクを実行する際の精度は高い。
異なるモードのテキスト回路を同定し,比較することにより,この精度ギャップについて検討する。
これを解決するために、後層の視覚データトークンの表現を以前のレイヤに戻します。
論文 参考訳(メタデータ) (2025-06-10T17:59:21Z) - BehaviorBox: Automated Discovery of Fine-Grained Performance Differences Between Language Models [55.2480439325792]
本稿では,性能を考慮した文脈埋め込みを用いた言語モデルの自動比較手法を提案する。
提案手法は,2つのLM間の生成容易性について,その相違点を示すコヒーレントな特徴を抽出する。
本研究では,サイズ,モデルファミリ,ポストトレーニングの異なるモデルを比較し,コーパスレベルの難易度だけでは見つからないパフォーマンスの有意義な違いを示す,特定のコンテキストに対する洞察を列挙する。
論文 参考訳(メタデータ) (2025-06-02T19:44:06Z) - Chain-of-Thought Textual Reasoning for Few-shot Temporal Action Localization [22.58434223222062]
そこで本研究では,Chain-of-Thought文による時間的局所化手法を提案する。
具体的には、テキスト意味情報を活用して、アクションの共通点やバリエーションを捉える能力を高める新しい数ショット学習フレームワークを設計する。
公開されているActivityNet1.3とTHUMOS14データセットについて広範な実験を行った。
論文 参考訳(メタデータ) (2025-04-18T04:35:35Z) - Localizing Events in Videos with Multimodal Queries [61.20556229245365]
セマンティッククエリに基づくビデオ内のイベントのローカライズは、ビデオ理解における重要なタスクである。
マルチモーダルクエリでビデオ中のイベントをローカライズするための新しいベンチマークであるICQを紹介する。
疑似MQs戦略における3つのマルチモーダルクエリ適応法と新しいサロゲートファインタニングを提案する。
論文 参考訳(メタデータ) (2024-06-14T14:35:58Z) - Unified Visual Relationship Detection with Vision and Language Models [89.77838890788638]
この研究は、複数のデータセットからラベル空間の結合を予測する単一の視覚的関係検出器のトレーニングに焦点を当てている。
視覚と言語モデルを活用した統合視覚関係検出のための新しいボトムアップ手法UniVRDを提案する。
人物体間相互作用検出とシーングラフ生成の双方による実験結果から,本モデルの競合性能が示された。
論文 参考訳(メタデータ) (2023-03-16T00:06:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。