論文の概要: Can Agents Read the Room? Benchmarking Visual Social Intelligence in Multimodal Simulation
- arxiv url: http://arxiv.org/abs/2606.15152v1
- Date: Sat, 13 Jun 2026 06:44:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-16 16:21:32.945004
- Title: Can Agents Read the Room? Benchmarking Visual Social Intelligence in Multimodal Simulation
- Title(参考訳): エージェントは部屋を読むことができるか? マルチモーダルシミュレーションにおけるビジュアルソーシャルインテリジェンスの評価
- Authors: Shijun Wan, Xuehai Wu, Jiwen Zhang, Siyuan Wang, Zhongyu Wei,
- Abstract要約: 既存のソーシャルエージェントベンチマークは、主にテキストベースであり、マルチモーダルエージェントが視覚的手がかりを使ってインタラクションをガイドできるかどうかを検査することは滅多にない。
マルチモーダル・ソーシャル・シミュレーションにおける視覚的ソーシャル・インテリジェンスを評価するベンチマークであるtextscbenchmarkname を導入する。
- 参考スコア(独自算出の注目度): 38.36111181883569
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Social interaction depends on both language and visible social signals, such as facial expressions, posture, gaze, and emotional shifts. Yet existing social-agent benchmarks are largely text-based and rarely test whether multimodal agents can use visual cues to guide interaction. We introduce \textsc{\benchmarkname{}}, a benchmark evaluating visual social intelligence in multimodal social simulation. It contains 240 scenarios, 585 role instances, and 2,340 role-task instances, combining aligned textual-visual evidence, structured role profiles, and four role-level tasks: expression task, characteristic task, interaction regulation task, and interaction outcome task. Evaluating seven recent MLLMs under verbalized-vision and direct-vision reveals a clear gap between local role enactment and interaction management: role-specific expression and conflict handling are near saturation, whereas interaction regulation and visually grounded outcome achievement remain substantially more difficult. The code is released at https://github.com/JunsWan/AgentViSS, and the dataset is available at https://huggingface.co/datasets/JunsWan/AgentViSS.
- Abstract(参考訳): 社会的相互作用は、表情、姿勢、視線、感情の変化など、言語と可視的な社会信号の両方に依存する。
しかし、既存のソーシャルエージェントベンチマークは、主にテキストベースであり、マルチモーダルエージェントが視覚的手がかりを使ってインタラクションをガイドできるかどうかをテストすることは滅多にない。
マルチモーダル・ソーシャル・シミュレーションにおける視覚的ソーシャル・インテリジェンスを評価するベンチマークである「textsc{\benchmarkname{}}」を紹介する。
これには240のシナリオ、585のロールインスタンス、2,340のロールタスクインスタンスが含まれており、整列されたテキスト-視覚的エビデンス、構造化されたロールプロファイル、および4つのロールレベルタスク(式タスク、特性タスク、相互作用制御タスク、相互作用結果タスク)が組み合わされている。
言語化されたビジョンと直接ビジョンの下での7つのMLLMの評価は、局所的な役割遂行と相互作用管理の間に明確なギャップがあることを明らかにしている: 役割特異的表現と競合処理は、ほぼ飽和状態にあるが、相互作用制御と視覚的に基盤付けられた成果達成は、かなり難しいままである。
コードはhttps://github.com/JunsWan/AgentViSSでリリースされ、データセットはhttps://huggingface.co/datasets/JunsWan/AgentViSSで公開されている。
関連論文リスト
- Graph2Eval: Automatic Multimodal Task Generation for Agents via Knowledge Graphs [38.93261732451012]
マルチモーダル文書理解タスクとWebインタラクションタスクの両方を自動的に生成する知識グラフベースのフレームワークであるGraph2Evalを提案する。
Graph2Eval-Benchはドキュメントの理解とWebインタラクションのシナリオにまたがる1,319のタスクのキュレートされたデータセットです。
実験によると、Graph2Evalは、エージェントとモデルのパフォーマンスを区別するタスクを効率的に生成し、異なる設定間での推論、コラボレーション、Webインタラクションのギャップを明らかにする。
論文 参考訳(メタデータ) (2025-10-01T04:37:54Z) - Grounding Task Assistance with Multimodal Cues from a Single Demonstration [17.975173937253494]
MICA(Multimodal Interactive Contextualized Assistance)は、視線と音声の手がかりを統合することで、タスク支援のための会話エージェントを改善するフレームワークである。
リアルタイムチャット支援タスク複製から得られる質問に対する評価は,複数モーダルキューがフレームベース検索よりも応答品質を著しく向上することを示している。
論文 参考訳(メタデータ) (2025-05-02T20:43:11Z) - V-MAGE: A Game Evaluation Framework for Assessing Vision-Centric Capabilities in Multimodal Large Language Models [84.27290155010533]
本稿では,視覚中心型多機能ゲーム評価(V-MAGE)について紹介する。
V-MAGEは、30以上の慎重に構築された評価シナリオからなる5つの異なるビデオゲームを特徴としている。
V-MAGEは、動的かつインタラクティブな設定において、MLLMの視覚的および推論能力を改善するために実行可能な洞察を提供する。
論文 参考訳(メタデータ) (2025-04-08T15:43:01Z) - Beyond Prompts: Dynamic Conversational Benchmarking of Large Language Models [0.0]
本稿では,対話エージェントを対象とした動的ベンチマークシステムを提案する。
タスクをインターリーブするために定期的にコンテキストスイッチを行い、エージェントの長期記憶、継続的な学習、情報統合機能を評価する現実的なテストシナリオを構築します。
論文 参考訳(メタデータ) (2024-09-30T12:01:29Z) - SocialBench: Sociality Evaluation of Role-Playing Conversational Agents [85.6641890712617]
大規模言語モデル(LLM)は、様々なAI対話エージェントの開発を進めてきた。
SocialBenchは、ロールプレイングの会話エージェントの社会的性を個人レベルとグループレベルで評価するために設計された最初のベンチマークである。
個人レベルで優れたエージェントは,集団レベルでの熟練度を示唆しない。
論文 参考訳(メタデータ) (2024-03-20T15:38:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。