論文の概要: Multimodal Large Language Models as Synthetic Participants in Video-Based Studies: An Evaluation
- arxiv url: http://arxiv.org/abs/2606.07541v1
- Date: Fri, 01 May 2026 05:55:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-15 07:09:36.690355
- Title: Multimodal Large Language Models as Synthetic Participants in Video-Based Studies: An Evaluation
- Title(参考訳): ビデオベース研究における合成参加者としての多モーダル大言語モデルの評価
- Authors: Prabal Shrestha, Bohan Jiang, Haoning Xue, Huan Liu, Xinyi Zhou,
- Abstract要約: MLLM(Multimodal large language model)は,映像理解や推論などの目的タスクにおいて高い性能を示す。
本研究は,MLLMを映像による知覚的エンゲージメント(知覚的エンゲージメント)の評価という,新たな課題の参加者として評価する。
MLLMをリードする人たちでさえ、人間の参加者との合意が限られていることがわかりました。
- 参考スコア(独自算出の注目度): 11.282431394902241
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal large language models (MLLMs) have shown strong performance on objective tasks such as video understanding and reasoning. However, it remains unclear whether they can approximate subjective human responses, which depend not only on content comprehension but also on individuals' social contexts. To address this gap, we evaluate MLLMs as synthetic participants in an emerging task: assessing perceived sensory engagement with short videos. Grounded in the Perceived Message Sensation Value (PMSV) framework, we compare ratings from recruited human participants and profile-conditioned MLLM simulations (n=673) using a 17-item scale measuring emotional arousal, dramatic impact, and novelty. We find that even leading MLLMs (Gemini 3 Flash and Qwen 3 Omni) show limited agreement with human participants. The models exhibit distinct downward mean-shift and central-tendency biases in their rating distributions. They both introduce and flatten subgroup differences, while showing inconsistent sensitivity to participant profiles. Prompting strategies affect these metrics differently, modestly improving some aspects while worsening others. These results highlight both the challenges and opportunities of developing MLLMs as synthetic participants in video-based research. Data and code: https://github.com/MINDLab25/mllm-human-simulation-eval
- Abstract(参考訳): MLLM(Multimodal large language model)は,映像理解や推論などの目的タスクにおいて高い性能を示す。
しかし、内容の理解だけでなく、個人の社会的文脈にも依存する主観的人間の反応を近似できるかどうかは不明である。
このギャップに対処するために,我々はMLLMを,ショートビデオによる知覚的感覚エンゲージメントの評価という新たな課題における合成参加者として評価する。
PMSV(Perceived Message Sensation Value)の枠組みを基礎として,情緒的覚醒,劇的影響,新鮮さを測る17項目の尺度を用いて,採用した人間の評価とプロフィール条件のMLLMシミュレーション(n=673)を比較した。
MLLM (Gemini 3 Flash と Qwen 3 Omni) のリードさえも,人間の参加者との限定的な合意を示していることがわかった。
これらのモデルは、評価分布において、下向きの平均シフトと中央依存性のバイアスを明確に示している。
両者は、サブグループ差を導入し、フラット化する一方で、参加者プロファイルに矛盾した感受性を示す。
プロンプティング戦略はこれらの指標に異なる影響を与え、いくつかの側面を緩やかに改善し、他の側面を悪化させます。
これらの結果は、ビデオベース研究における合成参加者としてMLLMを開発する上での課題と機会の両方を浮き彫りにした。
データとコード:https://github.com/MINDLab25/mllm- Human-simulation-eval
関連論文リスト
- Emulating Aggregate Human Choice Behavior and Biases with GPT Conversational Agents [0.48439699124726004]
大規模言語モデル(LLM)は、よく知られたバイアスを再現することが示されている。
我々は,3つの確立された意思決定シナリオを会話環境に適応させ,人間の実験を行った。
人間の行動をどのように整合させるかという点において,モデル間に顕著な違いが認められた。
論文 参考訳(メタデータ) (2026-02-05T12:33:05Z) - Customizing Visual Emotion Evaluation for MLLMs: An Open-vocabulary, Multifaceted, and Scalable Approach [29.502292089901825]
この矛盾は, 既存の評価手法の制約に起因していると論じる。
これらの制約を克服する感情文判断タスクを提案する。
人間の努力を最小限に抑えて感情中心の文を効率的に構築する自動パイプラインを考案する。
論文 参考訳(メタデータ) (2025-09-26T06:30:39Z) - Large Language Models are Highly Aligned with Human Ratings of Emotional Stimuli [0.62914438169038]
感情は、普通の場所と高いストレスの両方のタスクにおいて、人間の行動と認知に大きな影響を及ぼす。
大規模言語モデルは、感情的に負荷された刺激や状況がどのように評価されるかを理解することによって、議論を知らせるべきである。
これらのケースにおけるモデルと人間の行動との整合性は、特定の役割や相互作用に対するLLMの有効性を知らせることができる。
論文 参考訳(メタデータ) (2025-08-19T19:22:00Z) - Bridging the Gap: In-Context Learning for Modeling Human Disagreement [8.011316959982654]
大規模言語モデル(LLM)はNLP分類タスクにおいて高い性能を示している。
本研究では,LLMが複数の視点を捉えることができ,ヘイトスピーチや攻撃的言語検出などの主観的タスクにおいてアノテータの不一致を反映できるかどうかを検討する。
論文 参考訳(メタデータ) (2025-06-06T14:24:29Z) - Evaluating Graphical Perception with Multimodal LLMs [2.090547583226381]
マルチモーダル大言語モデル(MLLM)は画像の解析と理解において著しく進歩している。
可視化のために、MLLMはグラフィカルな知覚タスクに適用した場合、どのように機能するか?
本研究は主に、微調整および事前訓練されたモデルとゼロショットを用いて、人間の視覚的知覚と密に一致しているかどうかを判断する。
論文 参考訳(メタデータ) (2025-04-05T16:14:08Z) - Do LLMs exhibit human-like response biases? A case study in survey
design [66.1850490474361]
大規模言語モデル(LLM)が人間の反応バイアスをどの程度反映しているかについて検討する。
アンケート調査では, LLMが人間のような応答バイアスを示すかどうかを評価するためのデータセットとフレームワークを設計した。
9つのモデルに対する総合的な評価は、一般のオープンかつ商用のLCMは、一般的に人間のような振る舞いを反映しないことを示している。
論文 参考訳(メタデータ) (2023-11-07T15:40:43Z) - Emotionally Numb or Empathetic? Evaluating How LLMs Feel Using EmotionBench [83.41621219298489]
心理学からの感情評価理論を用いて,Large Language Models (LLMs) の人為的能力を評価する。
我々は、研究の中心となる8つの感情を引き出すのに有効な400以上の状況を含むデータセットを収集した。
我々は世界中の1200人以上の被験者を対象に人間による評価を行った。
論文 参考訳(メタデータ) (2023-08-07T15:18:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。