論文の概要: Frozen Multimodal Embeddings for AI-Assisted Interview Assessment of Personality and Cognitive Ability
- arxiv url: http://arxiv.org/abs/2606.11930v2
- Date: Thu, 11 Jun 2026 09:34:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-12 13:39:59.682404
- Title: Frozen Multimodal Embeddings for AI-Assisted Interview Assessment of Personality and Cognitive Ability
- Title(参考訳): AIを用いた個性・認知能力評価のための凍結型マルチモーダル埋め込み
- Authors: Kuo-En Hung, Hung-Yue Suen, Shih-Ching Yeh, Hsiang-Wen Wang,
- Abstract要約: 本稿では,ACM Multimedia AVI Challenge 2026について述べる。
Track1は自己報告されたHEXACO性格特性を人格関連面接応答から予測し、Track2は認知能力レベルを分類する。
視覚的特徴にはCLIP、音響的特徴や文字起こしにはWhisper、テキスト表現にはRoBERTa、E5、DeBERTaV3など、凍結したマルチモーダルエンコーダを使用します。
- 参考スコア(独自算出の注目度): 0.20999222360659606
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Predicting psychological traits from asynchronous video interviews (AVIs) is a challenging problem in AI-assisted interview assessment because labeled datasets are limited while each response contains high-dimensional visual, acoustic, and verbal signals. This paper presents our solution for the ACM Multimedia AVI Challenge 2026, which evaluates two tasks: Track~1 predicts self-reported HEXACO personality traits from personality-related interview responses, and Track~2 classifies cognitive ability levels from structured AVI responses. We treat the problem as a small-sample representation learning task. Instead of fine-tuning large pretrained models, we use frozen multimodal encoders, including CLIP for visual features, Whisper for acoustic features and transcripts, and RoBERTa, E5, and DeBERTaV3 for textual representations, followed by low-capacity downstream models. For Track~1, our trait-specific regression and late-fusion system achieves an average validation MSE of 0.2696, improving over the official baseline of 0.3334. Ablation results show a three-step improvement from a global model (0.3189), to per-trait modeling (0.2871), to per-trait late fusion (0.2696), corresponding to a 19.1% relative MSE reduction over the official baseline. For Track~2, a compact subject-attribute baseline reaches 0.5781 accuracy, while our multimodal ensemble reaches 0.5313, both above the official baseline of 0.4062. We interpret this result as evidence of possible subject-attribute shortcuts in the validation split rather than robust cognitive inference from AVI content. Overall, our findings suggest that AVI-based psychological assessment benefits from trait-specific multimodal modeling, but cognitive ability prediction requires careful control of dataset shortcuts.
- Abstract(参考訳): 非同期ビデオインタビュー(AVI)から心理的特徴を予測することは、ラベル付きデータセットが制限され、それぞれの応答には高次元の視覚的、音響的、言語的信号が含まれているため、AI支援インタビューアセスメントにおいて難しい問題である。
本稿では,ACM マルチメディア AVI Challenge 2026 において,自己報告した HEXACO の性格特性を人格関連インタビュー応答から予測し,Track~2 は構造化された AVI 応答から認知能力レベルを分類する。
この問題を小さなサンプル表現学習タスクとして扱う。
事前訓練された大規模なモデルを微調整する代わりに、視覚機能にCLIP、音響機能と文字起こしにWhisper、テキスト表現にRoBERTa、E5、DeBERTaV3、低容量ダウンストリームモデルなど、凍結したマルチモーダルエンコーダを使用します。
Track~1の場合、我々の特性特異的回帰とレイトフュージョンシステムは平均精度0.2696で、公式ベースライン0.3334よりも改善されている。
アブレーションの結果は、グローバルモデル(0.3189)からトレート・モデリング(0.2871)、トレート・レイト・フュージョン(0.2696)までの3段階の改善を示し、公式ベースラインに対するMSEの相対的な19.1%削減に対応している。
Track~2では、コンパクトな主題属性ベースラインが0.5781、我々のマルチモーダルアンサンブルが0.5313、どちらも0.4062である。
我々は,この結果を,AVIコンテンツからの堅牢な認知的推測よりも,検証分割における主観的帰属的ショートカットの可能性の証拠として解釈する。
全体として、AVIに基づく心理的アセスメントは特性特異的なマルチモーダルモデリングの恩恵を受けるが、認知能力予測にはデータセットのショートカットを慎重に制御する必要がある。
関連論文リスト
- Traits Run Deeper: Trait-Specific Asymmetric Fusion for Personality Assessment [53.50824432699408]
Traits Run Deeperは、新しいパーソナリティアセスメントフレームワークである。
MFR(Multimodal Foundation Representation)、TSMF(Trit-Specific Modality Fusion)、DCPR(Distributed-Calibrated Personality Regression)の3つのコンポーネントで構成されている。
論文 参考訳(メタデータ) (2026-06-09T06:38:36Z) - MCQ Difficulty Prediction via Modeling Learner Heterogeneity Using Data-Driven Cognitive Profiling [0.11458853556386796]
本稿では,データ駆動型認知プロファイリングによる理論能力サンプリングを代替するペルソナ駆動型フレームワークを提案する。
潜在クラス分析(LCA)を用いて行動的ペルソナを同定し,各ペルソナに対する応答分布をシミュレートする大規模言語モデル(LLM)を条件とした。
発見されたペルソナは解釈可能であり、なぜアイテムが難しいのかを洞察し、診断アセスメント設計に潜在的に適用できる可能性がある。
論文 参考訳(メタデータ) (2026-04-13T19:18:14Z) - AdaptStress: Online Adaptive Learning for Interpretable and Personalized Stress Prediction Using Multivariate and Sparse Physiological Signals [1.593065406609169]
本稿では,スマートウォッチの生理的データを用いたストレス予測のための,新しい,説明可能な,個別化されたアプローチを提案する。
我々は,心拍変動,活動パターン,睡眠指標など多変量特徴を利用した時系列予測モデルを構築し,ストレスレベルを予測する。
MSEが0.053,MAEが0.190,RMSEが0.226,最適設定が0.226であった。
論文 参考訳(メタデータ) (2026-02-19T20:57:35Z) - Listening to the Unspoken: Exploring "365" Aspects of Multimodal Interview Performance Assessment [45.92718704785823]
インタビューパフォーマンスの365の側面を探求する,斬新で包括的なフレームワークを提案する。
このフレームワークは、不均一なデータストリームをエンコードするために、モダリティ固有の特徴抽出器を使用する。
提案手法は,マルチモーダルデータから暗黙の手がかりと暗黙の手がかりを抽出する。
論文 参考訳(メタデータ) (2025-07-30T13:37:06Z) - Escaping the SpuriVerse: Can Large Vision-Language Models Generalize Beyond Seen Spurious Correlations? [37.703287009808896]
微調整は、非重要特徴とターゲットラベルの間に急激な相関を引き起こす可能性がある。
実世界の視覚探索探索(VQA)ベンチマークにおいて,GPT-4oエラーを抽出してベンチマークを作成する。
SpuriVerse上で15のオープンソースLVLMを評価し、最先端のクローズドソースモデルでもかなり苦労していることを発見した。
論文 参考訳(メタデータ) (2025-06-23T06:11:43Z) - ChartMuseum: Testing Visual Reasoning Capabilities of Large Vision-Language Models [48.99485386990197]
視覚的推論によってのみ解決可能な合成データセットを用いてケーススタディを行う。
次に、1,162人の専門家が注釈を付けた質問を含む新しいチャート質問回答(QA)ベンチマークであるChartMuseumを紹介します。
人間は93%の精度を達成しているが、最高のパフォーマンスモデルであるGemini-2.5-Proは63.0%しか達成できず、主要なオープンソースであるLVLM Qwen2.5-VL-72B-Instructは38.5%しか達成していない。
論文 参考訳(メタデータ) (2025-05-19T17:59:27Z) - Multi-Modal Prompt Learning on Blind Image Quality Assessment [65.0676908930946]
画像品質評価(IQA)モデルは意味情報から大きな恩恵を受け、異なる種類のオブジェクトを明瞭に扱うことができる。
十分な注釈付きデータが不足している従来の手法では、セマンティックな認識を得るために、CLIPイメージテキスト事前学習モデルをバックボーンとして使用していた。
近年のアプローチでは、このミスマッチに即時技術を使って対処する試みがあるが、これらの解決策には欠点がある。
本稿では、IQAのための革新的なマルチモーダルプロンプトベースの手法を提案する。
論文 参考訳(メタデータ) (2024-04-23T11:45:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。