Fugu-MT 論文翻訳(概要): Zero-Shot Vision-Language Models for Classroom Engagement Recognition: A Benchmark Study of Prompt Sensitivity and Cross-Dataset Generalization

論文の概要: Zero-Shot Vision-Language Models for Classroom Engagement Recognition: A Benchmark Study of Prompt Sensitivity and Cross-Dataset Generalization

arxiv url: http://arxiv.org/abs/2606.21861v1
Date: Sat, 20 Jun 2026 03:53:40 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-26 02:38:08.111837
Title: Zero-Shot Vision-Language Models for Classroom Engagement Recognition: A Benchmark Study of Prompt Sensitivity and Cross-Dataset Generalization
Title（参考訳）: 教室エンゲージメント認識のためのゼロショットビジョンランゲージモデル:プロンプト感度とクロスデータセット一般化のベンチマーク研究
Authors: Aman Goyal, Kshama Nitin Shah, Kemmannu Vineet Venkatesh Rao,
Abstract要約: 広範に使われている5つの視覚言語モデル(VLM)を評価する。本実験では, エンゲージメント認識のためのゼロショットVLMの3つの主要な故障モードを明らかにした。
参考スコア（独自算出の注目度）: 0.44787896002954924
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Automated classroom engagement recognition holds substantial promise for scalable learning analytics, yet the suitability of modern Vision-Language Models (VLMs) for this task under zero-shot conditions remains largely unexplored. We present a systematic benchmark that evaluates five widely-used VLMs: CLIP, BLIP-VQA, GPT-4o, LLaVA-1.5-7B, and Qwen2.5VL-7B-Instruct across two complementary educational datasets: DAiSEE, an individual-student video dataset (300 sampled test clips), and the Student Classroom Behaviour dataset (SCB, 1,168 scene-level images). Each model is probed with three prompt variants spanning minimal, rubric-anchored, and chain-of-thought designs. Our experiments reveal three primary failure modes of zero-shot VLMs for engagement recognition: (1) near-random performance on individual students, with Cohen's kappa never exceeding 0.10 on DAiSEE; (2) severe class collapse, where models assign 85-100% of predictions to a single engagement level regardless of visual content; and (3) extreme prompt sensitivity, with accuracy swings of up to 32 percentage points on identical images depending solely on prompt phrasing. Remarkably, scene-level classification on SCB is substantially more tractable: CLIP and GPT-4o achieve kappa approximately 0.60 when prompted with behaviorally-grounded rubrics. We also document a practical barrier for deployment: GPT-4o's safety filters reject 98% of chain-of-thought requests involving individual student faces. Our findings provide a calibrated baseline and surface critical design considerations for the use of VLMs in educational observation systems.
Abstract（参考訳）: 教室のエンゲージメントの自動認識は、スケーラブルな学習分析に大きく貢献するが、ゼロショット条件下でのこのタスクに対する現代のビジョンランゲージモデル(VLM)の適合性はほとんど不明である。 CLIP,BLIP-VQA,GPT-4o,LLaVA-1.5-7B,Qwen2.5VL-7Bの2つの補完的な教育データセットであるDAiSEEと学生教室行動データセット(SCB,1,168シーンレベル画像)の5つの広く利用されているVLMを評価する。それぞれのモデルには、ミニマル、ルリックアンコール、チェーン・オブ・フォアの設計にまたがる3つのプロンプトのバリエーションが組み込まれている。実験の結果, ゼロショットVLMは, 1) 個々の学生に対してほぼランダムに動作し, コーエンのカッパがDAiSEEで0.10を超えないこと, 2) モデルが85～100%の予測を1つのエンゲージメントレベルに割り当てること, (3) 即発的な感度で, 精度が32ポイントまで変化すること, の3つの主要な障害モードが明らかになった。顕著なことに、SCBのシーンレベルの分類は、CLIPとGPT-4oは、行動的に接地された潤滑剤で誘導された場合、約0.60のカッパを達成できる。 GPT-4oの安全フィルタは、個々の学生の顔に関わるチェーン・オブ・シークレット要求の98%を拒否する。本研究は,VLMを教育観察システムに応用するための基準線と表面設計を校正した。

関連論文リスト

TAME: Test-Time Adversarial Prompt Tuning via Mixture-of-Experts for Vision-Language Models [76.92890872338235]
大規模事前学習型ビジョンランゲージモデル(VLM)は、強いゼロショット一般化を示すが、知覚不能な逆方向の摂動に対して非常に脆弱である。ダウンストリームタスク固有のリトレーニングを必要とせずに堅牢性を高めるため,新しいテストタイムディフェンスであるTAMEを提案する。
論文参考訳（メタデータ） (2026-05-17T18:07:08Z)
Cognitive-Uncertainty Guided Knowledge Distillation for Accurate Classification of Student Misconceptions [11.509375725817195]
既存のデータから高価値サンプルをマイニングする2段階の知識蒸留フレームワークを提案する。フィルタされたサンプルのわずか10.30%で強化トレーニングを行うことで、MAP-Chartingデータセットで0.9585 (+17.8%)のMAP@3を達成する。 4Bパラメータモデルのみを用いて、中学代数学の誤概念ベンチマークのクロストピックテストにおいて84.38%の精度が得られる。
論文参考訳（メタデータ） (2026-05-14T12:17:38Z)
LLM-as-Judge Framework for Evaluating Tone-Induced Hallucination in Vision-Language Models [9.095828883716907]
Ghost-100は3つのタスクファミリーにまたがる8つのカテゴリにまたがる800の合成画像のベンチマークである。すべてのイメージは、構造化された5-Level Prompt Intensity Frameworkから引き出された5つのプロンプトとペアリングされる。ルールに基づくH-Rateは,モデルが接地された拒絶から肯定的なコミットメントへと交差する応答の割合を計測する。
論文参考訳（メタデータ） (2026-04-20T20:21:27Z)
CoT4Det: A Chain-of-Thought Framework for Perception-Oriented Vision-Language Tasks [53.88194225946438]
Chain-of-Thought for Detection (CoT4Det)は、知覚タスクを3つの解釈可能なステップに再構成するシンプルだが効率的な戦略である。一般的な視覚言語能力を損なうことなく,CoT4Detは認識性能を著しく向上させることを示す。
論文参考訳（メタデータ） (2025-12-07T05:26:30Z)
Vision Large Language Models Are Good Noise Handlers in Engagement Analysis [54.397912827957164]
本稿では,VLM(Vision Large Language Models)を利用したアノテーションの洗練とトレーニングプロセスの指導を行うフレームワークを提案する。本フレームワークでは,行動手がかりを抽出し,データを高信頼性サブセットと低信頼性サブセットに分割する。改良された高信頼性サブセットで訓練された古典型コンピュータビジョンモデルは,カリキュラム戦略により強化され,改善されたことを示す。
論文参考訳（メタデータ） (2025-11-18T18:50:26Z)
Bias-Aware Machine Unlearning: Towards Fairer Vision Models via Controllable Forgetting [3.1959623025848405]
ディープニューラルネットワークはトレーニングデータに急激な相関関係に依存することが多く、医療や自動運転といった安全クリティカルな領域ではバイアスや不公平な予測が生じる。機械学習の最近の進歩は、ポストホックモデルの修正に有望な代替手段を提供する。
論文参考訳（メタデータ） (2025-09-09T07:25:51Z)
DST-Det: Simple Dynamic Self-Training for Open-Vocabulary Object Detection [72.25697820290502]
この研究は、ゼロショット分類によって潜在的に新しいクラスを特定するための単純かつ効率的な戦略を導入する。このアプローチは、アノテーションやデータセット、再学習を必要とせずに、新しいクラスのリコールと精度を高めるセルフトレーニング戦略として言及する。 LVIS、V3Det、COCOを含む3つのデータセットに対する実証的な評価は、ベースラインのパフォーマンスを大幅に改善したことを示している。
論文参考訳（メタデータ） (2023-10-02T17:52:24Z)
Automated Evaluation of Classroom Instructional Support with LLMs and BoWs: Connecting Global Predictions to Specific Feedback [9.51494089949975]
大規模言語モデル(LLM)は、CLLASS(CLassroom Assessment Scoring System)のインストラクショナルサポートのドメインスコアを推定するために用いられる。我々はメタピアソンのLlama2のゼロショットプロンプトと/または古典的なBag of Words(BoW)モデルを用いて、教師の発話の個々の発話を分類する機械学習アーキテクチャを設計する。これらの発話レベルの判断は15分間の観察セッションに集約され、グローバルなCLASSスコアを推定する。
論文参考訳（メタデータ） (2023-10-02T12:11:17Z)
Towards Realistic Zero-Shot Classification via Self Structural Semantic Alignment [53.2701026843921]
大規模事前訓練型視覚言語モデル(VLM)はゼロショット分類に有効であることが証明されている。本稿では,アノテーションではなく,より広い語彙を前提とした,より難易度の高いゼロショット分類(Realistic Zero-Shot Classification)を提案する。本稿では,ラベルのないデータから構造意味情報を抽出し,同時に自己学習を行う自己構造意味アライメント(S3A)フレームワークを提案する。
論文参考訳（メタデータ） (2023-08-24T17:56:46Z)
Single-Class Target-Specific Attack against Interpretable Deep Learning Systems [14.453881413188455]
SingleADVと呼ばれるシングルクラスターゲット固有のAdversa攻撃。そこで本研究では,SingleADVと呼ばれる,単一クラス固有のAdversa攻撃について紹介する。
論文参考訳（メタデータ） (2023-07-12T23:07:06Z)
CLASTER: Clustering with Reinforcement Learning for Zero-Shot Action Recognition [52.66360172784038]
各インスタンスを個別に最適化するのではなく,すべてのトレーニングサンプルを同時に考慮したクラスタリングモデルを提案する。提案手法をCLASTERと呼び,すべての標準データセットの最先端性を常に改善することを確認する。
論文参考訳（メタデータ） (2021-01-18T12:46:24Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。