論文の概要: The Professor: Multi-Teacher Unsupervised Prompt Distillation for Vision-Language Models
- arxiv url: http://arxiv.org/abs/2606.23897v1
- Date: Mon, 22 Jun 2026 19:53:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-24 22:16:48.646492
- Title: The Professor: Multi-Teacher Unsupervised Prompt Distillation for Vision-Language Models
- Title(参考訳): 教師:ビジョンランゲージモデルのための教師なしプロンプト蒸留
- Authors: Ahmad Algadhi, Ahmed Alzuhair, Omar Alkhulaif, Muzammil Behzad,
- Abstract要約: 固定された2教師アンサンブルから蒸留する多教師拡張であるTheProfessorを提案する。
我々は,4つのベース・ツー・ノーベルデータセット上で,単教師PromptKD,等確率アンサンブル,信頼性重み付きアンサンブルを評価した。
- 参考スコア(独自算出の注目度): 0.27998963147546135
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Prompt distillation compresses large vision-language models (VLMs) such as CLIP into lightweight student models by matching teacher predictions on unlabeled domain images. PromptKD (CVPR 2024) established this paradigm with a single PromptSRC-finetuned ViT-L/14 teacher and a ViT-B/16 student. We propose TheProfessor, a multi-teacher extension that distills from a fixed two-teacher ensemble: a domain-finetuned PromptSRC ViT-L/14 teacher and a zero-shot EVA-CLIP-L/14 teacher whose logits are pre-computed per dataset. We evaluate single-teacher PromptKD, equal-probability ensembling, and confidence-weighted ensembling on four base-to-novel datasets: Caltech-101, DTD, UCF101, and EuroSAT. In a 12-run single-seed sweep, confidence-weighted ensembling improves average HM from 87.52 to 89.28 (+1.77 points), while equal averaging improves average HM to 88.88 (+1.37 points). Gains are dataset dependent: they are negligible on Caltech-101 (+0.16 HM for confidence weighting), modest on UCF101 (+0.62), and largest on domain-shifted EuroSAT (+5.78). These results update our earlier Caltech-only analysis and show that multi-teacher prompt distillation is most useful when the second teacher contributes complementary supervision under domain shift.
- Abstract(参考訳): プロンプト蒸留は、CLIPのような大きな視覚言語モデル(VLM)を、未ラベルのドメイン画像上の教師予測と一致することで、軽量の学生モデルに圧縮する。
PromptKD (CVPR 2024) はこのパラダイムを1人の PromptSRC-finetuned ViT-L/14 教師と ViT-B/16 の学生で確立した。
TheProfessorは、固定された2つの教師アンサンブルから抽出するマルチ教師拡張である。ドメインファインチューニングされたPromptSRC ViT-L/14教師と、データセット毎にログをプリ計算したゼロショットEVA-CLIP-L/14教師である。
我々は,Caltech-101,DTD,UCF101,EuroSATの4つのベース・ツー・ノーベルデータセットに対して,単教師PromptKD,等確率アンサンブル,自信重みアンサンブルを評価した。
12回のシングルシード・スイープでは、信頼度重み付きアンサンブルは平均HMを87.52から89.28(+1.77ポイント)に改善し、平均値が平均HMを88.88(+1.37ポイント)に改善する。
利得はデータセットに依存しており、信頼度はCaltech-101 (+0.16 HM)、UCF101 (+0.62)、ドメインシフトEuroSAT (+5.78)で最大である。
これらの結果から,第2の教師がドメインシフトの下で補完的な指導に貢献する場合,多教師による蒸留の促進が最も有用であることが示唆された。
関連論文リスト
- Single-Channel Tissue Segmentation via Cross-Modal Distillation from Foundation Models [0.0]
多重蛍光顕微鏡は、核(DAPI)と膜(E-カドヘリン)を含む相補的なチャネルを提供することで組織セグメンテーションを改善する
本研究では,核チャネルのみで動作する軽量の学生に,凍結基礎モデル教師による多重入力処理から意味情報を伝達するクロスモーダルな知識蒸留フレームワークを提案する。
論文 参考訳(メタデータ) (2026-05-30T23:34:49Z) - How to Choose Your Teacher for Fine Grained Image Recognition [41.84982875214807]
本稿では,教師の予測率に基づいて,教師の選択基準であるtextbfRatio 1-2を提案する。
3人の学生,8人の教師,8人のデータセットを4つのトレーニング戦略で総合的に分析したところ,我々の測定値が従来の方法よりも18%向上していることがわかった。
論文 参考訳(メタデータ) (2026-05-15T07:24:37Z) - Adaptive Teacher Exposure for Self-Distillation in LLM Reasoning [2.9029480541171107]
そこで我々は, 自己蒸留を推論するための効果的な新しい軸として, 適応型教師曝露を提案する。
適応型自己蒸留(ATESD)は, 競争力のある自己蒸留とRLベースラインを一貫して上回ることを示す。
論文 参考訳(メタデータ) (2026-05-12T03:15:58Z) - On-Policy Distillation with Best-of-N Teacher Rollout Selection [54.91780727674628]
本報告では, オンライン蒸留のためのベスト・オブ・Nロールアウト教員選抜フレームワークBRTSを提案する。
BRTSは、教師軌道から構築された教師コンテキスト管理ブランチで、標準の学生コンテキストOPDを強化する。
BRTSは、挑戦的な推論ベンチマークにおいて、標準的なPDよりも改善されており、より難しいデータセットに対して最大の利益がある。
論文 参考訳(メタデータ) (2026-05-10T19:49:00Z) - TCOD: Exploring Temporal Curriculum in On-Policy Distillation for Multi-turn Autonomous Agents [55.27396165691312]
マルチターンエージェント設定におけるバニラOPDの鍵となる制限を,トラジェクトリレベルKL不安定(Trajectory-Level KL Instability)と呼ぶ。
学生に露出する軌道深度を制御し,カリキュラムのスケジュールを段階的に拡張するフレームワークであるTCODを提案する。
4組の生徒と教師のペアによる実験結果から,TCODはKLのエスカレーションを軽減し,トレーニングを通してKLの安定性を高め,バニラPDよりも最大18ポイントのエージェント性能を向上させることが示された。
論文 参考訳(メタデータ) (2026-04-27T03:38:27Z) - Merge-of-Thought Distillation [23.53356244978525]
マージ・オブ・ソート蒸留(Merge-of-Thought Distillation、MoT)は、教師固有の教師付き微調整ブランチと、結果として生じる生徒の変種をマージする重み空間を代替する軽量フレームワークである。
競合数学のベンチマークでは、Qwen3-14Bの学生にMoTを適用すると、Deepseek-R1、Qwen3-32B、OpenAI-O1といった強力なモデルを超える。
MoTは、最高の単教師蒸留よりも優れており、数学以外の一般的な推論を改善し、分散シフトとピアレベルの教師に対して堅牢性を示している。
論文 参考訳(メタデータ) (2025-09-10T17:46:57Z) - CoMAD: A Multiple-Teacher Self-Supervised Distillation Framework [1.2172320168050466]
CoMAD (Consensus-oriented Masked Distillation) について紹介する。
自己監督型ビジョントランスフォーマーからの知識を、コンパクトな学生ネットワークに統合する。
ImageNet-1Kでは、CoMADのViT-Tinyが75.4%のTop-1を達成した。
論文 参考訳(メタデータ) (2025-08-06T18:55:14Z) - Low-complexity deep learning frameworks for acoustic scene
classification using teacher-student scheme and multiple spectrograms [59.86658316440461]
提案システムは,教師のネットワークを訓練する(Phase I)と,教師の知識を蒸留して学生のネットワークを訓練する(Phase II)の2つの段階から構成される。
DCASE 2023 Task 1 Developmentデータセットで実施した実験は,低複雑さの要求を満たすとともに,57.4%の最高の分類精度を達成した。
論文 参考訳(メタデータ) (2023-05-16T14:21:45Z) - Alexa Teacher Model: Pretraining and Distilling Multi-Billion-Parameter
Encoders for Natural Language Understanding Systems [63.713297451300086]
本研究では,700Mから9.3Bまでの非埋め込みパラメータ数を持つ事前学習エンコーダの大規模実験結果について述べる。
その後、17M-170Mパラメータからより小さなモデルに蒸留し、仮想アシスタントシステムの自然言語理解(NLU)コンポーネントに応用した。
論文 参考訳(メタデータ) (2022-06-15T20:44:23Z) - One Teacher is Enough? Pre-trained Language Model Distillation from
Multiple Teachers [54.146208195806636]
本稿では,事前学習型言語モデル圧縮のためのMT-BERTという多言語知識蒸留フレームワークを提案する。
MT-BERTは、複数の教師PLMから高品質な学生モデルを訓練できることを示す。
PLMの圧縮におけるMT-BERTの有効性を3つのベンチマークデータセットで検証した。
論文 参考訳(メタデータ) (2021-06-02T08:42:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。