論文の概要: Beyond Dark Knowledge: Mixup-Based Distillation for Reliable Predictions
- arxiv url: http://arxiv.org/abs/2606.12171v1
- Date: Wed, 10 Jun 2026 14:59:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-11 16:42:38.515025
- Title: Beyond Dark Knowledge: Mixup-Based Distillation for Reliable Predictions
- Title(参考訳): ダークナレッジを超えて: 信頼性予測のための混合ベースの蒸留
- Authors: José Medina, Paul Honeine, Abdelaziz Bensrhair, Amnir Hadachi,
- Abstract要約: 知識蒸留と混合はクラス境界における滑らかさの誘導に有効であることが証明されている。
彼らの相互作用は、特に学生のトレーニングでのみミキシングが適用される場合、よく理解されていない。
このミスマッチは,教師の指導信号が分散的混乱に支配されていることを示す。
- 参考スコア(独自算出の注目度): 4.672326975246762
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Knowledge Distillation (KD) and mixup have proven effective at inducing smoothness in class boundaries; KD captures inherent class relationships in probability distributions, and mixup enforces them through convex combinations of inputs. Their interaction, however, remains poorly understood, particularly when mixup is applied only during student training. In this setting, the teacher is queried on inputs drawn from a vicinal distribution it never saw during training, a controlled mismatch whose effect on knowledge transfer has not been characterised. We show that this mismatch causes the teacher's supervisory signal to be dominated by distributional confusion rather than inter-class structure. Despite it, the student does not merely imitate the teacher: it independently acquires greater linearity in the vicinal region, a structural property that the teacher lacks, and goes beyond dark-knowledge transfer. KD with mixup consistently improves student accuracy and reduces overconfidence by an order of magnitude relative to the baseline, across CIFAR and ImageNet with varying-capacity teachers. Crucially, calibration propagates from teacher to student independently of accuracy transfer, and temperature scaling governs a measurable accuracy-calibration trade-off that becomes more pronounced under vicinal training. These results reframe mixup distillation not as a degraded version of standard KD, but as a richer transfer channel that simultaneously shapes discriminative performance, uncertainty estimation, and representational geometry.
- Abstract(参考訳): 知識蒸留(KD)とミックスアップ(mixup)は、クラス境界における滑らかさの誘導に有効であることが証明されており、KDは確率分布における固有のクラス関係を捉え、ミックスアップは入力の凸結合を通じてそれらを強制する。
しかし、特に学生のトレーニングでのみミキシングが適用される場合、それらの相互作用は理解されていない。
この設定では、教師は、訓練中に見たことのない内臓分布から引き出された入力に基づいて、知識伝達に影響を及ぼさない制御ミスマッチを問い合わせる。
このミスマッチは,教師の指導信号がクラス間構造よりも分散的混乱に支配されていることを示す。
それにもかかわらず、生徒は単に教師を模倣するだけでなく、教師が欠く構造的特性であるヴィジナル領域において、独立してより大きな線形性を取得する。
ミックスアップによるKDは、学生の精度を一貫して改善し、CIFARとImageNetの様々な能力を持つ教師による、ベースラインに対して桁違いに自信を増す。
重要なことは、校正は教師から生徒への精度の伝達とは無関係に伝播し、温度のスケーリングは測定可能な精度の校正トレードオフを司り、市民の訓練ではより顕著になる。
これらの結果は, 標準KDの劣化版ではなく, 識別性能, 不確実性評価, 表現幾何学を同時に形成するリッチトランスファーチャネルとして再編成された。
関連論文リスト
- Trust the uncertain teacher: distilling dark knowledge via calibrated uncertainty [14.807774290798482]
Calibrated Uncertainty Distillation (CUD)は、暗黒の知識をより忠実に利用できるようにするためのフレームワークである。
我々のアプローチは精度と校正のバランスを保ち、生徒は自信のある信号とハードな信号に対する構造的不確実性の両方から恩恵を受けることができる。
論文 参考訳(メタデータ) (2026-02-13T07:43:19Z) - REDistill: Robust Estimator Distillation for Balancing Robustness and Efficiency [0.0]
本稿では、ロバスト統計に基づく原則化されたフレームワークであるREDistillを紹介する。
レディスティルは標準のKD目標をKL分散の一般化であるパワー分散損失に置き換える。
CIFAR-100 と ImageNet-1k の実験では、REDistill は多様な教師/学生アーキテクチャにおける生徒の精度を一貫して向上することを示した。
論文 参考訳(メタデータ) (2026-02-04T15:50:53Z) - Biased Teacher, Balanced Student [0.0]
Long-Tailed Knowledge Distillation (LTKD)は、クラス不均衡シナリオに適した新しいフレームワークである。
CIFAR-100-LT、TinyImageNet-LT、ImageNet-LTの実験は、LTKDが既存のKDメソッドより一貫して優れていることを示している。
論文 参考訳(メタデータ) (2025-06-23T10:46:44Z) - PLD: A Choice-Theoretic List-Wise Knowledge Distillation [12.52282972328311]
リストのランク付けを重み付けした "Plackett-Luce Distillation (PLD)" を導入する。
PLDは多様なアーキテクチャや蒸留目標に対して一貫した利益を達成する。
論文 参考訳(メタデータ) (2025-06-14T15:31:54Z) - Speculative Knowledge Distillation: Bridging the Teacher-Student Gap Through Interleaved Sampling [81.00825302340984]
本研究では,高品質なトレーニングデータを生成するために,投機的知識蒸留(SKD)を導入する。
SKDでは、学生はトークンを提案し、教師はそれ自身の分布に基づいて低いランクのトークンを置き換える。
翻訳,要約,数学,指示文など,各種テキスト生成タスクにおけるSKDの評価を行った。
論文 参考訳(メタデータ) (2024-10-15T06:51:25Z) - Faithful Knowledge Distillation [75.59907631395849]
i) 教師と学生は、正しく分類されたデータセットのサンプルに近い点で意見が一致しないか、(ii) 蒸留した学生は、データセットのサンプルに関する教師と同じくらい自信があるか、という2つの重要な質問に焦点をあてる。
これらは、安全クリティカルな設定の中で、堅牢な教師から訓練された小さな学生ネットワークを配置することを考えると、重要な問題である。
論文 参考訳(メタデータ) (2023-06-07T13:41:55Z) - On student-teacher deviations in distillation: does it pay to disobey? [54.908344098305804]
知識蒸留は「学生」ネットワークのテスト精度を向上させるために広く用いられている。
教師の確率に合うように訓練されているにもかかわらず、生徒は教師の確率から大きく逸脱するだけでなく、パフォーマンスにおいて教師を上回ることもある。
論文 参考訳(メタデータ) (2023-01-30T14:25:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。