論文の概要: Structural Assessment for Understanding and Guiding Dataset Distillation in Discrete Token Space
- arxiv url: http://arxiv.org/abs/2606.21705v1
- Date: Fri, 19 Jun 2026 19:33:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-26 03:52:11.218798
- Title: Structural Assessment for Understanding and Guiding Dataset Distillation in Discrete Token Space
- Title(参考訳): 離散トークン空間におけるデータセット蒸留の理解と誘導のための構造評価
- Authors: Yue Cao, Jianyang Gu, Vyacheslav Kungurtsev, Yu Hu, Jozsef Hamari, Zheng Liu, Mohsen Zardadi,
- Abstract要約: 蒸留したデータセットを他のデータセットよりも効果的にする要因は、いまだによく分かっていない。
本研究では、離散的な視覚的トークン化器のレンズを用いてこの問題を考察する。
本研究は,データセットの有効性におけるトークン合成の重要性を浮き彫りにした。
- 参考スコア(独自算出の注目度): 18.05951672266401
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Dataset distillation (DD) has proven to reduce training cost while preserving accuracy. While promising, the factors that make one distilled dataset more effective than another remain poorly understood. In this work, we investigate this question through the lens of discrete visual tokenizers. Whereas many prior DD efforts emphasize matching global data distributions, we suggest that the effectiveness depends on which semantic concepts are captured and how they are composed. Discrete visual tokenizers provide a finite vocabulary that enables direct statistical analysis of such compositional structure. Through quantitative analysis of token-level statistics, we introduce the structural score to measure the adequacy of token compositions. We observe that distilled datasets with balanced token composition yield higher validation performance. On the other hand, divergence from the original data does not necessarily harm performance. We further show that samples with high structural scores in the discrete token space can effectively guide diffusion-based DD. Our findings highlight the importance of token composition in dataset effectiveness, offering a principled complement to distributional similarity considerations in DD.
- Abstract(参考訳): データセット蒸留(DD)は、精度を保ちながらトレーニングコストを削減できることが証明されている。
有望ではあるが、ある蒸留データセットをより効果的にするための要因は、いまだに理解されていない。
本研究では、離散的な視覚的トークン化器のレンズを用いてこの問題を考察する。
従来のDDの取り組みの多くは、グローバルなデータ分布の整合性を強調しているが、その効果は、どのセマンティックな概念をキャプチャするか、どのように構成するかにかかっていることを示唆している。
離散的視覚トークン化器は、そのような構成構造の直接統計解析を可能にする有限語彙を提供する。
トークンレベルの統計量の定量的分析を通じて,トークン組成の妥当性を測る構造スコアを導入する。
バランスの取れたトークン組成を持つ蒸留データセットは高い妥当性を示す。
一方、元のデータからの発散は必ずしも性能を損なうとは限らない。
さらに、離散トークン空間における高い構造スコアを持つサンプルは、拡散に基づくDDを効果的に導くことができることを示す。
本研究は,DDにおける分布類似性を考慮した基本的補完として,データセットの有効性におけるトークン構成の重要性を強調した。
関連論文リスト
- SAS: Semantic-aware Sampling for Generative Dataset Distillation [55.27114962330541]
本稿では,コントラスト言語-画像事前学習(CLIP)をポストサンプリングのセマンティクスとして活用することで,データセット蒸留のセマンティック・アウェア・パースペクティブを導入する。
我々のゴールは、コンパクトであるだけでなく、意味的にクラス差別的で多様である蒸留データセットを得ることです。
論文 参考訳(メタデータ) (2026-05-18T08:05:46Z) - From Fewer Samples to Fewer Bits: Reframing Dataset Distillation as Joint Optimization of Precision and Compactness [6.073185086959359]
固定ビット予算下でデータセットのコンパクト性と精度を協調的に最適化する統合フレームワークを提案する。
QuADDは蒸留ループ内に微分可能な量子化モジュールを統合し、合成試料と量子化パラメータのエンドツーエンドの共最適化を可能にする。
本フレームワークは、データから量子化レベルを学習し、情報密度領域をより良く表現する、均一かつ適応的な非一様量子化をサポートする。
論文 参考訳(メタデータ) (2026-03-02T21:46:10Z) - CAPA: Contribution-Aware Pruning and FFN Approximation for Efficient Large Vision-Language Models [14.30682201364961]
本研究では,注目度をベクトルサイズで重み付けした注意貢献が,視覚的トークン選択のためのより正確な基準を提供することを示す。
本稿では、重要な機能遷移における注意貢献を用いて視覚トークンを創出する二重戦略フレームワークであるCAPA(Contribution-Aware Pruning and FFN Approximation)を紹介する。
論文 参考訳(メタデータ) (2026-01-30T19:09:03Z) - Seeing the Whole Picture: Distribution-Guided Data-Free Distillation for Semantic Segmentation [2.314355984893946]
本稿では,セマンティックセグメンテーションに適した新しいデータフリー蒸留フレームワークDFSSを紹介する。
画素を独立に扱う従来のアプローチとは異なり、DFSSは現実世界のシーンの構造的・文脈的連続性を尊重する。
我々の重要な洞察は、教師モデルからのバッチ正規化(BN)統計を活用して、近似分布サンプリング(ADS)をガイドすることである。
論文 参考訳(メタデータ) (2025-12-15T10:37:05Z) - Understanding Data Influence with Differential Approximation [63.817689230826595]
我々は,Diff-Inと呼ばれる連続学習ステップ間の影響の差を蓄積することにより,サンプルの影響を近似する新しい定式化を導入する。
2次近似を用いることで、これらの差分項を高精度に近似し、既存の手法で必要となるモデル凸性を排除した。
Diff-In は既存の影響推定器に比べて近似誤差が著しく低いことを示す。
論文 参考訳(メタデータ) (2025-08-20T11:59:32Z) - CONCORD: Concept-Informed Diffusion for Dataset Distillation [29.092857460373278]
本研究では,データセット蒸留のためのconcept-Informed Diffusion (CONCORD)を提案する。
提案手法は, 蒸留画像生成の可制御性と解釈性の両方を著しく向上させる。
画像Net-1Kとそのサブセットの最先端性能を達成し,CONCORDの有効性を実証する。
論文 参考訳(メタデータ) (2025-05-23T20:39:23Z) - "Principal Components" Enable A New Language of Images [79.45806370905775]
証明可能なPCAのような構造を潜在トークン空間に組み込む新しい視覚トークン化フレームワークを導入する。
提案手法は、最先端の再構築性能を実現し、人間の視覚システムとの整合性を向上する。
論文 参考訳(メタデータ) (2025-03-11T17:59:41Z) - Importance-Aware Adaptive Dataset Distillation [53.79746115426363]
ディープラーニングモデルの開発は、大規模データセットの可用性によって実現されている。
データセットの蒸留は、大きな元のデータセットから必須情報を保持するコンパクトなデータセットを合成することを目的としている。
本稿では, 蒸留性能を向上する重要適応型データセット蒸留(IADD)法を提案する。
論文 参考訳(メタデータ) (2024-01-29T03:29:39Z) - CAFE: Learning to Condense Dataset by Aligning Features [72.99394941348757]
本稿ではCAFE(Aligning features)によるCondenseデータセットの新しいスキームを提案する。
このアプローチの核心は、さまざまなスケールにわたる実データと合成データから機能を整合させる効果的な戦略です。
提案したCAFEを様々なデータセットで検証し,概ね最先端技術であることを示す。
論文 参考訳(メタデータ) (2022-03-03T05:58:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。