論文の概要: Beyond Flat Labels: Level-Restricted Contrastive Learning for Hierarchical Fine-Grained Vision Classification
- arxiv url: http://arxiv.org/abs/2606.21838v1
- Date: Sat, 20 Jun 2026 02:12:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-26 22:00:42.470054
- Title: Beyond Flat Labels: Level-Restricted Contrastive Learning for Hierarchical Fine-Grained Vision Classification
- Title(参考訳): フラットラベルを超えて:階層的微視的分類のためのレベル制限付きコントラスト学習
- Authors: Zhiyuan Tao, Srikumar Sastry, Matthew J Thompson, Elizabeth G Campolongo, Net Zhang, Ziheng Zhang, Hilmar Lapp, Yu Su, Tanya Berger-Wolf, Nathan Jacobs, Wei-Lun Chao, Jianyang Gu,
- Abstract要約: マルチモーダルコントラスト学習は、画像とテキストカテゴリを整列させることで、ゼロショットの視覚的分類を可能にした。
既存の手法は、しばしば分類学レベルで矛盾する予測を生成する。
本稿では,各分類レベルが適切な最適化を受けることを保証するグループバランス設計を提案する。
我々は、BioCLIPに基づいてTreeOfLife-10Mでモデルをトレーニングし、複数の階層分類ベンチマークで評価する。
- 参考スコア(独自算出の注目度): 50.20892407648858
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal contrastive learning has enabled zero-shot visual classification by aligning images with textual categories. However, in hierarchically structured label spaces, existing methods often produce predictions that are inconsistent across taxonomic levels. For example, a model may predict a fine-grained category whose parent category contradicts its simultaneously predicted higher-level label. By analysis, the issue originates from false negative labels when contrastive comparison involves multiple taxonomic levels. To this end, we propose to restrict contrastive comparisons to categories within the same taxonomic level. In addition, we adopt a group-balanced design, ensuring each taxonomic level receives adequate optimization. As a result, the proposed framework improves both hierarchical consistency and classification accuracy from coarse to fine granularity. We train our model with TreeOfLife-10M based on BioCLIP and evaluate it across multiple hierarchical classification benchmarks, where the model demonstrates significantly improved hierarchical consistency in both Euclidean and hyperbolic spaces. Notably, on iNaturalist 2021 (iNat21), our method improves average accuracy across levels by 30.47% over the baseline, highlighting its effectiveness for hierarchical zero-shot classification.
- Abstract(参考訳): マルチモーダルコントラスト学習は、画像とテキストカテゴリを整列させることで、ゼロショットの視覚的分類を可能にした。
しかし、階層的に構造化されたラベル空間では、既存の手法はしばしば分類学レベルで矛盾する予測を生成する。
例えば、モデルでは、親圏が同時に予測される上位ラベルと矛盾する微粒なカテゴリを予測することができる。
分析により、比較が複数の分類学的レベルを含む場合、この問題は偽陰性ラベルに由来する。
そこで本研究では,同じ分類レベルでのカテゴリーとの対比比較を制限することを提案する。
さらに,グループバランス設計を採用し,各分類レベルが適切に最適化されるようにした。
その結果,階層的一貫性と分類精度を粗さから粒度まで改善した。
我々は、BioCLIPに基づいてTreeOfLife-10Mでモデルをトレーニングし、複数の階層分類ベンチマークで評価し、ユークリッド空間と双曲空間の階層一貫性を著しく向上させることを示した。
特に、iNaturalist 2021(iNat21)では、ベースライン上での平均精度を30.47%向上させ、階層的なゼロショット分類の有効性を強調した。
関連論文リスト
- Hierarchically Robust Zero-shot Vision-language Models [74.79155369056639]
VLM(Vision-Language Models)はゼロショット分類を行うことができるが、敵攻撃の影響を受けやすい。
既存のアプローチは、固定されたテキスト埋め込みをイメージ埋め込みと整合させ、自然なパフォーマンスと堅牢性を犠牲にする。
本稿では,階層的な埋め込みと画像・テキスト・モダリティの対角的ロバストなアライメントに基づく,新しい逆方向の微調整フレームワークを提案する。
論文 参考訳(メタデータ) (2026-04-20T21:42:14Z) - Learning Consistent Taxonomic Classification through Hierarchical Reasoning [61.372270953201955]
分類学分類における葉レベル精度と階層的整合性を改善するための2段階階層型推論フレームワークを提案する。
我々のフレームワークはQwen2.5-VL-7Bモデルで実装され、葉レベルと階層的整合性の両方で元の72Bを10%以上上回っている。
論文 参考訳(メタデータ) (2026-01-21T03:00:00Z) - Enforcing Consistency and Fairness in Multi-level Hierarchical Classification with a Mask-based Output Layer [25.819440955594736]
分類を強制し、一貫性、公正性、正確な一致を含む目的を最適化するために設計された公正でモデルに依存しないレイヤを導入します。
評価の結果,提案した層は予測の公平性を向上するだけでなく,分類を強制し,一貫した予測と優れた性能をもたらすことが示された。
論文 参考訳(メタデータ) (2025-03-19T06:30:04Z) - Visually Consistent Hierarchical Image Classification [37.80849457554078]
階層分類は、例えば、粗いレベルの"Bird"から中レベルの"Hummingbird"から、細かいレベルの"Green hermit"まで、複数の分類のレベルにまたがるラベルを予測する。
論文 参考訳(メタデータ) (2024-06-17T14:56:51Z) - Deep Imbalanced Regression via Hierarchical Classification Adjustment [50.19438850112964]
コンピュータビジョンにおける回帰タスクは、しばしば、対象空間をクラスに定量化することで分類される。
トレーニングサンプルの大多数は目標値の先頭にあるが、少数のサンプルは通常より広い尾幅に分布する。
不均衡回帰タスクを解くために階層型分類器を構築することを提案する。
不均衡回帰のための新しい階層型分類調整(HCA)は,3つのタスクにおいて優れた結果を示す。
論文 参考訳(メタデータ) (2023-10-26T04:54:39Z) - ProTeCt: Prompt Tuning for Taxonomic Open Set Classification [59.59442518849203]
分類学的オープンセット(TOS)設定では、ほとんどショット適応法はうまくいきません。
本稿では,モデル予測の階層的一貫性を校正する即時チューニング手法を提案する。
次に,階層整合性のための新しいPrompt Tuning(ProTeCt)手法を提案し,ラベル集合の粒度を分類する。
論文 参考訳(メタデータ) (2023-06-04T02:55:25Z) - Inducing a hierarchy for multi-class classification problems [11.58041597483471]
分類的ラベルが自然な階層に従ったアプリケーションでは、ラベル構造を利用する分類方法は、そうでないものをしばしば上回る。
本稿では,フラット分類器に対する分類性能を向上できる階層構造を誘導する手法のクラスについて検討する。
原理シミュレーションと3つの実データアプリケーションにおいて、潜入階層の発見と精度向上のためのメソッドのクラスの有効性を実証する。
論文 参考訳(メタデータ) (2021-02-20T05:40:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。