論文の概要: HANCLIP: A Family of Hyperbolic Angular Negation Vision Language Models
- arxiv url: http://arxiv.org/abs/2606.23843v1
- Date: Mon, 22 Jun 2026 18:25:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-24 22:16:48.624616
- Title: HANCLIP: A Family of Hyperbolic Angular Negation Vision Language Models
- Title(参考訳): HANCLIP: 双曲型角否定視覚言語モデルの一家系
- Authors: Hoang-Bao Le, Aiden Durrant, Thai Son Mai, Binh T. Nguyen, Liting Zhou, Cathal Gurrin,
- Abstract要約: HANCLIP(Hyperbolic + Angular + Negation)は、組み込みスペースを明示的に再構成し、"イメージとは何か"と"何なのか"をエンコードするビジョン言語モデルである。
HANCLIPは、20,000の画像テキスト四重項からなるコンパクトなセットに基づいて訓練され、階層的意味論関係と非対称性をモデル化した双曲的定式化と、否定的記述と対応する正の体系的な分離を促進する角三重項目的とを組み合わせる。
実験により、HANCLIPは標準分類における競争力や改善性能を維持しつつ、否定に焦点を当てたNegBenchベンチマークで一貫したゲインを提供することが示された。
- 参考スコア(独自算出の注目度): 3.4657033095341845
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-Language Models (VLMs) are typically pre-trained on large-scale image-text datasets to capture semantic correspondences between visual content and natural language. However, they remain surprisingly brittle to negation: models often rely on shallow word co-occurrence and are easily distracted by misleading or irrelevant textual cues, even when their overall retrieval or classification performance is strong. Moreover, directly finetuning on negation data can interfere with previously acquired knowledge, causing noticeable degradation on standard vision-language benchmarks. To tackle these issues, this work introduces HANCLIP (Hyperbolic + Angular + Negation), a family of VLMs that explicitly restructures the embedding space to encode "what an image is not" alongside "what it is." HANCLIP is trained on a compact set of 20,000 image-text quadruplets and combines a hyperbolic formulation, which models hierarchical semantic relations and asymmetries, with an angular triplet objective that drives systematic separation between negated descriptions and their corresponding positives. This geometry-aware design strengthens negation sensitivity while preserving the global structure of pretrained representations, rather than overwriting them. Extensive experiments across multiple vision-language tasks show that HANCLIP delivers consistent gains on the negation-focused NegBench benchmark, while maintaining competitive or improved performance on standard classification and image-text retrieval benchmarks. The framework is model-agnostic and can be plugged into CLIP, LongCLIP, SmartCLIP, and HiMo-CLIP without large-scale retraining, demonstrating that a carefully designed geometric objective can substantially extend the reasoning capabilities of existing VLMs using only modest additional data.
- Abstract(参考訳): VLM(Vision-Language Models)は通常、視覚コンテンツと自然言語のセマンティックな対応を捉えるために、大規模な画像テキストデータセット上で事前訓練されている。
モデルは、しばしば浅い単語の共起に依存し、全体的な検索や分類性能が強い場合でも、誤解を招くか、無関係なテキストの手がかりに気を取られてしまう。
さらに、否定データを直接微調整することは、以前取得した知識に干渉し、標準的なビジョン言語ベンチマークで顕著な劣化を引き起こす。
これらの問題に対処するために、この研究はHANCLIP (Hyperbolic + Angular + Negation)を導入している。
HANCLIPは、20,000の画像テキスト四重項からなるコンパクトなセットに基づいて訓練され、階層的意味論関係と非対称性をモデル化した双曲的定式化と、否定的記述と対応する正の体系的な分離を促進する角三重項目的とを組み合わせる。
この幾何学的設計は、上書きではなく、事前訓練された表現のグローバル構造を保ちながら、否定感度を高める。
複数の視覚言語タスクにわたる広範囲な実験により、HANCLIPは、標準分類と画像テキスト検索ベンチマークのパフォーマンスの競争力を維持しながら、否定に焦点を当てたNegBenchベンチマークで一貫した利得を提供することが示された。
このフレームワークはモデルに依存しず、大規模リトレーニングなしでCLIP、LongCLIP、SmartCLIP、HiMo-CLIPにプラグインすることができる。
関連論文リスト
- VITRIX-CLIPIN: Enhancing Fine-Grained Visual Understanding in CLIP via Instruction Editing Data and Long Captions [16.90061119174727]
CLIP-IN(CLIP-IN)は、2つのコアイノベーションを通じてCLIPの微粒な認識を促進する新しいフレームワークである。
まず、画像操作用に設計された命令編集データセットを、ハードネガティブな画像テキストペアのユニークな情報源として活用する。
第二に、CLIP-INは長いキャプションを組み込み、回転する位置エンコーディングを利用して、標準のCLIPでしばしば見逃されるリッチなセマンティックコンテキストをキャプチャする。
論文 参考訳(メタデータ) (2025-08-04T11:57:10Z) - Know "No" Better: A Data-Driven Approach for Enhancing Negation Awareness in CLIP [57.33324843049638]
本稿では,大言語モデル(LLM)と多モーダルLLMを用いたデータ生成パイプラインを導入し,否定を包含するキャプションを生成する。
パイプラインから生成したデータを微調整したCLIPを用いて,一般性を維持しつつ否定意識を高めるNegationCLIPを開発した。
さまざまなCLIPアーキテクチャの実験は、CLIPの否定を正確に認識する能力を向上する上で、データ生成パイプラインの有効性を検証する。
論文 参考訳(メタデータ) (2025-01-19T01:17:05Z) - VladVA: Discriminative Fine-tuning of LVLMs [67.14293827774827]
CLIPのような対照的に訓練された視覚言語モデル(VLM)は、識別的視覚言語表現学習の事実上のアプローチとなっている。
我々は,LVLMの識別的微調整のための新たな訓練手法である「両世界のベスト」を組み合わせることを提案する。
論文 参考訳(メタデータ) (2024-12-05T17:54:27Z) - Learn "No" to Say "Yes" Better: Improving Vision-Language Models via Negations [43.484570564890866]
既存の視覚言語モデル(VLM)は、テキスト記述を単位として扱い、個々の概念をプロンプトで混乱させる。
CC-Negは,228,246のイメージ,真のキャプション,それに対応する否定的なキャプションを含むデータセットである。
提案するCoN-CLIPフレームワークであるCLIPの対照的な損失に対する修正とともにCC-Negを用いることで,否定の理解が向上した。
論文 参考訳(メタデータ) (2024-03-29T17:33:42Z) - Towards Realistic Zero-Shot Classification via Self Structural Semantic
Alignment [53.2701026843921]
大規模事前訓練型視覚言語モデル(VLM)はゼロショット分類に有効であることが証明されている。
本稿では,アノテーションではなく,より広い語彙を前提とした,より難易度の高いゼロショット分類(Realistic Zero-Shot Classification)を提案する。
本稿では,ラベルのないデータから構造意味情報を抽出し,同時に自己学習を行う自己構造意味アライメント(S3A)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-24T17:56:46Z) - Non-Contrastive Learning Meets Language-Image Pre-Training [145.6671909437841]
非コントラスト型言語画像事前学習(nCLIP)の有効性について検討する。
我々は、CLIPとnCLIPを組み合わせたマルチタスクフレームワークであるxCLIPを紹介し、nCLIPが機能セマンティクスの強化にCLIPを支援することを示す。
論文 参考訳(メタデータ) (2022-10-17T17:57:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。