論文の概要: TEVI: Text-Conditioned Editing of Visual Representations via Sparse Autoencoders for Improved Vision-Language Alignment
- arxiv url: http://arxiv.org/abs/2606.07451v1
- Date: Fri, 05 Jun 2026 16:54:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-08 14:33:29.856289
- Title: TEVI: Text-Conditioned Editing of Visual Representations via Sparse Autoencoders for Improved Vision-Language Alignment
- Title(参考訳): TEVI:視覚言語アライメント改善のためのスパースオートエンコーダによる視覚表現のテキスト記述編集
- Authors: Sweta Mahajan, Sukrut Rao, Jiahao Xie, Alexander Koller, Bernt Schiele,
- Abstract要約: 画像埋め込みから何を保持するかの信号としてキャプションを使用するフレームワークTEVIを提案する。
合成キャプションを用いた制御設定では,TEVIは,他のキャプションを廃棄しながら,キャプション記述属性の保存に有効であることを示す。
- 参考スコア(独自算出の注目度): 87.69757277913577
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-language models such as CLIP are highly useful for diverse tasks due to their shared image-text embedding space. Despite this, the image and text embeddings are often poorly aligned, affecting downstream performance. Recent work has shown that this can be attributed to an information imbalance: images contain more information than their captions describe. In this work, we propose TEVI, a framework that uses captions as a signal for what to retain from image embeddings. Specifically, we use sparse autoencoders to disentangle image embeddings and train a masking module to selectively reconstruct the embedding based on a given caption. In a controlled setup with synthetic captions, we show that TEVI is effective at preserving caption-described attributes while discarding others. By applying TEVI to CLIP models trained on natural images, we further achieve improved retrieval performance across coarse-grained short-caption (MS COCO, Flickr) and fine-grained long-caption (IIW, DOCCI) benchmarks, with stronger gains on richer captions, and improved robustness on the RoCOCO benchmark.
- Abstract(参考訳): CLIPのような視覚言語モデルは、画像テキストの埋め込みスペースを共有するため、多様なタスクに非常に有用である。
それにもかかわらず、画像とテキストの埋め込みは、しばしば整合性が悪く、下流のパフォーマンスに影響を及ぼす。
近年の研究では、これは情報不均衡によるものであることが示されており、画像はキャプションが記述するよりも多くの情報を含んでいる。
本研究では,画像埋め込みから何を守るかの信号としてキャプションを使用するフレームワークTEVIを提案する。
具体的には、スパースオートエンコーダを用いて画像埋め込みを切断し、マスクモジュールを訓練し、与えられたキャプションに基づいて埋め込みを選択的に再構築する。
合成キャプションを用いた制御設定では,TEVIは,他のキャプションを廃棄しながら,キャプション記述属性の保存に有効であることを示す。
TEVIを自然画像上で訓練したCLIPモデルに適用することにより、粗粒長長長長長長長長長長長長長長長長長長長長長長長短長長長長長長長長長長長長長短長長短短長長短長長長長長長長短短長長短短長長短短短長長長長長長長長長長長長短短短長長長長長長長長長長短短長長長短短短長長長長短短短短短短短短短短短短短短短短短短短短短短短短短短短短短短短短短短短短短短短短短短短短短短短短短短短短短短短短短短短短短短短短短短短短短短短高高高高高高高高高高高高高高高高高高高化化化化化高高高高高高高高化化化化高高高高化化化高高高化化
関連論文リスト
- CycleCap: Improving VLMs Captioning Performance via Self-Supervised Cycle Consistency Fine-Tuning [65.10059440725041]
視覚言語モデル(VLM)は画像キャプション、視覚的質問応答、視覚的推論において顕著な進歩を遂げている。
ヴィジュアル言語を誤用する傾向があり、しばしば過度に汎用的あるいは幻覚的な記述を生み出している。
既存のアプローチでは、コストがかかる大規模アノテートデータセットのインストラクションチューニングと、キャプションリファインメントのための複雑なテストタイムフレームワークによって、この問題に対処している。
本研究では,サイクル一貫性のレンズを用いて,画像テキストのアライメントを再考する。
論文 参考訳(メタデータ) (2026-03-18T20:57:31Z) - CLIPS: An Enhanced CLIP Framework for Learning with Synthetic Captions [31.624782806591682]
リッチに記述された合成キャプションをより効果的に活用するための2つのシンプルで効果的な設計を提案する。
まず,合成キャプションを用いた学習において,強い逆効果が観察される。
第二に、自己回帰キャプタを組み込んで、再カプセル化プロセスを模倣する。
論文 参考訳(メタデータ) (2024-11-25T18:49:02Z) - Learning text-to-video retrieval from image captioning [59.81537951811595]
本稿では,未収録ビデオを用いたテキスト・ビデオ検索訓練のプロトコルについて述べる。
i) ビデオのラベルにアクセスできず、(ii) テキスト形式でラベル付き画像にアクセスすると仮定する。
画像キャプションによるビデオフレームの自動ラベル付けにより,テキスト対ビデオ検索のトレーニングが可能になることを示す。
論文 参考訳(メタデータ) (2024-04-26T15:56:08Z) - Mining Fine-Grained Image-Text Alignment for Zero-Shot Captioning via
Text-Only Training [14.340740609933437]
そこで本研究では,モダリティギャップを低減するために,テキストのみのトレーニングを施したゼロショット画像キャプションフレームワークを提案する。
特に,地域情報を活用するためのサブリージョン機能アグリゲーションを導入する。
フレームワークを拡張してゼロショットのVQAパイプラインを構築し、その汎用性を実証します。
論文 参考訳(メタデータ) (2024-01-04T16:43:46Z) - FuseCap: Leveraging Large Language Models for Enriched Fused Image
Captions [11.274127953112574]
本稿では,「凍った」視覚専門家を用いて,既存のキャプションを視覚的詳細で拡張するための自動アプローチを提案する。
提案手法であるFuseCapは,そのような視覚専門家の出力を,大規模言語モデルを用いて原文のキャプションと融合する。
私たちはこの大規模な画像キャプチャーペアのデータセットをコミュニティ向けにリリースします。
論文 参考訳(メタデータ) (2023-05-28T13:16:03Z) - Retrieval-augmented Image Captioning [15.266569206458648]
本稿では,入力画像とデータストアから検索したキャプションの集合が与えられた文を生成する画像キャプションに新たなアプローチを提案する。
我々のモデルにおけるエンコーダは、事前訓練されたV&L BERTを用いて、画像と検索されたキャプションを共同で処理する。
我々の研究は、標準分類タスクではなく、事前訓練されたV&Lエンコーダを生成タスクに利用することに貢献している。
論文 参考訳(メタデータ) (2023-02-16T12:54:13Z) - Fine-grained Image Captioning with CLIP Reward [104.71533106301598]
ウェブから大量の画像テキストペアをトレーニングしたマルチモーダルエンコーダであるCLIPを用いて、マルチモーダル類似性を計算し、報酬関数として利用する。
また、追加のテキストアノテーションを必要としない文法を改善するために、CLIPテキストエンコーダの簡単な微調整戦略を提案する。
テキスト・ツー・イメージ検索とFineCapEvalの実験において、提案したCLIP誘導モデルは、CIDEr最適化モデルよりも顕著なキャプションを生成する。
論文 参考訳(メタデータ) (2022-05-26T02:46:09Z) - CapOnImage: Context-driven Dense-Captioning on Image [13.604173177437536]
画像上のキャプション(CapOnImage)と呼ばれる新しいタスクを導入し、コンテキスト情報に基づいて画像の異なる場所で高密度キャプションを生成する。
テキストと画像位置の対応を段階的に学習するマルチレベル事前学習タスクを備えたマルチモーダル事前学習モデルを提案する。
他の画像キャプションモデルと比較すると、キャプション精度と多様性の両面で最良の結果が得られる。
論文 参考訳(メタデータ) (2022-04-27T14:40:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。