論文の概要: ECA: Efficient Continual Alignment for Open-Ended Image-to-Text Generation
- arxiv url: http://arxiv.org/abs/2606.12633v1
- Date: Wed, 10 Jun 2026 19:42:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-12 15:55:27.433584
- Title: ECA: Efficient Continual Alignment for Open-Ended Image-to-Text Generation
- Title(参考訳): ECA: オープンエンディング画像-テキスト生成のための効率的な連続アライメント
- Authors: Jiangtao Kong, Peijun Zhao, Chun-Fu Chen, Youngwook Do, Shaohan Hu, Tianyi Zhou, Huajie Shao,
- Abstract要約: OpenITG (Incrmental Learning for Open-ended Image-to-Text Generation) は、新しい画像に対して正確で文脈的に関連するテキストを連続的に生成することを可能にする。
本稿では、環境が進化するにつれて、視覚データの主要なカテゴリが時間とともに変化するという、より実践的なシナリオに対処する。
本稿では, 連続的アライメントの概念を導入し, 事前学習されたVLM内のアライメントモジュールを漸進的に適応させて, 高品質なモダル表現を保存する。
- 参考スコア(独自算出の注目度): 22.537188820123962
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Incremental Learning (IL) for Open-ended Image-to-Text Generation (OpenITG) enables models to continuously generate accurate, contextually relevant text for new images while preserving previously acquired knowledge. Unlike prior studies, this paper addresses a more practical scenario in which the predominant category of visual data shifts over time as environments evolve. In this context, we introduce a new notion of continual alignment, which incrementally adapts the alignment module within pre-trained VLMs to preserve high-quality cross-modal representations. Based on this idea, we propose Efficient Continual Alignment (ECA), a novel exemplar-free IL approach for OpenITG. The key challenge is enabling the model to acquire new, task-specific features while minimizing interference with the established alignment without accessing raw data from previous tasks. To address this, ECA employs three core mechanisms: a Mixture of Query (MoQ) module that adapts task-specific query tokens, a Fisher Dynamic Expansion (FeDEx) that dynamically expands model structure based on a Fisher Information Matrix (FIM)-based metric, and an embedding dictionary with Dictionary Replay (DR) to retain past knowledge. To evaluate ECA's performance, we construct four new IL OpenITG benchmarks that better reflect real-world scenarios. Experimental results demonstrate that ECA significantly mitigates catastrophic forgetting and improves IL performance compared to baseline methods. Code and benchmarks are available at https://github.com/Snowball0823/ECA.
- Abstract(参考訳): OpenITG(Open-ended Image-to-Text Generation)のためのインクリメンタルラーニング(IL)により、モデルが獲得した知識を保ちながら、新しい画像に対する正確で文脈的に関連するテキストを連続的に生成することができる。
従来の研究とは異なり、環境が進化するにつれて視覚データの主要なカテゴリが時間とともに変化するという、より実践的なシナリオに対処する。
この文脈では、高品質なクロスモーダル表現を維持するために、事前訓練されたVLM内のアライメントモジュールを漸進的に適応させる、連続アライメントという新しい概念を導入する。
提案手法は,OpenITGのための新しい非標準ILアプローチであるEfficient Continual Alignment (ECA)を提案する。
重要な課題は、モデルが以前のタスクから生データにアクセスすることなく、確立したアライメントとの干渉を最小限にしつつ、新しいタスク固有の機能を取得することを可能にすることである。
タスク固有のクエリトークンを適応するMixture of Query(MoQ)モジュール、Fisher Information Matrix(FIM)ベースのメトリックに基づいてモデル構造を動的に拡張するFisher Dynamic Expansion(FeDEx)、過去の知識を保持するためにDictionary Replay(DR)を備えた埋め込み辞書である。
ECAの性能を評価するために,実世界のシナリオをよりよく反映した4つの新しいIL OpenITGベンチマークを構築した。
実験により,ECAは破滅的忘れ込みを著しく軽減し,ベースライン法と比較してIL性能を向上させることが示された。
コードとベンチマークはhttps://github.com/Snowball0823/ECAで公開されている。
関連論文リスト
- CIR-CoT: Towards Interpretable Composed Image Retrieval via End-to-End Chain-of-Thought Reasoning [93.05917922306196]
Composed Image Retrieval (CIR) は、参照画像と修正テキストから対象画像を見つけることを目的としている。
CIR-CoTは、明示的なChain-of-Thought (CoT)推論を統合するために設計された最初のエンドツーエンド検索指向MLLMである。
論文 参考訳(メタデータ) (2025-10-09T09:41:45Z) - In-Context Adaptation to Concept Drift for Learned Database Operations [31.530801633188233]
FLAIRは学習したデータベース操作のためのオンライン適応フレームワークである。
ランタイムパラメータの最適化の必要性を排除し、現在のコンセプトに沿った予測を提供する。
最大で5.2倍高速な適応を実現し、濃度推定の誤差を22.5%削減する。
論文 参考訳(メタデータ) (2025-05-07T13:36:59Z) - QID: Efficient Query-Informed ViTs in Data-Scarce Regimes for OCR-free Visual Document Understanding [53.69841526266547]
トレーニング済みのVision-Language Modelを新しいデータセットで微調整することは、ビジョンエンコーダの最適化に不足することが多い。
視覚エンコーダにクエリの埋め込みを統合する,新しい,合理化されたアーキテクチャ保存アプローチであるQIDを導入する。
論文 参考訳(メタデータ) (2025-04-03T18:47:16Z) - Continual Referring Expression Comprehension via Dual Modular
Memorization [133.46886428655426]
Referring Expression (REC) は、自然言語で記述された対象のイメージ領域をローカライズすることを目的としている。
既存のRECアルゴリズムは、モデルへのデータ供給のトレーニングを前もって行うと強く仮定する。
本稿では、入ってくるタスクのストリーム上でモデルが学習するRECの新しい設定である連続参照表現(CREC)を提案する。
学習済みの知識を忘れずに,スクラッチから繰り返し再学習することなく,逐次的タスクのモデルを継続的に改善するために,デュアルモジュール記憶法という効果的なベースライン手法を提案する。
論文 参考訳(メタデータ) (2023-11-25T02:58:51Z) - USER: Unified Semantic Enhancement with Momentum Contrast for Image-Text
Retrieval [115.28586222748478]
Image-Text Retrieval (ITR) は、与えられたクエリに意味のあるターゲットインスタンスを、他のモダリティから検索することを目的としている。
既存のアプローチは通常、2つの大きな制限に悩まされる。
論文 参考訳(メタデータ) (2023-01-17T12:42:58Z) - Open-Set Recognition: A Good Closed-Set Classifier is All You Need [146.6814176602689]
分類器が「ゼロ・オブ・ア・ア・ア・ベ」決定を行う能力は、閉集合クラスにおける精度と高い相関関係があることが示される。
この相関を利用して、閉セット精度を向上させることにより、クロスエントロピーOSR'ベースライン'の性能を向上させる。
また、セマンティックノベルティを検出するタスクをより尊重する新しいベンチマークを構築した。
論文 参考訳(メタデータ) (2021-10-12T17:58:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。