Fugu-MT 論文翻訳(概要): Beyond Scalar Distances: Semantic Attribute Gradients from Frozen MLLMs for Visual Embeddings

論文の概要: Beyond Scalar Distances: Semantic Attribute Gradients from Frozen MLLMs for Visual Embeddings

arxiv url: http://arxiv.org/abs/2606.15134v1
Date: Sat, 13 Jun 2026 05:50:40 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-16 16:21:32.870054
Title: Beyond Scalar Distances: Semantic Attribute Gradients from Frozen MLLMs for Visual Embeddings
Title（参考訳）: Scalar距離を超えて: ビジュアル埋め込みのための冷凍MLLMからのSemantic Attribute Gradients
Authors: Shubhang Bhatnagar, Dheeraj Baiju, Narendra Ahuja,
Abstract要約: 検索のための視覚エンコーダは通常、クラスラベルの監督によって訓練される。 MLLM(Multimodal large language model)はこれらの属性を記述し、画像がクラスを共有するかどうかを予測する。我々は,この言語に基づく属性認識を,エンコーダ自体のトレーニング信号に変換するフレームワークであるtextbfSAGAを提案する。
参考スコア（独自算出の注目度）: 9.571136962907888
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Vision encoders for retrieval are typically trained with class-label supervision: each training pair reduces to a scalar that uniformly pushes the embedding apart or pulls it together, as if every visual attribute either differed or matched. A multimodal large language model (MLLM), shown the same pair, can articulate those attributes and use them to predict whether the images share a class. We propose \textbf{SAGA}, a framework that turns this language-grounded, attribute-aware perception into a training signal for the encoder itself. Specifically, we use Group Relative Policy Optimization (GRPO) to reward the MLLM for correct predictions on the vision encoder's tokens. Since correct predictions require those tokens to expose the specific attributes that differ or match between the pair, the gradient pushes the encoder to encode them, replacing the uniform pair-level scalar with attribute-resolved supervision. An auxiliary attention-distillation loss anchors the encoder's embedding to tokens the MLLM attended to, and a standard metric-learning loss shapes the embedding geometry for nearest-neighbour retrieval. The MLLM is frozen throughout and discarded at inference, matching the deployment cost of a metric-learning baseline. SAGA improves Recall@1 by 3 to 6 points over state-of-the-art baselines on CUB-200-2011, Cars-196, FGVC-Aircraft, and iNaturalist Aves on zero-shot image retrieval.
Abstract（参考訳）: 学習のための視覚エンコーダは通常、クラスラベルの監督で訓練される。各トレーニングペアは、すべての視覚属性が違っているか一致しているかのように、スカラーに縮小され、埋め込みを均一にプッシュするか、それらをまとめてプルする。同じペアを示すマルチモーダル大言語モデル(MLLM)は、それらの属性を記述し、画像がクラスを共有するかどうかを予測するためにそれらを使用する。本稿では,この言語に基づく属性認識を,エンコーダ自体のトレーニング信号に変換するフレームワークである‘textbf{SAGA} を提案する。具体的には、グループ相対ポリシー最適化(GRPO)を用いて、ビジョンエンコーダのトークンの正確な予測にMLLMを報いる。正しい予測は、それらのトークンがペアが異なる、あるいは一致している特定の属性を公開する必要があるため、勾配はエンコーダを押してエンコードし、一様なペアレベルのスカラーを属性解決された監視に置き換える。補助的な注意-蒸留損失はエンコーダの埋め込みをMLLMが参加するトークンに固定し、標準的なメートル法学習損失は最寄りの検索のための埋め込み幾何学を形作る。 MLLMは、メトリックラーニングベースラインのデプロイメントコストと一致するように、全期間凍結され、推論で破棄される。 SAGAは、CUB-200-2011の最先端ベースライン、Cars-196、FGVC-Aircraft、iNaturalist Avesのゼロショット画像検索でRecall@1を3から6ポイント改善した。

関連論文リスト

[CLS] is Not Enough: Multi-Label Recognition via Patch-Level Inference and Adaptive Aggregation [20.637119409165418]
PIAAは、アダプティブアグリゲーション(Adaptive Aggregation)によって、パッチレベルの推論として予測を定式化する。パッチレベルのスコアを最終的なマルチラベル予測に集約するアダプティブアグリゲーションモジュールを導入する。実験の結果,提案手法は最小限の余剰計算で強い改善を達成できることがわかった。
論文参考訳（メタデータ） (2026-05-25T13:19:12Z)
G$^2$TR: Generation-Guided Visual Token Reduction for Separate-Encoder Unified Multimodal Models [33.010296874246215]
分離エンコーダ統一マルチモーダルモデルのための世代誘導型ビジュアルトークン削減フレームワークを提案する。 G$2$TRは、VAEラテントとの整合性からトークンの重要性を推定し、バランスの取れたトークン選択を実行し、冗長トークンを保持されたデリゲートにマージする。 G$2$TRは、推論精度と編集品質の両方を維持しながら、視覚トークンとプリフィル計算を1.94倍に大幅に削減する。
論文参考訳（メタデータ） (2026-05-12T15:56:22Z)
From Drop-off to Recovery: A Mechanistic Analysis of Segmentation in MLLMs [50.185593677108436]
マルチモーダル大言語モデル(MLLM)は、ピクセルレベルの視覚タスクにますます適用されているが、空間的理解の本質的な能力は理解されていない。本稿では,MLLMパイプライン全体(ビジョンエンコーダ,アダプタ,LSM)の階層的線形探索によるセグメント化能力について検討する。
論文参考訳（メタデータ） (2026-03-18T00:22:15Z)
Patch-as-Decodable-Token: Towards Unified Multi-Modal Vision Tasks in MLLMs [88.68484904214142]
Patch-as-Decodable Token (PaDT)を導入し、テキストと多様な視覚出力を生成する。 PaDTの中心は、クエリイメージのビジュアルパッチ埋め込みから派生したVisual Reference Tokens (VRT)である。 MLLMモデルと比較しても,PaDTは最先端の性能を一貫して達成できることを示す。
論文参考訳（メタデータ） (2025-10-02T12:23:57Z)
METEOR: Multi-Encoder Collaborative Token Pruning for Efficient Vision Language Models [92.37117312251755]
プログレッシブプルーニングフレームワークであるMulti-Encoder collaboraTivE tOken pRuning (METEOR)を提案する。マルチビジョン符号化では,各エンコーダ内の冗長トークンをランク誘導型協調トークン代入戦略により破棄する。マルチビジョン融合では、異なるエンコーダの視覚的特徴を組み合わせながら、コラボレーティブプルーニングによるクロスエンコーダ冗長性を低減させる。
論文参考訳（メタデータ） (2025-07-28T13:50:53Z)
Bringing Masked Autoencoders Explicit Contrastive Properties for Point Cloud Self-Supervised Learning [116.75939193785143]
画像領域における視覚変換器(ViT)のコントラスト学習(CL)は、従来の畳み込みバックボーンのCLに匹敵する性能を達成した。 ViTで事前訓練した3Dポイントクラウドでは、マスク付きオートエンコーダ(MAE)モデリングが主流である。
論文参考訳（メタデータ） (2024-07-08T12:28:56Z)
Spatio-Temporal Side Tuning Pre-trained Foundation Models for Video-based Pedestrian Attribute Recognition [58.79807861739438]
既存の歩行者認識アルゴリズム(PAR)は主に静的画像に基づいて開発されている。本稿では,時間的情報を完全に活用できるビデオフレームを用いて,人間の属性を理解することを提案する。
論文参考訳（メタデータ） (2024-04-27T14:43:32Z)
LLaVA-PruMerge: Adaptive Token Reduction for Efficient Large Multimodal Models [35.88374542519597]
大規模マルチモーダルモデル(LMM)は、視覚エンコーダと大きな言語モデルとを接続することで、視覚的推論能力を示す。近年のLMMには、高解像度の画像やビデオなど、より複雑な視覚入力が組み込まれており、視覚トークンの数が大幅に増加する。我々は,LMMの性能を損なうことなく,視覚トークンの数を著しく削減する適応型視覚トークン削減戦略であるPruMergeを提案する。
論文参考訳（メタデータ） (2024-03-22T17:59:52Z)
VIMPAC: Video Pre-Training via Masked Token Prediction and Contrastive Learning [82.09856883441044]
ビデオ理解は、内部接続をモデル化するグローバルコンテンツを認識することに依存している。空間領域と時間領域の両方で隣接するビデオトークンをマスクするブロックワイズ戦略を提案する。また、グローバルコンテンツをさらにキャプチャするために、拡張不要なコントラスト学習手法も追加する。
論文参考訳（メタデータ） (2021-06-21T16:48:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。