Fugu-MT 論文翻訳(概要): Understanding Cross-Modal Contributions in Continual Vision-Language Models: A Theoretical Perspective

論文の概要: Understanding Cross-Modal Contributions in Continual Vision-Language Models: A Theoretical Perspective

arxiv url: http://arxiv.org/abs/2606.14883v1
Date: Fri, 12 Jun 2026 18:41:36 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-16 16:21:32.363182
Title: Understanding Cross-Modal Contributions in Continual Vision-Language Models: A Theoretical Perspective
Title（参考訳）: 連続視覚言語モデルにおけるクロスモーダルコントリビューションの理解:理論的展望
Authors: Salimeh Sekeh, Mary Wisell,
Abstract要約: 本稿では, 連続環境へのクロスモーダル(ビジョン言語)の貢献を理解するための新たな理論的視点を提案する。本研究では,大規模視覚言語モデルに関する理論的知見を実証的に評価し,環境レベルのクロスモーダルなコントリビューションを捉える上での有効性を実証する。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Continual vision-language models are commonly addressed through sequential fine-tuning; however, although this paradigm enables adaptation to new environments (tasks), it inherently emphasizes the contribution of previously learned environments (tasks) at the expense of the stability required to preserve previously acquired knowledge. While existing approaches have adequately studied continual learning and catastrophic forgetting in vision-language models (VLMs), the theoretical understanding of modality-specific contributions across a sequence of environments remains largely unexplored. In this paper, we present a new theoretical perspective to understand the cross-modal (vision-language) contributions to consecutive environments. We empirically evaluate our theoretical findings on large VLMs and demonstrate their effectiveness in capturing environment-level cross-modal contributions. Our analysis provides deeper insights into continual VLMs, highlighting their contribution robustness to varying task orders and inter-task similarities, and their improved generalization performance.
Abstract（参考訳）: 連続的な視覚言語モデルは、シーケンシャルな微調整によって対処されることが多いが、このパラダイムは、新しい環境(タスク)への適応を可能にするが、以前獲得した知識を保存するのに必要な安定性を犠牲にして、学習済みの環境(タスク)の貢献を本質的に強調する。既存のアプローチでは、視覚言語モデル(VLM)における連続的な学習と破滅的な忘れ方について十分に研究されてきたが、一連の環境におけるモダリティ固有の貢献の理論的理解は、まだほとんど解明されていない。本稿では, 連続環境に対するクロスモーダル(ビジョン言語)の貢献を理解するための新たな理論的視点を提案する。我々は,大規模なVLMに関する理論的知見を実証的に評価し,環境レベルのクロスモーダルなコントリビューションを捉える上での有効性を実証した。本分析は,タスクの順序やタスク間の類似性に寄与するロバスト性,一般化性能の向上など,連続的なVLMに関する深い知見を提供する。

関連論文リスト

Activating Visual Context and Commonsense Reasoning through Masked Prediction in VLMs [9.953258838113]
本稿では,コンテキストとコモンセンスを用いた新しい微調整タスクであるMasked Predictionを導入する。このタスクは、隠蔽された画像から意味的に意味のあるコンテンツを再構成することで、視覚的コンテキストと常識的推論を統合するようモデルに強制する。また,先行サンプリングによる強化ファインチューニングというイノベーティブなトレーニング手法も導入する。
論文参考訳（メタデータ） (2025-10-21T08:50:11Z)
Explainable Chain-of-Thought Reasoning: An Empirical Analysis on State-Aware Reasoning Dynamics [69.00587226225232]
本研究では,CoTトラジェクトリを構造化潜在力学に抽象化する状態認識遷移フレームワークを提案する。推論のグローバルな構造を特徴づけるために、それらの進行をマルコフ連鎖としてモデル化する。この抽象化は、意味的役割の識別、時間的パターンの可視化、一貫性評価など、さまざまな分析をサポートする。
論文参考訳（メタデータ） (2025-08-29T18:53:31Z)
CTRLS: Chain-of-Thought Reasoning via Latent State-Transition [57.51370433303236]
チェーン・オブ・シント(CoT)推論は、大規模な言語モデルで複雑な問題を解釈可能な中間ステップに分解することを可能にする。我々は,遅延状態遷移を伴うマルコフ決定プロセス(MDP)としてCoT推論を定式化するフレームワークであるgroundingSを紹介する。我々は、ベンチマーク推論タスクにおける推論精度、多様性、探索効率の改善を示す。
論文参考訳（メタデータ） (2025-07-10T21:32:18Z)
Are Unified Vision-Language Models Necessary: Generalization Across Understanding and Generation [50.22361866757033]
統合視覚言語モデル(VLM)は、視覚的理解と生成機能の両方を統合する。本稿では,統一VLMにおける理解・生成タスクの一般化を体系的に検討する。
論文参考訳（メタデータ） (2025-05-29T03:40:21Z)
The Pragmatic Mind of Machines: Tracing the Emergence of Pragmatic Competence in Large Language Models [6.187227278086245]
大規模言語モデル(LLM)は、不規則な解決や推論の理論を含む社会的知性に新たな能力を示す。本研究では,異なる学習段階におけるLLMが話者意図を正確に推測できるかどうかを評価する。プレトレーニング後, 教師付き微調整(SFT), 選好最適化の3段階にわたる22個のLDMを系統的に評価した。
論文参考訳（メタデータ） (2025-05-24T04:24:59Z)
Towards Analyzing and Understanding the Limitations of VAPO: A Theoretical Perspective [6.963986923957048]
VAPOは、大規模言語モデルの強化学習のためのフレームワークである。これは、値モデルバイアス、不均一なシーケンス長、スパース報酬信号といった課題に対処する。本稿では,理論的な観点からVAPOを考察し,その仮定が課題となる分野を明らかにする。
論文参考訳（メタデータ） (2025-05-23T15:03:41Z)
Causality-based Cross-Modal Representation Learning for Vision-and-Language Navigation [15.058687283978077]
VLN(Vision-and-Language Navigation)は、現実のシナリオに応用される可能性から、近年、大きな研究の関心を集めている。既存のVLN法は、急激な関連の問題に苦慮し、その結果、目に見える環境と目に見えない環境の間に大きな性能差があるような一般化が不十分になる。本稿では,因果学習パラダイムに基づく統一的なフレームワークCausalVLNを提案する。
論文参考訳（メタデータ） (2024-03-06T02:01:38Z)
Sparsity-Guided Holistic Explanation for LLMs with Interpretable Inference-Time Intervention [53.896974148579346]
大規模言語モデル(LLM)は、様々な自然言語処理領域において前例のないブレークスルーを達成した。 LLMの謎的なブラックボックスの性質は、透過的で説明可能なアプリケーションを妨げる、解釈可能性にとって重要な課題である。本稿では,LLMの全体的解釈を提供することを目的として,スポーシティ誘導技術に係わる新しい方法論を提案する。
論文参考訳（メタデータ） (2023-12-22T19:55:58Z)
Towards a General Framework for Continual Learning with Pre-training [55.88910947643436]
本稿では,事前学習を用いた逐次到着タスクの連続学習のための一般的な枠組みを提案する。我々はその目的を,タスク内予測,タスク同一性推論,タスク適応予測という3つの階層的構成要素に分解する。本稿では,パラメータ効率細調整(PEFT)技術と表現統計量を用いて,これらのコンポーネントを明示的に最適化する革新的な手法を提案する。
論文参考訳（メタデータ） (2023-10-21T02:03:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。