論文の概要: Pareto LoRA: Mitigating Modality Imbalance in Unified Multimodal Models via Pareto-Optimal Gradient Integration
- arxiv url: http://arxiv.org/abs/2606.17296v1
- Date: Mon, 15 Jun 2026 21:05:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-17 17:15:32.145675
- Title: Pareto LoRA: Mitigating Modality Imbalance in Unified Multimodal Models via Pareto-Optimal Gradient Integration
- Title(参考訳): Pareto LoRA: Pareto-Optimal Gradient Integrationによる統一マルチモーダルモデルのモダリティ不均衡の軽減
- Authors: Xiwen Wei, Mark Nutter, Madhusudhanan Srinivasan, Radu Marculescu,
- Abstract要約: 統一マルチモーダルモデル(UMM)は、最近、単一の自己回帰変換器にマルチモーダル理解と生成を統合するための有望なパラダイムとして登場した。
本研究では,LoRAを用いたテキスト画像生成のためのUMMの微調整におけるモダリティの不均衡を解析する。
視覚のモダリティ性能は、非モダリティに比べて、テキストのモダリティ性能よりも格段に低下し、様々なタスクやレイヤにおいて、モダリティ固有の勾配が桁違いに異なることが示される。
- 参考スコア(独自算出の注目度): 17.777032374897242
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Unified multimodal models (UMMs) have recently emerged as a promising paradigm for integrating multimodal understanding and generation within a single autoregressive transformer. However, during multimodal instruction tuning, these models often exhibit pronounced modality imbalance: language gradients dominate optimization, thus leading to lower image generation quality, especially under parameter-efficient fine-tuning such as LoRA. In this work, we systematically analyze modality imbalance in LoRA-based fine-tuning of UMMs for interleaved text-image generation. We show that vision modality performance degrades substantially more than text modality performance when compared to unimodal counterparts, and that modality-specific gradients can differ by orders of magnitude across various tasks and layers. Motivated by this observation, we reformulate the multimodal instruction tuning as a bi-objective optimization problem and propose Pareto LoRA, a Pareto-optimal gradient integration strategy that balances the text and image objectives by modulating the gradient direction and strength. Experiments on the CoMM benchmark with Emu2 demonstrate that Pareto LoRA consistently improves multimodal generation balance, achieving up to 44.9% gains in perceptual image quality over vanilla LoRA while maintaining comparable text performance.
- Abstract(参考訳): 統一マルチモーダルモデル(UMM)は、最近、単一の自己回帰変換器にマルチモーダル理解と生成を統合するための有望なパラダイムとして登場した。
言語勾配が最適化を支配しており、特にLoRAのようなパラメータ効率の良い微調整の下では、画像の画質が低下する。
本研究は,LoRAを用いたテキスト画像生成のためのUMMの微調整におけるモダリティの不均衡を系統的に解析する。
視覚のモダリティ性能は、非モダリティに比べて、テキストのモダリティ性能よりも格段に低下し、様々なタスクやレイヤにおいて、モダリティ固有の勾配が桁違いに異なることが示される。
本研究の目的は,2目的最適化問題としてマルチモーダル命令チューニングを再構成し,勾配方向と強度を調節してテキストと画像の目標のバランスをとるパレート最適勾配積分戦略であるPareto LoRAを提案することである。
Emu2によるCoMMベンチマークの実験では、Pareto LoRAは連続的にマルチモーダル生成バランスを改善し、バニラ・ロラよりも44.9%の画質向上を実現し、同等のテキスト性能を維持している。
関連論文リスト
- BALM: A Model-Agnostic Framework for Balanced Multimodal Learning under Imbalanced Missing Rates [1.9650181409005112]
BALMはモデルに依存しないプラグインフレームワークであり、IMRの下でバランスの取れたマルチモーダル学習を実現する。
BALMはロバスト性を継続的に向上し,多様な不足および不均衡条件下での性能向上を図っている。
論文 参考訳(メタデータ) (2026-03-20T07:47:09Z) - Plug, Play, and Fortify: A Low-Cost Module for Robust Multimodal Image Understanding Models [6.350443894942629]
MWAM(Multimodal Weight Allocation Module)は、トレーニング中の各ブランチのコントリビューションを動的に再バランスするプラグイン・アンド・プレイコンポーネントである。
MWAMは幅広いタスクとモダリティの組み合わせで一貫したパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2026-02-26T05:51:41Z) - MMaDA-Parallel: Multimodal Large Diffusion Language Models for Thinking-Aware Editing and Generation [86.82285754460491]
テキストと画像の出力モダリティの両方を評価するための新しいベンチマークを提案する。
この性能劣化は、生成した推論と最終画像との整合性に強く相関する。
本稿では,テキストと画像間の双方向の連続的相互作用を可能にする並列多モード拡散フレームワークMMaDA-Parallelを提案する。
論文 参考訳(メタデータ) (2025-11-12T18:58:21Z) - MENTOR: Efficient Multimodal-Conditioned Tuning for Autoregressive Vision Generation Models [30.494968865008513]
最近のテキスト・ツー・イメージモデルは、正確な視覚制御、マルチモーダル入力のバランス、複雑な画像生成のための広範な訓練を必要とする。
自己回帰型マルチモーダル画像生成のための効率的なマルチモーダルコンディショニングのための新しいフレームワークであるMENTORを提案する。
本手法は,拡散法に比べて画像再構成精度,タスク適応性,トレーニング効率の向上を実現している。
論文 参考訳(メタデータ) (2025-07-13T10:52:59Z) - Multi-Modality Driven LoRA for Adverse Condition Depth Estimation [61.525312117638116]
逆条件深さ推定のためのMulti-Modality Driven LoRA(MMD-LoRA)を提案する。
Prompt Driven Domain Alignment (PDDA) と Visual-Text Consistent Contrastive Learning (VTCCL) の2つのコアコンポーネントで構成されている。
nuScenesとOxford RobotCarデータセットの最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-12-28T14:23:58Z) - On-the-fly Modulation for Balanced Multimodal Learning [53.616094855778954]
マルチモーダル学習は、異なるモーダルからの情報を統合することでモデル性能を向上させることが期待されている。
広く使われている共同トレーニング戦略は、不均衡で最適化されていないユニモーダル表現につながる。
そこで本研究では,OGM(On-the-fly Prediction Modulation)とOGM(On-the-fly Gradient Modulation)の戦略を提案する。
論文 参考訳(メタデータ) (2024-10-15T13:15:50Z) - Auto-regressive Image Synthesis with Integrated Quantization [55.51231796778219]
本稿では,条件付き画像生成のための多目的フレームワークを提案する。
CNNの帰納バイアスと自己回帰の強力なシーケンスモデリングが組み込まれている。
提案手法は,最先端技術と比較して,優れた多彩な画像生成性能を実現する。
論文 参考訳(メタデータ) (2022-07-21T22:19:17Z) - Mitigating Modality Collapse in Multimodal VAEs via Impartial
Optimization [7.4262579052708535]
この効果はマルチモーダルVAEトレーニングにおける勾配の相反の結果である,と我々は主張する。
勾配が矛盾する計算グラフのサブグラフを検出する方法を示す。
実験により,本フレームワークは,モジュール間の遅延空間の再構成性能,条件生成,コヒーレンスを著しく向上させることを示した。
論文 参考訳(メタデータ) (2022-06-09T13:29:25Z) - Balanced Multimodal Learning via On-the-fly Gradient Modulation [10.5602074277814]
マルチモーダル学習は、異なる感覚を統合することで、世界を包括的に理解するのに役立つ。
学習目標に対する貢献の相違をモニタリングすることで,各モードの最適化を適応的に制御するオンザフライ勾配変調を提案する。
論文 参考訳(メタデータ) (2022-03-29T08:26:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。