論文の概要: RepFusion: Leveraging Multimodal Priors for Denoising in Representation Space
- arxiv url: http://arxiv.org/abs/2606.14700v1
- Date: Fri, 12 Jun 2026 17:59:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-15 16:00:43.031761
- Title: RepFusion: Leveraging Multimodal Priors for Denoising in Representation Space
- Title(参考訳): RepFusion: 表現空間におけるマルチモーダルプライオリティの活用
- Authors: Xichen Pan, Aashu Singh, Satya Narayan Shukla, Xiangjun Fan, Shlok Kumar Mishra, Saining Xie,
- Abstract要約: 大規模言語モデル(LLM)はテキスト・トゥ・イメージ(T2I)システムで広く使われているが、典型的にはテキストエンコーディングに限られる。
表現オートエンコーダ(RAE)の出現は、生成対象を意味的に構造化された視覚表現へとシフトさせる。
本稿では,拡散変圧器の条件信号としてMLLM出力を用いたRepFusionを提案する。
- 参考スコア(独自算出の注目度): 31.323120799791496
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large language models (LLMs) are widely used in text-to-image (T2I) systems, but they are typically limited to text encoding, while denoising is handled by newly trained generative backbones. The emergence of representation autoencoders (RAEs) shifts the generation target toward semantically structured visual representations, creating a latent space that is more compatible with pretrained LLM priors. Inspired by multimodal LLMs (MLLMs), where an MLP projector is sufficient to align clean visual representations with a pretrained LLM, we repurpose the MLLM itself as a noisy representation encoder, extending this mechanism from clean to noisy inputs. We present RepFusion, which uses the resulting MLLM outputs as the conditioning signal for a diffusion transformer. In controlled comparisons at similar inference budgets, RepFusion outperforms baselines that devote comparable capacity to newly initialized denoisers. These results demonstrate that MLLMs provide strong priors for denoising visual representations and that, by conditioning on evolving noisy representations, test-time compute can be productively spent on repeated MLLM conditioning in modern T2I systems.
- Abstract(参考訳): 大規模言語モデル(LLM)はテキスト・トゥ・イメージ(T2I)システムで広く使われているが、一般的にはテキストエンコーディングに限られる。
表現オートエンコーダ(RAE)の出現は、生成対象を意味的に構造化された視覚的表現へとシフトさせ、事前訓練されたLLM前のものとより互換性のある潜在空間を作り出す。
MLPプロジェクタが事前訓練されたLLMとクリーンな視覚表現を整列するのに十分なマルチモーダルLLM(MLLM)にインスパイアされ、MLLM自体をノイズのある表現エンコーダとして再利用し、この機構をクリーンからノイズの多い入力に拡張する。
本稿では,拡散変圧器の条件信号としてMLLM出力を用いたRepFusionを提案する。
同様の推論予算での制御された比較では、RepFusionは新しく初期化されたデノイザに匹敵する能力を持つベースラインを上回っている。
これらの結果から,MLLMは視覚表現の認知に強い先行性を提供し,ノイズ表現の進化を条件づけることで,T2Iシステムにおける繰り返しMLLM条件の処理に,実時間計算を生産的に利用できることが示唆された。
関連論文リスト
- Diffusion Large Language Models for Visual Speech Recognition [56.81307584718608]
本稿では,最初の拡散大言語モデル(DLLM)に基づく視覚音声認識(VSR)フレームワークを提案する。
DLLM-VSRは早期に高信頼位置をコミットし、コミットトークンを双方向コンテキストとして、曖昧なトークンを洗練させる。
我々は、ビデオ長を用いて、可塑性転写長仮説を構築する長さ誘導型候補復号法を開発した。
提案手法はラベル付きトレーニングデータのみを用いて, LRS3 上で19.5%の最先端 WER を実現する。
論文 参考訳(メタデータ) (2026-05-27T13:22:08Z) - Fast-dVLM: Efficient Block-Diffusion VLM via Direct Conversion from Autoregressive VLM [58.322826487307765]
我々は,KV-cache互換並列デコードと推測ブロックデコードが可能なブロック拡散型VLMであるFast-dVLMを提案する。
SGLangの統合とFP8量子化により、Fast-dVLMはARベースライン上でのエンドツーエンドの推論速度を6倍以上に向上する。
論文 参考訳(メタデータ) (2026-04-08T08:50:08Z) - Tiny Inference-Time Scaling with Latent Verifiers [56.696619768584675]
Verifier on Hidden States (VHS) は、Diffusion Transformer (DiT) の中間的な隠れ表現で動作する。
VHSは、画素空間に復号することなくジェネレータ機能を解析することにより、候補毎の検証コストを削減できる。
VHSは同じ推論時予算でGenEvalを+2.7%改善する。
論文 参考訳(メタデータ) (2026-03-23T19:00:02Z) - Language Model Based Text-to-Audio Generation: Anti-Causally Aligned Collaborative Residual Transformers [24.722647001947923]
因果条件付き複数孤立トランスフォーマーと強化学習による反因果アライメントを用いた新しいLMベースのフレームワークを提案する。
その結果,Sieren は既存の LM および拡散型 T2A システムより優れており,最先端の結果が得られた。
論文 参考訳(メタデータ) (2025-10-06T08:26:55Z) - Controlling Multimodal LLMs via Reward-guided Decoding [17.5544679985101]
マルチモーダル大言語モデル (MLLM) の適応性について, 制御復号化による検討を行った。
本手法では,視覚的接地のための報酬モデルを構築し,MLLMの復号プロセスのガイドに使用する。
本手法を標準対象幻覚ベンチマークで評価し,MLLMの推論に対する制御性について検討した。
論文 参考訳(メタデータ) (2025-08-15T17:29:06Z) - Bifrost-1: Bridging Multimodal LLMs and Diffusion Models with Patch-level CLIP Latents [55.82787697101274]
Bifrost-1は、事前訓練されたマルチモーダルLLM(MLLM)と拡散モデルをブリッジする統合フレームワークである。
予め訓練したMLLMと拡散モデルとパッチレベルのCLIPラプタントをシームレスに統合することにより,高忠実度制御可能な画像生成を実現する。
実験の結果,Bifrost-1は視覚的忠実度やマルチモーダル理解の観点から,従来の手法と同等あるいは優れた性能を達成できた。
論文 参考訳(メタデータ) (2025-08-08T02:38:47Z) - LegoSLM: Connecting LLM with Speech Encoder using CTC Posteriors [22.845623101142483]
音声エンコーダと大言語モデル(LLM)を橋渡しする新しいパラダイムであるLegoSLMを提案する。
好成績なUSMモデルとGemmaモデルを用いて,提案手法がASRおよび音声翻訳タスクにおいて良好な性能を示すことを示す。
論文 参考訳(メタデータ) (2025-05-16T15:15:19Z) - Generative Multimodal Pretraining with Discrete Diffusion Timestep Tokens [66.02261367232256]
MLLM(Multimodal Large Language Models)は、視覚的理解と生成を統一することを目的としている。
既存のアプローチは空間的トークンに依存しており、画像パッチは空間的順序に応じてエンコードされ配置される。
本稿では,個別の視覚トークンを学習するために拡散時間ステップを再構成し,適切な視覚言語を構築する。
論文 参考訳(メタデータ) (2025-04-20T16:14:28Z) - LSTM-LM with Long-Term History for First-Pass Decoding in Conversational
Speech Recognition [27.639919625398]
LSTM言語モデル(LSTM-LM)は強力であることが証明され、現代の音声認識システムにおいて、カウントベースn-gram LMよりも大幅に性能が向上した。
最近の研究は、動的(またはツリーベース)デコーダフレームワークにおいて、最初のパスデコードでLSTM-LMを採用することは可能であり、計算に安価であることを示している。
論文 参考訳(メタデータ) (2020-10-21T23:40:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。