論文の概要: Training-Free Semantic Correction for Autoregressive Visual Models
- arxiv url: http://arxiv.org/abs/2606.22550v1
- Date: Sun, 21 Jun 2026 15:10:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-25 17:40:26.480622
- Title: Training-Free Semantic Correction for Autoregressive Visual Models
- Title(参考訳): 自己回帰視覚モデルのための訓練自由意味的補正
- Authors: Junhao Chen, Chanyu Zhu, Zheqi Lv, Keting Yin, Shengyu Zhang,
- Abstract要約: 本稿では,マルチモーダルな大言語モデルフィードバックをAVMサンプリングループに統合し,世代間セマンティックな修正を行うフレームワークであるGazerを提案する。
コンポジションイメージとビデオベンチマークの実験は、Gazerが追加のトレーニングなしで複数のAVM間でセマンティックアライメントとコンポジション精度を改善していることを示している。
- 参考スコア(独自算出の注目度): 25.313836448956007
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Autoregressive visual models (AVMs) based on next-scale prediction have emerged as a prominent paradigm for image and video synthesis. However, decomposing the generation process into discrete scales with varying granularities in AVM makes semantic errors difficult to identify and correct, thereby undermining the quality of the final output. Prior efforts to enhance AVM can be categorized into training-based and training-free approaches. Although training-based efforts to enhance AVM generation quality come at substantial computational cost, existing training-free methods neglect intermediate generation states, leaving semantic errors undiagnosed and allowing them to accumulate into the final output. In this paper, we focus on training-free paradigms and propose Gazer, a framework that integrates multimodal large language model feedback into the AVM sampling loop for in-generation semantic correction. Concretely, Gazer operates via two cooperating stages: the Reflective Diagnosis stage diagnoses semantic errors from intermediate states, while the Semantic Correction stage rewinds and rectifies the generation trajectory to realign with the target prompt. Experiments on compositional image and video benchmarks demonstrate that Gazer improves semantic alignment and compositional accuracy across multiple AVMs without additional training.
- Abstract(参考訳): 次世代の予測に基づく自動回帰視覚モデル(AVM)は、画像とビデオの合成において顕著なパラダイムとして現れている。
しかし、生成プロセスをAVMの粒度の異なる離散スケールに分解することは、意味的誤りを識別し、訂正することを難しくし、最終的な出力の品質を損なう。
AVMを強化する以前の取り組みは、トレーニングベースとトレーニングフリーのアプローチに分類することができる。
AVM生成品質を向上させるためのトレーニングベースの取り組みは、かなりの計算コストがかかるが、既存のトレーニングフリーメソッドは中間生成状態を無視し、セマンティックエラーを未診断のまま残し、最終的な出力にまとめることができる。
本稿では,学習自由パラダイムに着目し,マルチモーダルな大規模言語モデルフィードバックをAVMサンプリングループに統合したフレームワークであるGazerを提案する。
反射診断段階は中間状態からの意味的誤りを診断し、セマンティック補正段階はターゲットのプロンプトと直交する生成軌道を補正する。
コンポジションイメージとビデオベンチマークの実験は、Gazerが追加のトレーニングなしで複数のAVM間でセマンティックアライメントとコンポジション精度を改善していることを示している。
関連論文リスト
- Focus When Necessary: Adaptive Routing and Collaborative Grounding for Training-Free Visual Grounding [56.38477453373368]
LazyMCoTは動的でトレーニング不要なフレームワークで、サンプルの難易度に基づいて視覚的接地作業を適応的に割り当てる。
LazyMCoTは、推論精度を同時に改善し、平均推論レイテンシを低減することで、トレーニングベースのアプローチと競合する。
論文 参考訳(メタデータ) (2026-06-15T03:17:44Z) - Understanding Degradation with Vision Language Model [56.09241449206817]
視覚的劣化を理解することは、コンピュータビジョンにおいて重要な問題であるが、難しい問題である。
本稿では,教師付き微調整と強化学習を併用したマルチモーダル・チェーン・オブ・ソート・モデルであるDU-VLMを紹介する。
また,110,000個のクリーン劣化ペアと接地された物理アノテーションからなる大規模データセットである textbfDU-110k も導入した。
論文 参考訳(メタデータ) (2026-02-04T13:51:15Z) - Learning from Next-Frame Prediction: Autoregressive Video Modeling Encodes Effective Representations [53.91818843831925]
NExT-Vidは,新しい自己回帰型視覚生成事前学習フレームワークである。
本研究では,文脈分離型自己回帰予測器を導入し,セマンティック表現をターゲットデコーディングから切り離す。
文脈分離型フローマッチング事前学習により,本手法は強い表現を実現する。
論文 参考訳(メタデータ) (2025-12-24T07:07:08Z) - Multimodal LLM-Guided Semantic Correction in Text-to-Image Diffusion [52.315729095824906]
MLLM Semantic-Corrected Ping-Pong-Ahead Diffusion (PPAD) は,マルチモーダル大言語モデル(MLLM)を推論中の意味的オブザーバとして導入する新しいフレームワークである。
中間世代をリアルタイムに分析し、潜在意味的不整合を識別し、フィードバックを制御可能な信号に変換し、残りの認知ステップを積極的に導く。
大規模な実験ではPPADの大幅な改善が示されている。
論文 参考訳(メタデータ) (2025-05-26T14:42:35Z) - DepthART: Monocular Depth Estimation as Autoregressive Refinement Task [2.3884184860468136]
DepthART - Depth Autoregressive Refinement Taskとして定式化された新しいトレーニング手法を紹介する。
モデル自身の予測を入力として利用することにより、目標を残留最小化とし、トレーニングと推論手順の相違を効果的に軽減する。
提案手法を用いてHypersimデータセットをトレーニングすると、既存の生成的および識別的ベースラインと比較して、複数の未確認ベンチマークで優れた結果が得られる。
論文 参考訳(メタデータ) (2024-09-23T13:36:34Z) - Expedited Training of Visual Conditioned Language Generation via
Redundancy Reduction [61.16125290912494]
$textEVL_textGen$は、視覚条件付き言語生成モデルの事前トレーニング用に設計されたフレームワークである。
提案手法は,視覚言語モデルの学習を5倍に加速させるが,全体的な性能に顕著な影響を与えないことを示す。
論文 参考訳(メタデータ) (2023-10-05T03:40:06Z) - Dense Contrastive Visual-Linguistic Pretraining [53.61233531733243]
画像とテキストを共同で表現するマルチモーダル表現学習手法が提案されている。
これらの手法は,大規模マルチモーダル事前学習から高レベルな意味情報を取得することにより,優れた性能を実現する。
そこで本稿では,非バイアスのDense Contrastive Visual-Linguistic Pretrainingを提案する。
論文 参考訳(メタデータ) (2021-09-24T07:20:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。