論文の概要: OmniGen-AR: AutoRegressive Any-to-Image Generation
- arxiv url: http://arxiv.org/abs/2606.09156v1
- Date: Mon, 08 Jun 2026 07:47:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:06.814735
- Title: OmniGen-AR: AutoRegressive Any-to-Image Generation
- Title(参考訳): OmniGen-AR: 自動回帰型画像生成
- Authors: Junke Wang, Xun Wang, Qiushan Guo, Peize Sun, Weilin Huang, Zuxuan Wu, Yu-Gang Jiang,
- Abstract要約: 我々は、Any-to-Image生成のための統合された自己回帰フレームワークであるOmniGen-ARを提案する。
OmniGen-ARは、共有ビジュアルトークンーザとテキストプロンプトによって様々な視覚的条件を識別し、テキストトークンーザでプロンプトすることにより、単一のモデル内で条件入力の幅広いスペクトルをサポートする。
- 参考スコア(独自算出の注目度): 89.27614937810836
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Autoregressive (AR) models have demonstrated strong potential in visual generation, offering superior performance with simple architectures and optimization objectives. However, existing methods are typically limited to single-modality conditions, e.g., text, restricting their applicability in real-world scenarios that demand image synthesis from diverse controls. In this work, we present OmniGen-AR, a unified autoregressive framework for Any-to-Image generation. By discretizing various visual conditions through a shared visual tokenizer and text prompts with a text tokenizer, OmniGen-AR supports a broad spectrum of conditional inputs within a single model, including text (text-to-image generation), spatial signals (segmentation-to-image and depth-to-image), and visual context (image editing, frame prediction, and text-to-video generation). To mitigate the risk of information leakage from condition tokens to content tokens, we introduce Disentangled Causal Attention (DCA), which separates the full-sequence causal mask into condition causal attention and content causal attention. It serves as a training-time regularizer without affecting the standard next-token prediction during inference. With this design, OmniGen-AR achieves new state-of-the-art or at least competitive results across a range of benchmark, e.g., 0.63 on GenEval and 80.02 on VBench, demonstrating its effectiveness in flexible and high-fidelity visual generation.
- Abstract(参考訳): 自己回帰(AR)モデルは視覚生成において強力な可能性を示し、単純なアーキテクチャと最適化の目的で優れたパフォーマンスを提供する。
しかし、既存の手法は、通常、テキストのような単一のモダリティ条件に制限され、様々な制御から画像合成を要求する現実のシナリオにおいて、それらの適用性を制限する。
本稿では、Any-to-Image生成のための統合された自動回帰フレームワークであるOmniGen-ARを紹介する。
OmniGen-ARは、共有ビジュアルトークンーザとテキストプロンプトで様々な視覚的条件を識別することにより、テキスト(テキストから画像生成)、空間信号(画像への分割と深度)、視覚的コンテキスト(画像編集、フレーム予測、テキストからビデオ生成)を含む、単一のモデル内の幅広い条件入力をサポートする。
コンテントトークンからコンテントトークンへの情報漏洩のリスクを軽減するため,DCA(Disentangled Causal Attention)を導入し,フルシーケンス因果マスクをコンテント因果注意とコンテント因果注意に分離する。
推論中の標準的な次の次の予測に影響を与えることなく、トレーニングタイムのレギュレータとして機能する。
この設計により、OmniGen-AR は GenEval の 0.63 と VBench の 80.02 といった様々なベンチマークにおいて、新しい最先端または少なくとも競争力のある結果を達成する。
関連論文リスト
- Imagine Before You Draw: Visual Prompt Engineering for Image Generation [67.81347924426714]
内部フレームワークにシームレスに統合可能なVisual Prompt Engineering (VPE)を提案する。
我々は,クラス条件生成,テキスト・ツー・イメージ生成,画像編集にまたがってVPEを検証する。
その結果, VPEはコンバージェンスを加速し, 天井の質を高め, 内部統合により, 編集保存性を大幅に向上することがわかった。
論文 参考訳(メタデータ) (2026-06-03T05:01:36Z) - InsightTok: Improving Text and Face Fidelity in Discrete Tokenization for Autoregressive Image Generation [67.8525902443746]
InsightTokは、個別の視覚的トークン化フレームワークで、ローカライズされたコンテンツ対応の知覚的損失を通じて、テキストと顔の忠実度を高める。
コンパクトな16kコードブックと16倍のダウンサンプリングレートで、InsightTokはテキストや顔の再構成において、以前のトークンよりも大幅にパフォーマンスが向上した。
その結果、離散画像生成を進めるためのトークン化教育における特殊監督の可能性が浮き彫りになった。
論文 参考訳(メタデータ) (2026-05-14T03:57:25Z) - ARSS: Taming Decoder-only Autoregressive Visual Generation for View Synthesis From Single View [11.346049532150127]
textbfARSSは、カメラの軌跡に条件付けされた単一の画像から新しいビューを生成するフレームワークである。
本手法は,拡散モデルに基づく最先端のビュー合成手法に比較可能か,あるいはそれ以上に機能する。
論文 参考訳(メタデータ) (2025-09-27T00:03:09Z) - Towards Generalizable AI-Generated Image Detection via Image-Adaptive Prompt Learning [33.269644831847636]
画像適応型プロンプト学習(IAPL)は、学習後に修正するのではなく、各入力画像に応じてプロンプトを調整する新しいパラダイムである。
IAPLは、広く使われているUniversalFakeDetectとGenImageデータセットで95.61%と96.7%の精度で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-08-03T05:41:24Z) - Token-Shuffle: Towards High-Resolution Image Generation with Autoregressive Models [92.18057318458528]
Token-ShuffleはTransformerにおける画像トークンの数を減らす新しい方法である。
我々の戦略は、事前訓練されたテキストエンコーダを必要とせず、MLLMが超高解像度画像合成をサポートできるようにする。
GenAIベンチマークでは、2.7Bモデルがハードプロンプトで0.77点、ARモデルLlamaGenが0.18点、拡散モデルLDMが0.15点である。
論文 参考訳(メタデータ) (2025-04-24T17:59:56Z) - Unified Autoregressive Visual Generation and Understanding with Continuous Tokens [52.21981295470491]
We present UniFluid, a unified autoregressive framework for joint visual generation and understanding。
我々の統合自己回帰アーキテクチャはマルチモーダル画像とテキスト入力を処理し、テキストの離散トークンと画像の連続トークンを生成する。
画像生成と理解タスクの間には本質的にトレードオフがあることに気付きましたが、注意深く調整されたトレーニングレシピによって互いに改善できるようになりました。
論文 参考訳(メタデータ) (2025-03-17T17:58:30Z) - Autoregressive Omni-Aware Outpainting for Open-Vocabulary 360-Degree Image Generation [36.45222068699805]
AOG-Netは、NFoVとテキストガイダンスを併用または個別に、不完全な画像を段階的に描画することで、360度画像生成のために提案される。
各自己回帰ステップにおいて、アウトペイントガイダンスを定式化するために、グローバルローカルコンディショニング機構が考案された。
室内と屋外の両方でよく使用される2つの360度画像データセットに関する総合実験により,提案手法の最先端性能が実証された。
論文 参考訳(メタデータ) (2023-09-07T03:22:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。