論文の概要: HYDRA-X: Native Unified Multimodal Models with Holistic Visual Tokenizers
- arxiv url: http://arxiv.org/abs/2606.13289v1
- Date: Thu, 11 Jun 2026 12:46:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-12 15:55:27.79513
- Title: HYDRA-X: Native Unified Multimodal Models with Holistic Visual Tokenizers
- Title(参考訳): HYDRA-X: ホロスティックな視覚トケナイザを持つネイティブ統一マルチモーダルモデル
- Authors: Guozhen Zhang, Xuerui Qiu, Yutao Cui, Tianhui Song, Changlin Li, Junzhe Li, Tao Huang, Xiao Zhang, Yang Li, Jianbing Wu, Miles Yang, Zhao Zhong, Liefeng Bo, Limin Wang,
- Abstract要約: 単一の視覚変換器(ViT)内で画像とビデオのトークン化を統合する最初のUMMであるHYDRA-Xを提案する。
私たちのデザインは、画像とビデオのセマンティックな認識を潜伏した空間に注入し、それを圧縮する、という2つの課題によって推進されています。
7Bモデルで実証されたHYDRA-Xは、画像とビデオの理解と生成タスク間で強いパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 48.01715215603613
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Holistic visual tokenizers are fundamental to unified multimodal models (UMMs) as they map diverse visual inputs into a unified representation space. In this paper, we present HYDRA-X, the first UMM that unifies image and video tokenization within a single Vision Transformer (ViT). Our design is driven by two core challenges: efficiently injecting spatiotemporal reconstruction capability into a native ViT, and embedding image- and video-level semantic awareness into the latent space. To address the first, comprehensive ablations reveal two key findings: (1) frame-level causal temporal attention suffices for visual reconstruction, whereas full spatiotemporal attention degrades it; and (2) hierarchical temporal compression substantially outperforms single-step alternatives. To tackle the second, we propose a lightweight decompressor that upsamples temporally compressed features under joint image-video teacher supervision, thereby enforcing complementary semantic structures within the compact latent space. Building on this holistic tokenizer, we further propose a principled improvement of the editing pipeline: source-target interaction should occur at the latent level inside the tokenizer rather than at the semantic level inside the LLM, substantially improving editing consistency and accelerating convergence. Instantiated at the 7B dense model, HYDRA-X achieves strong performance across image and video understanding and generation tasks, paving the way for future unified-tokenizer UMMs.
- Abstract(参考訳): ホロスティックな視覚トークン化器は、様々な視覚入力を統一表現空間にマッピングするため、統一マルチモーダルモデル(UMM)の基本である。
本稿では、単一の視覚変換器(ViT)内で画像とビデオのトークン化を統一する最初のUMMであるHYDRA-Xを提案する。
我々のデザインは、2つの中核的な課題によって駆動される: 時空間再構成機能をネイティブなViTに効率よく注入し、画像レベルの意味認識とビデオレベルの意味認識を潜伏空間に埋め込む。
1) フレームレベルの因果的注意が視覚再建に十分であるのに対し, 全時空間的注意は低下し, 2) 階層的時間的圧迫は1段階の代替よりも大幅に優れていた。
第2の課題に対処するため,映像教師と教師が共同で時間的に圧縮した特徴をアップサンプし,コンパクトな潜伏空間内に補完的な意味構造を付加する軽量な圧縮機を提案する。
ソース-ターゲット相互作用は, LLM内の意味レベルよりも, トークンの潜在レベルにおいて発生すべきであり, 編集一貫性を著しく向上し, 収束を加速する。
7B高密度モデルで実証されたHYDRA-Xは、画像とビデオの理解と生成タスク間で強い性能を達成し、将来の統合トケナイザ UMM への道を開く。
関連論文リスト
- DAMS:Dual-Branch Adaptive Multiscale Spatiotemporal Framework for Video Anomaly Detection [7.117824587276951]
この研究は、マルチレベル特徴とデカップリング融合に基づくDual-Branch Adaptive Multiscale Stemporal Framework (DAMS)と呼ばれるデュアルパスアーキテクチャを提供する。
主処理経路は、適応型マルチスケール時間ピラミッドネットワーク(AMTPN)と畳み込みブロック注意機構(CBAM)を統合している。
論文 参考訳(メタデータ) (2025-07-28T08:42:00Z) - Identity-Preserving Text-to-Video Generation Guided by Simple yet Effective Spatial-Temporal Decoupled Representations [131.33758144860988]
アイデンティティ保存型テキスト・ツー・ビデオ(IPT2V)生成は、一貫した人間のアイデンティティを持つ高忠実度ビデオを作成することを目的としている。
現在のエンドツーエンドフレームワークは、重要な空間的・時間的トレードオフを被る。
本稿では,表現をレイアウトの空間的特徴と運動力学の時間的特徴に分解する,シンプルで効果的な空間時空間分離フレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-07T06:54:44Z) - Cross Paradigm Representation and Alignment Transformer for Image Deraining [40.66823807648992]
クロスパラダイム表現・アライメント変換器(CPRAformer)を提案する。
その中心となる考え方は階層的な表現とアライメントであり、両方のパラダイムの強みを活用して画像再構成を支援する。
トランスフォーマーブロックでは,スパースプロンプトチャネル自己アテンション(SPC-SA)と空間画素改善自己アテンション(SPR-SA)の2種類の自己アテンションを使用する。
論文 参考訳(メタデータ) (2025-04-23T06:44:46Z) - Making LLaMA SEE and Draw with SEED Tokenizer [69.1083058794092]
大規模言語モデルにSEEとDrawの能力を持たせるための精巧な画像トークンであるSEEDを紹介します。
SEEDトークンを使うことで、LLMはオリジナルのトレーニングレシピの下でスケーラブルなマルチモーダルオートレグレスを実行することができる。
SEED-LLaMAはマルチターン・イン・コンテクスト・マルチモーダル生成のような合成創発的能力を示す。
論文 参考訳(メタデータ) (2023-10-02T14:03:02Z) - Planting a SEED of Vision in Large Language Model [73.17530130368053]
このSEEDは,大規模言語モデル(LLM)とSEEとDrawを同時に実現する,精巧な画像トークンである。
このバージョンのSEEDは、64のV100 GPUと5Mのパブリックな画像テキストペアを使用して、5.7日間でトレーニングされた。
論文 参考訳(メタデータ) (2023-07-16T13:41:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。