論文の概要: UniTranslator: A Unified Multi-modal Framework for End-to-end In-Image Machine Translation
- arxiv url: http://arxiv.org/abs/2606.24333v1
- Date: Tue, 23 Jun 2026 09:11:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-24 22:16:48.857332
- Title: UniTranslator: A Unified Multi-modal Framework for End-to-end In-Image Machine Translation
- Title(参考訳): UniTranslator: エンドツーエンドのインイメージ機械翻訳のための統合マルチモーダルフレームワーク
- Authors: Jiahao Lyu, Pei Fu, Zhenhang Li, Shaojie Zhang, Jiahui Yang, Yu Zhou, Can Ma, Zhenbo Luo, Jian Luan,
- Abstract要約: In-Image Machine Translation (IIMT)は、画像中のシーンテキストを翻訳し、翻訳されたテキストを元の領域に戻し、全体の視覚的外観を保存することを目的としている。
最近の統合マルチモーダルモデルは、単一のフレームワーク内で視覚的テキスト理解と画像生成を組み合わせることで、有望なソリューションを提供する。
We present UniTranslator, a unified multimodal framework for IIMT that tightly couples translation understanding and text editing。
- 参考スコア(独自算出の注目度): 23.787128107000374
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: In-Image Machine Translation (IIMT) aims to translate scene text in an image and render the translated text back into the original regions while preserving the overall visual appearance. Recent unified multimodal models provide a promising solution by combining visual-text understanding and image generation within a single framework. However, directly adapting such models to IIMT remains challenging. In particular, they often suffer from understanding-generation conflicts, where the translation inferred during understanding is inconsistent with the text supervision used in generation, and spatial position misalignment, where the rendered text does not accurately match the target text regions. To address these issues, we present UniTranslator, a unified multimodal framework for IIMT that tightly couples translation understanding and text editing. Specifically, we introduce an Understand-Generation Alignment Module (UGAM) to bridge the representation gap between understanding and generation, encouraging semantic consistency between translated content prediction and text rendering. We further propose a Spatial Mask Decoder (SMD) with pixel-level supervision over text regions to improve spatial grounding, geometric alignment, and layout controllability during generation. Extensive experiments on multiple benchmarks demonstrate that UniTranslator achieves state-of-the-art performance across diverse language directions and complex real-world layouts. Moreover, our results reveal a strong mutual reinforcement effect between translation understanding and image generation, highlighting the advantage of unified translation multimodal learning. Code is available at https://github.com/SeerRay-Lab/Unitranslator.
- Abstract(参考訳): In-Image Machine Translation (IIMT)は、画像中のシーンテキストを翻訳し、翻訳されたテキストを元の領域に戻し、全体の視覚的外観を保存することを目的としている。
最近の統合マルチモーダルモデルは、単一のフレームワーク内で視覚的テキスト理解と画像生成を組み合わせることで、有望なソリューションを提供する。
しかし、そのようなモデルをIIMTに直接適用することは依然として困難である。
特に、理解中に推測される翻訳が、生成時に使用されるテキストの監督と矛盾する理解世代間の紛争や、レンダリングされたテキストがターゲットのテキスト領域と正確に一致しない空間的位置のずれに悩まされることが多い。
これらの問題に対処するため、IIMT用の統合マルチモーダルフレームワークであるUniTranslatorを紹介し、翻訳理解とテキスト編集を密に結合する。
具体的には、理解と生成の間の表現ギャップを埋め、翻訳されたコンテンツ予測とテキストレンダリングのセマンティック一貫性を促進するために、アンダースタンド・ジェネレーション・アライメント・モジュール(UGAM)を導入する。
さらに,テキスト領域に対してピクセルレベルの監督を施した空間マスクデコーダ(SMD)を提案し,生成時の空間接地,幾何学的アライメント,レイアウト制御性を改善する。
複数のベンチマークでの大規模な実験により、UniTranslatorは様々な言語方向と複雑な実世界のレイアウトで最先端のパフォーマンスを達成することが示された。
さらに, 翻訳理解と画像生成の相互強化効果が強く, 統合翻訳マルチモーダル学習の利点を浮き彫りにした。
コードはhttps://github.com/SeerRay-Lab/Unitranslator.comで入手できる。
関連論文リスト
- IMTBench: A Multi-Scenario Cross-Modal Collaborative Evaluation Benchmark for In-Image Machine Translation [19.168097777455177]
エンドツーエンドのIn-Image Machine Translationは、画像内に埋め込まれたテキストをターゲット言語に変換することを目的としている。
既存のIIMTベンチマークは、ほとんど合成されており、現実世界の複雑さを反映していない。
IMTBenchは,4つの実践シナリオと9つの言語を対象とした2500の画像翻訳サンプルのベンチマークである。
論文 参考訳(メタデータ) (2026-03-11T07:42:42Z) - EasyText: Controllable Diffusion Transformer for Multilingual Text Rendering [9.087419148444225]
本稿では,DiT(Diffusion Transformer)に基づくテキストレンダリングフレームワークであるEasyTextを紹介する。
本稿では,文字位置の符号化と位置の符号化手法を提案する。
我々は,100万の多言語画像テキストアノテーションを用いた大規模合成テキスト画像データセットを構築し,20Kの注釈付き画像の高品質なデータセットを構築した。
論文 参考訳(メタデータ) (2025-05-30T09:55:39Z) - Towards Visual Text Design Transfer Across Languages [49.78504488452978]
マルチモーダル・スタイル翻訳(MuST-Bench)の新たな課題について紹介する。
MuST-Benchは、視覚テキスト生成モデルが様々な書き込みシステム間で翻訳を行う能力を評価するために設計されたベンチマークである。
そこで我々は,スタイル記述の必要性を解消する多モーダルなスタイル翻訳フレームワークであるSIGILを紹介した。
論文 参考訳(メタデータ) (2024-10-24T15:15:01Z) - AnyTrans: Translate AnyText in the Image with Large Scale Models [88.5887934499388]
本稿では、画像中のタスク翻訳AnyText(TATI)のためのオール・エンコンパス・フレームワークであるAnyTransを紹介する。
我々のフレームワークは、翻訳中にテキスト要素と視覚要素の両方から文脈的手がかりを取り入れている。
6つの言語対の多言語テキスト画像翻訳データからなるMTIT6というテストデータセットを精巧にコンパイルした。
論文 参考訳(メタデータ) (2024-06-17T11:37:48Z) - Story Visualization by Online Text Augmentation with Context Memory [64.86944645907771]
オンラインテキスト拡張による双方向トランスフォーマーフレームワークのための新しいメモリアーキテクチャを提案する。
提案手法は, FID, キャラクタF1, フレーム精度, BLEU-2/3, R精度など, 様々な指標において, 芸術の状態を著しく上回っている。
論文 参考訳(メタデータ) (2023-08-15T05:08:12Z) - Scene Graph as Pivoting: Inference-time Image-free Unsupervised
Multimodal Machine Translation with Visual Scene Hallucination [88.74459704391214]
本研究では,より現実的なマルチモーダル機械翻訳(UMMT)について検討する。
視覚・言語シーングラフ(SG)を用いて,入力画像とテキストを表現し,その微細な視覚言語特徴が意味論の全体的理解を確実にする。
教師なし翻訳学習には,SG-pivotingに基づく学習目的がいくつか導入されている。
提案手法は,タスクとセットアップにおいて,BLEUスコアの有意な向上により,最良性能のベースラインを上回ります。
論文 参考訳(メタデータ) (2023-05-20T18:17:20Z) - Unsupervised Image-to-Image Translation with Generative Prior [103.54337984566877]
教師なし画像画像変換は、ペアデータなしで2つの視覚領域間の翻訳を学習することを目的としている。
本稿では,GP-UNIT(Generative Prior-guided UN Image-to-image Translation)という新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-04-07T17:59:23Z) - Simultaneous Machine Translation with Visual Context [42.88121241096681]
同時機械翻訳(SiMT)は、連続的な入力テキストストリームを低レイテンシで最高の品質で別の言語に変換することを目的としている。
我々は、様々なマルチモーダルアプローチと視覚的特徴が最先端のSiMTフレームワークに与える影響を分析する。
論文 参考訳(メタデータ) (2020-09-15T18:19:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。