論文の概要: Advancing WordArt-Oriented Scene Text Recognition: Datasets and Methods
- arxiv url: http://arxiv.org/abs/2606.24484v1
- Date: Tue, 23 Jun 2026 12:18:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-24 22:16:48.939475
- Title: Advancing WordArt-Oriented Scene Text Recognition: Datasets and Methods
- Title(参考訳): WordArt指向のシーンテキスト認識の強化:データセットと方法
- Authors: Xingsong Ye, Yongkun Du, Jiaxin Zhang, Haojie Zhang, Chong Sun, Chen Li, Jing Lyu, Zhineng Chen,
- Abstract要約: WordArt(アートテキスト)は高度にカスタマイズされたフォント、テクスチャ、レイアウトを備えている。
既存のSTRとメソッドは、通常、シーンテキストと固定テンプレート入力を中心に構築され、ウォーターにスケールするのに苦労する。
既存の芸術的テキストデータと比較して、数百倍の精度で2Mの合成データセットであるWater-Sを構築した。
- 参考スコア(独自算出の注目度): 24.552635491974417
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: WordArt (artistic text) features highly customized fonts, textures, and layouts, making WordArt-oriented scene TExt Recognition (WATER) substantially more challenging than general Scene Text Recognition (STR). Existing STR datasets and methods, typically built around regular scene text and fixed-template inputs, struggle to scale to WATER. Thus, we aim to advance this task from both data and model perspectives. On the data side, we construct a 2M synthetic dataset, WATER-S, with the scale improved by hundreds of times compared to existing artistic text data. WATER-S consists of two complementary subsets. One rendered by an upgraded rendering pipeline (SynthWordArt), which provides highly accurate and controllable synthetic WordArt data. The other is generated by combining Qwen3-VL for prompt mining and Z-Image for image synthesis, which improves the coverage of realistic and diverse data. On the model side, we propose WATERec. It adopts an visual encoder supporting arbitrary-shaped inputs and an autoregressive decoder to model complex layouts, structurally breaking the bottleneck of fixed-template STR on WordArt. Experiments show that this architecture outperforms prior STR methods, achieving state-of-the-art performance on irregular texts such as WordArt. Together with WATER-R, carefully reorganized from existing real STR data, our strong baseline with the new synthetic data and model design reaches 90.40% accuracy on WordArt-Bench, surpassing both general-purpose and OCR-specialized vision-language models by a large margin. Code and data are available at https://github.com/YesianRohn/WATER.
- Abstract(参考訳): WordArt(アートテキスト)は高度にカスタマイズされたフォント、テクスチャ、レイアウトを備えており、WordArt指向のシーン TExt Recognition (WATER) は一般的なScene Text Recognition (STR) よりもかなり難しい。
既存のSTRデータセットとメソッドは、通常、シーンテキストと固定テンプレート入力を中心に構築され、ウォーターにスケールするのに苦労する。
そこで我々は,この課題をデータとモデルの両方の観点から進めることを目指している。
データ側では、2Mの合成データセットであるWater-Sを構築し、既存の芸術的テキストデータと比較して数百倍のスケール改善を行った。
Water-Sは2つの相補的な部分集合からなる。
1つはアップグレードされたレンダリングパイプライン(SynthWordArt)によってレンダリングされ、高度に正確で制御可能な合成WordArtデータを提供する。
もうひとつは、即時マイニングのためのQwen3-VLと画像合成のためのZ-Imageを組み合わせることで、現実的で多様なデータのカバレッジを向上させる。
モデルとして,Waterecを提案する。
任意の形の入力をサポートするビジュアルエンコーダと、複雑なレイアウトをモデル化するための自動回帰デコーダを採用し、WordArt上の固定テンプレートSTRのボトルネックを構造的に破壊する。
実験により、このアーキテクチャは以前のSTRメソッドよりも優れており、WordArtのような不規則なテキスト上で最先端のパフォーマンスを実現している。
既存のSTRデータから慎重に再構成されたWater-Rとともに、新しい合成データとモデル設計による強力なベースラインは、WordArt-Bench上で90.40%の精度に達し、汎用およびOCR特化視覚言語モデルの両方を大きなマージンで上回っている。
コードとデータはhttps://github.com/YesianRohn/WATER.comで公開されている。
関連論文リスト
- TextSculptor: Training and Benchmarking Scene Text Editing [88.11688559021628]
データ構築とシーンテキスト編集評価のための総合的なフレームワークであるTextSculptorを提案する。
TextSculptorはオープンソースのテキスト編集性能を改善し、プロプライエタリなモデルとのギャップを狭める。
論文 参考訳(メタデータ) (2026-05-20T12:22:26Z) - UTDesign: A Unified Framework for Stylized Text Editing and Generation in Graphic Design Images [25.895852456869463]
UTDesignは、デザイン画像の高精度なスタイリングテキスト編集と条件付きテキスト生成のための統一されたフレームワークである。
私たちのフレームワークは英語と中国語の両方をサポートしています。
スタイル整合性やテキストの正確性の観点から,オープンソース手法の最先端性能を実現する。
論文 参考訳(メタデータ) (2025-12-23T16:13:55Z) - Generating Synthetic Invoices via Layout-Preserving Content Replacement [0.0]
本稿では,高忠実な合成請求書とそれに対応する構造化データを生成するパイプラインを提案する。
私たちのアプローチは、小規模でプライベートなデータセットを増幅するためのスケーラブルで自動化されたソリューションを提供します。
論文 参考訳(メタデータ) (2025-08-04T06:19:34Z) - WAS: Dataset and Methods for Artistic Text Segmentation [57.61335995536524]
本稿では,芸術的テキストセグメンテーションの課題に焦点を当て,実際の芸術的テキストセグメンテーションデータセットを構築する。
本稿では,モデルが特別な形状のストローク領域を無視するのを防ぐために,レイヤワイド・モーメント・クエリを用いたデコーダを提案する。
また,大域構造に焦点を合わせるために,骨格支援ヘッドを提案する。
論文 参考訳(メタデータ) (2024-07-31T18:29:36Z) - TextDiffuser: Diffusion Models as Text Painters [118.30923824681642]
我々は、背景に忠実な視覚的に魅力的なテキストで画像を生成することに焦点を当てたTextDiffuserを紹介した。
我々は,OCRアノテーションを用いた最初の大規模テキスト画像データセットであるMARIO-10Mに,1000万の画像テキストペアをコントリビュートする。
テキストプロンプトのみまたはテキストテンプレート画像と併用して高品質なテキスト画像を作成し,テキストによる不完全な画像の再構成を行う,テキストディフューザは柔軟かつ制御可能であることを示す。
論文 参考訳(メタデータ) (2023-05-18T10:16:19Z) - Text is Text, No Matter What: Unifying Text Recognition using Knowledge
Distillation [41.43280922432707]
私たちは、2つの最先端のSTRモデルとHTRモデルと好適に競合できる単一のモデルを目指しています。
まず、STRモデルとHTRモデルの相互利用が、それらの固有の課題の違いにより、大幅な性能低下を引き起こすことを示す。
次に、知識蒸留(KD)に基づく枠組みを導入することで、彼らの連合に取り組みます。
論文 参考訳(メタデータ) (2021-07-26T10:10:34Z) - SynthTIGER: Synthetic Text Image GEneratoR Towards Better Text
Recognition Models [9.934446907923725]
そこで本研究では,テキスト画像合成に使用される技術を分析し,一つのアルゴリズムで有効なものを統合することによって,新しい合成テキスト画像生成装置であるSynthTIGERを提案する。
我々の実験では、SynthTIGERは合成データセットの組合せよりも優れたSTR性能を実現する。
論文 参考訳(メタデータ) (2021-07-20T08:03:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。