論文の概要: HandwritingAgent: Language-Driven Handwriting Synthesis in Scalable Vector Space
- arxiv url: http://arxiv.org/abs/2606.18788v1
- Date: Wed, 17 Jun 2026 08:02:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-18 17:16:51.056957
- Title: HandwritingAgent: Language-Driven Handwriting Synthesis in Scalable Vector Space
- Title(参考訳): HandwritingAgent: スケーラブルベクトル空間における言語駆動手書き合成
- Authors: Jaward Sesay, Yue Yu, Börje F. Karlsson,
- Abstract要約: HandwritingAgentは、言語駆動のエージェントで、スタイル固有のトレーニングを必要とせずに、SVGフォーマットで自然な手書きシーケンスを直接合成できる。
模倣、認識、多言語手書き合成、複雑な手書き数学や科学表現の生成にまたがる多様な手書き作業の実験は、性能の大幅な向上を示している。
- 参考スコア(独自算出の注目度): 12.612154268994184
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Teaching machines to emulate natural handwriting styles remains an open challenge, as it requires synthesizing stroke sequences that dynamically vary in shape, texture, pressure and script - not only across individuals, but also within a single person's handwriting. Attempts at this challenge have largely explored deep learning methods in both online and offline settings. However, these approaches are often constrained by style-specific architectural choices, heavy reliance on large datasets, high compute costs, and a lack of flexible control over writing styles through natural language. To this end, we introduce HandwritingAgent, a language-driven agent that can synthesize natural handwriting sequences directly in Scalable Vector Graphics (SVG) format with no need for style-specific training. The agent leverages a large reasoning model to geometrically analyse and autoregressively generate target handwritten glyphs as stroke sequences in a discrete grid canvas environment. Generation is conditioned on texts provided in either conversational or non-conversational mode, along with a reference handwriting-style image. Experiments on diverse handwriting tasks spanning imitation, recognition, multi-lingual handwriting synthesis, and generation of complex handwritten maths and science expressions indicate substantial improvement in performance, with HandwritingAgent matching or surpassing state-of-the-art generative handwriting models, while providing a more efficient, controllable, and generalizable synthesis method.
- Abstract(参考訳): 自然な手書きスタイルをエミュレートするための機械の指導は、形状、テクスチャ、圧力、スクリプトの動的に変化するストロークシーケンスの合成を必要とするため、未解決の課題である。
この課題に対する試みは、オンラインとオフラインの両方でディープラーニングの手法を主に検討している。
しかしながら、これらのアプローチは、スタイル固有のアーキテクチャの選択、大規模なデータセットへの依存、高い計算コスト、自然言語によるスタイル記述に対する柔軟な制御の欠如などによって制約されることが多い。
この目的のために、我々は、言語駆動エージェントであるHandwritingAgentを紹介した。これは、スタイル固有のトレーニングを必要とせずに、Scalable Vector Graphics (SVG)フォーマットで、自然な手書きシーケンスを直接合成できる。
エージェントは、大きな推論モデルを利用して、離散グリッドキャンバス環境において、ターゲット手書きグリフをストロークシーケンスとして幾何学的に解析し、自動回帰的に生成する。
生成は、参照手書きスタイルのイメージとともに、会話モードまたは非会話モードで提供されるテキストに条件付けされる。
模倣、認識、多言語手書き合成、複雑な手書き数学および科学表現の生成にまたがる多種多様な手書き作業の実験は、より効率的で制御可能で一般化可能な合成方法を提供しながら、手書きのマッチングや最先端の生成手書きモデルを超えたパフォーマンスの向上を示す。
関連論文リスト
- Zero-Shot Synthetic-to-Real Handwritten Text Recognition via Task Analogies [60.84720484975815]
手書きテキスト認識(HTR)モデルは、しばしば実際のテキストに一般化するのに苦労する。
完全ゼロショット合成-実一般化設定に取り組む。
提案手法は,1つ以上のソース言語において,合成言語から実際の手書き言語に移行する際に,モデルパラメータがどのように変化するかを学習する。
論文 参考訳(メタデータ) (2026-04-08T07:33:31Z) - DNA: Dual-branch Network with Adaptation for Open-Set Online Handwriting Generation [28.985690380954765]
本稿では,オンライン手書き文字生成手法について紹介する。本手法では,テスト中に生成した文字と書き手のスタイルが学習中に見つからない。
本稿では,適応型スタイルブランチと適応型コンテンツブランチからなるDual-Branch Network with Adaptation (DNA)を提案する。
我々のDNAモデルは、見えないOHG設定に適しており、最先端のパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2025-11-27T03:30:22Z) - ScriptViT: Vision Transformer-Based Personalized Handwriting Generation [0.0]
スタイル付き手書き文字生成は、写実的で、特定のライターのスタイルと整合した手書きテキストを合成することを目的としている。
複数の参照画像からグローバルなスタイルパターンを学習するビジョントランスフォーマー方式のエンコーダを提案する。
次に、これらのスタイルキューをクロスアテンション機構を用いて対象のテキストと統合し、より忠実に意図したスタイルを反映した手書き画像を生成する。
論文 参考訳(メタデータ) (2025-11-23T06:38:23Z) - Learning to Generate Text in Arbitrary Writing Styles [6.7308816341849695]
言語モデルは、潜在的に小さな文章サンプルに基づいて、著者固有のスタイルでテキストを作成することが望ましい。
本稿では,テクスチャ的特徴を捉えた対照的に訓練された表現を用いて,ターゲットスタイルのテキストを生成するための言語モデルを提案する。
論文 参考訳(メタデータ) (2023-12-28T18:58:52Z) - StylerDALLE: Language-Guided Style Transfer Using a Vector-Quantized
Tokenizer of a Large-Scale Generative Model [64.26721402514957]
本論文では,自然言語を用いて抽象芸術スタイルを記述するスタイル転送手法であるStylerDALLEを提案する。
具体的には、非自己回帰的なトークンシーケンス変換として、言語誘導型転送タスクを定式化する。
スタイル情報を組み込むために,CLIPに基づく言語指導による強化学習戦略を提案する。
論文 参考訳(メタデータ) (2023-03-16T12:44:44Z) - Boosting Modern and Historical Handwritten Text Recognition with
Deformable Convolutions [52.250269529057014]
自由進化ページにおける手書き文字認識(HTR)は難しい画像理解課題である。
本稿では,手入力に応じて変形し,テキストの幾何学的変化に適応できる変形可能な畳み込みを導入することを提案する。
論文 参考訳(メタデータ) (2022-08-17T06:55:54Z) - SLOGAN: Handwriting Style Synthesis for Arbitrary-Length and
Out-of-Vocabulary Text [35.83345711291558]
本稿では,任意の長文と語彙外文に対して,パラメータ化および制御可能な手書きスタイルを合成する手法を提案する。
我々は、容易に入手可能な印刷スタイルの画像を提供することで、テキストコンテンツを埋め込むことにより、コンテンツの多様性を柔軟に達成することができる。
本手法は,学習語彙に含まれない単語を,様々な新しいスタイルで合成することができる。
論文 参考訳(メタデータ) (2022-02-23T12:13:27Z) - Letter-level Online Writer Identification [86.13203975836556]
我々は文字レベルのオンラインライタIDという新たな問題に焦点をあてる。
主な課題は、しばしば異なるスタイルで手紙を書くことである。
我々はこの問題をオンライン書記スタイルのばらつき(Var-O-Styles)と呼ぶ。
論文 参考訳(メタデータ) (2021-12-06T07:21:53Z) - SmartPatch: Improving Handwritten Word Imitation with Patch
Discriminators [67.54204685189255]
本稿では,現在の最先端手法の性能を向上させる新手法であるSmartPatchを提案する。
我々は、よく知られたパッチ損失と、平行訓練された手書きテキスト認識システムから収集された情報を組み合わせる。
これにより、より強化された局所識別器が実現し、より現実的で高品質な手書き文字が生成される。
論文 参考訳(メタデータ) (2021-05-21T18:34:21Z) - GTAE: Graph-Transformer based Auto-Encoders for Linguistic-Constrained
Text Style Transfer [119.70961704127157]
近年,非並列テキストスタイルの転送が研究の関心を集めている。
現在のアプローチでは、元の文の内容やロジックを保存できない。
文を言語グラフとしてモデル化し,グラフレベルで特徴抽出とスタイル転送を行う,グラフトランスフォーマーベースのAuto-GTAEを提案する。
論文 参考訳(メタデータ) (2021-02-01T11:08:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。