論文の概要: SmartFont: Dynamic Condition Allocation for Few-Shot Font Generation
- arxiv url: http://arxiv.org/abs/2606.13382v1
- Date: Thu, 11 Jun 2026 14:10:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-12 15:55:27.841855
- Title: SmartFont: Dynamic Condition Allocation for Few-Shot Font Generation
- Title(参考訳): SmartFont:Few-Shot Font生成のための動的条件割り当て
- Authors: Zian Yang, Zixin Wang,
- Abstract要約: フォント生成は、グローバルな構造的完全性と、きめ細かい局所的なスタイルの忠実さを同時に必要とします。
We propose SmartFont, a diffusion-based few-shot font generation framework that a global content-style generation with weak supervised local corrective experts。
- 参考スコア(独自算出の注目度): 12.366353833575646
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Few-shot font generation simultaneously requires global structural completeness and fine-grained local style fidelity. Existing methods usually either rely on global content-style modeling, which is robust but imperfectly disentangled, or emphasize component/local modeling, which captures fine details but relies heavily on local priors and reference coverage. We argue that the key challenge is not merely to learn purer conditions, but to organize complementary yet biased global and local conditions through multi-level allocation during generation. To this end, we propose SmartFont, a diffusion-based few-shot font generation framework that combines global content-style generation with weakly supervised local corrective experts. The local branch performs semantic-spatial allocation by learning expert-wise local concepts and semantically meaningful spatial maps under weak component supervision, enabling fine-grained correction without requiring explicit component-conditioned inference. On top of this, a denoising-state condition allocation module adaptively weights global content, global style, and local corrective feature across timesteps and injection blocks. Extensive experiments show that SmartFont achieves better global-local balance, improves glyph quality and local detail fidelity.
- Abstract(参考訳): フォント生成は、グローバルな構造的完全性と、きめ細かい局所的なスタイルの忠実さを同時に必要とします。
既存の手法は通常、グローバルなコンテントスタイルのモデリングに頼っているが、それは頑丈だが不完全ではない、あるいはコンポーネント/ローカルのモデリングを強調している。
重要な課題は、純粋な条件を学習するだけでなく、世代間多段階のアロケーションを通じて、補完的だが偏りのあるグローバルおよびローカルな条件を整理することである。
この目的のために,グローバルなコンテンツスタイル生成と弱教師付きローカル修正専門家を組み合わせた拡散型少ショットフォント生成フレームワークであるSmartFontを提案する。
ローカルブランチは、専門的なローカル概念と弱いコンポーネント管理の下で意味論的に意味のある空間マップを学習することで意味空間割当を行い、明示的なコンポーネント条件推論を必要とせずにきめ細かい補正を可能にする。
これに加えて、denoising-state条件割り当てモジュールは、グローバルコンテンツ、グローバルスタイル、タイムステップとインジェクションブロックをまたいだローカル修正機能を適応的に重み付けする。
大規模な実験により、SmartFontはより優れたグローバルなバランスを実現し、グリフの品質と局所的なディテールの忠実さを向上させることが示されている。
関連論文リスト
- Efficiency Follows Global-Local Decoupling [62.05489838893081]
ConvNeurは、軽量なニューラルメモリブランチがトークンの集合にグローバルなコンテキストを集約する2分岐アーキテクチャである。
学習ゲートは、グローバルなキューが目的を絞ることなく、局所的な特徴を調整できる。
標準的な分類、検出、セグメンテーションのベンチマークでは、ConvNeurは同等または低い計算で同等の選択肢にマッチするか、超えている。
論文 参考訳(メタデータ) (2026-03-20T02:20:16Z) - UAGLNet: Uncertainty-Aggregated Global-Local Fusion Network with Cooperative CNN-Transformer for Building Extraction [83.48950950780554]
リモートセンシング画像からの抽出は、複雑な構造変化のために難しい課題である。
既存の方法は、セグメンテーションモデルにおけるマルチスケール特徴をキャプチャするために、畳み込みブロックまたは自己アテンションブロックを使用する。
高品質なグローバルローカルなビジュアルセマンティクスを活用するために,不確実性集約型グローバルローカルフュージョンネットワーク(UAGLNet)を提案する。
論文 参考訳(メタデータ) (2025-12-15T02:59:16Z) - HarmoCLIP: Harmonizing Global and Regional Representations in Contrastive Vision-Language Models [63.87966115136411]
HarmoCLIPはContrastive Language-Image Pre-training内のグローバルおよびリージョン表現を調和させるように設計された新しいフレームワークである。
本研究では,地域レベルでの表現能力を高めるために,地域調整管理戦略を導入する。
論文 参考訳(メタデータ) (2025-11-27T16:24:53Z) - HiPrompt: Tuning-free Higher-Resolution Generation with Hierarchical MLLM Prompts [77.62320553269615]
HiPromptは高解像度画像生成のためのチューニング不要のソリューションである。
階層的なプロンプトは グローバルとローカルの両方のガイダンスを提供する
生成された画像は、高定義のコヒーレントな局所的および大域的意味論、構造、テクスチャを保持する。
論文 参考訳(メタデータ) (2024-09-04T17:58:08Z) - GLoD: Composing Global Contexts and Local Details in Image Generation [0.0]
Global-Local Diffusion (textitGLoD)は、グローバルコンテキストとローカル詳細の同時制御を可能にする新しいフレームワークである。
複数のグローバルなプロンプトとローカルなプロンプトを対応するレイヤに割り当て、ノイズを発生させるプロセスのガイドとして構成する。
本フレームワークは,グローバルなプロンプト内のオブジェクトをローカルなプロンプトで条件付けし,他の未特定なアイデンティティを保存しながら,複雑なグローバルなローカルなコンポジションを実現する。
論文 参考訳(メタデータ) (2024-04-23T18:39:57Z) - Semantic Image Synthesis via Class-Adaptive Cross-Attention [7.147779225315707]
SPADEの代わりにクロスアテンション層を用いて形状型相関を学習し、画像生成プロセスの条件付けを行う。
我々のモデルはSPADEの汎用性を継承し、同時に最先端の世代品質を得るとともに、グローバルおよびローカルスタイルの転送を改善する。
論文 参考訳(メタデータ) (2023-08-30T14:49:34Z) - Coupling Global Context and Local Contents for Weakly-Supervised
Semantic Segmentation [54.419401869108846]
Weakly Supervised Semantic (WSSS)モデルを提案する。
グローバルなオブジェクトコンテキストを異なる粒度空間でキャプチャするために,フレキシブルなコンテキストアグリゲーションモジュールを提案する。
局所的な細粒度を集約するために、ボトムアップパラメータ学習可能な方法で意味的に一貫した特徴融合モジュールを提案する。
論文 参考訳(メタデータ) (2023-04-18T15:29:23Z) - Global Meets Local: Effective Multi-Label Image Classification via
Category-Aware Weak Supervision [37.761378069277676]
本稿では,効果的雑音・確率抑圧を実現するための統一的な枠組みを構築した。
我々はグローバルな特徴とローカルな特徴の相補的な情報を探るため、粒度横断型アテンションモジュールを開発した。
我々のフレームワークは最先端の手法よりも優れた性能を実現している。
論文 参考訳(メタデータ) (2022-11-23T05:39:17Z) - Global Aggregation then Local Distribution for Scene Parsing [99.1095068574454]
提案手法は,エンドツーエンドのトレーニング可能なブロックとしてモジュール化され,既存のセマンティックセグメンテーションネットワークに容易に接続可能であることを示す。
私たちのアプローチでは、Cityscapes、ADE20K、Pascal Context、Camvid、COCO-stuffといった主要なセマンティックセグメンテーションベンチマークに基づいて、新しい最先端の技術を構築できます。
論文 参考訳(メタデータ) (2021-07-28T03:46:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。