論文の概要: Timage: A Generative Text-in-Image Paradigm for Fine-Tuning Vision-Language Models
- arxiv url: http://arxiv.org/abs/2606.19944v1
- Date: Thu, 18 Jun 2026 08:40:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-19 18:23:39.739496
- Title: Timage: A Generative Text-in-Image Paradigm for Fine-Tuning Vision-Language Models
- Title(参考訳): Timage: 微調整型ビジョンランゲージモデルのための生成テキスト・イン・イメージ・パラダイム
- Authors: Yifeng Wu, Huimin Huang, Ruiluo Wu, Chunyi Lin, Guanhua Chen, Xian Wu, Wang Song, Ruize Han,
- Abstract要約: 我々は、マルチモーダル理解を入力で解決したアライメント問題として再キャストするパラダイムであるTimageを紹介する。
この研究は、意図的な入力再構成をマルチモーダル推論を強化するための強力なアーキテクチャニュートラルレバーとして位置づけている。
- 参考スコア(独自算出の注目度): 22.803631190636313
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal Large Language Models (MLLMs) often lose track of the right image regions during fine-grained spatial reasoning, because a textual query rarely carries any explicit geometric anchor into the pixel domain. Prevailing remedies either rewire the model's weights or pad the prompt with verbose instructions, yet neither reliably pins the language to the correct visual coordinates without eroding the backbone's general competence. We introduce Timage, a paradigm that recasts multimodal understanding as an alignment problem solved at the input: the query is drawn, as a typeset overlay, onto the image itself. The placement and appearance of this overlay are produced by a Constrained Schrödinger Bridge (cSB), an entropic optimal-transport sampler that factorizes layout synthesis into two coupled stochastic stages. The first stage, Region Search, transports noise toward query-aligned image zones while obeying a hard occlusion barrier that protects salient foreground content; the second stage, Appearance Shaping, sizes the glyphs through an ``ink-budget'' regularizer so that the rendered text stays legible and visually balanced. The resulting overlay behaves as an explicit attention beacon that channels the model's focus along spatial semantics. On the VMCBench suite, Timage paired with a modest 7B backbone clearly overtakes far larger proprietary systems as well as parameter-tuned baselines. The study positions deliberate input reconstruction as a powerful, architecture-neutral lever for strengthening multimodal reasoning.
- Abstract(参考訳): マルチモーダル大言語モデル(MLLM)は、テキストクエリがピクセル領域に明示的な幾何学的アンカーをほとんど持たないため、きめ細かな空間的推論において、適切な画像領域の追跡を失うことが多い。
一般的な治療法は、モデルの重みをリワイヤリングするか、プロンプトを冗長な指示でパッドするが、バックボーンの一般的な能力を損なうことなく、言語を正しい視覚座標に確実に固定するものではない。
我々は、マルチモーダル理解を入力で解決したアライメント問題として再キャストするパラダイムであるTimageを紹介した。
このオーバーレイの配置と外観は、配置合成を2つの結合確率段階に分解するエントロピックな最適輸送サンプルラーであるConstrained Schrödinger Bridge (cSB) によって生成される。
第1のステージであるRerea Searchは、ノイズをクエリに整合したイメージゾーンへ転送すると同時に、健全な前景コンテンツを保護するハード・オクルージョン・バリアに従い、第2のステージであるOutearance Shapingは、"`ink-budget''レギュレータを通じてグリフのサイズを拡大し、レンダリングされたテキストが可視かつ視覚的にバランスを保つ。
結果のオーバーレイは、空間的意味論に沿ってモデルの焦点を伝達する明示的な注意のビーコンとして振る舞う。
VMCBenchスイートでは、Timageが7Bのバックボーンとペアになって、パラメータ調整されたベースラインだけでなく、はるかに大きなプロプライエタリなシステムを追い越している。
この研究は、意図的な入力再構成をマルチモーダル推論を強化するための強力なアーキテクチャニュートラルレバーとして位置づけている。
関連論文リスト
- Imagine Before You Draw: Visual Prompt Engineering for Image Generation [67.81347924426714]
内部フレームワークにシームレスに統合可能なVisual Prompt Engineering (VPE)を提案する。
我々は,クラス条件生成,テキスト・ツー・イメージ生成,画像編集にまたがってVPEを検証する。
その結果, VPEはコンバージェンスを加速し, 天井の質を高め, 内部統合により, 編集保存性を大幅に向上することがわかった。
論文 参考訳(メタデータ) (2026-06-03T05:01:36Z) - Envisioning Beyond the Few: Disentangled Semantics and Primitives for Few-Shot Atypical Layout-to-Image Generation [11.600113323546404]
本稿では,意味論をプリミティブから切り離す表現駆動型フレームワークを提案する。
セマンティック・アンチョリング(Semantic Anchoring)は、セマンティックなセマンティクスを安定したアイデンティティのためにアンカーに集約する。
実験では、様々な領域にまたがる視覚的忠実度と整合性の両方において、最先端のL2I法よりも5ショット方式で一貫した改善が示されている。
論文 参考訳(メタデータ) (2026-05-29T13:00:00Z) - Semantic-Structural Alignment for Generative Pictorial Charts [59.45629259524998]
画像チャートの自動合成のための生成フレームワークを提案する。
2つの並列外部制御信号によって誘導される二重条件生成タスクとしてこの問題をモデル化する。
本手法は,芸術的に魅力的で構造的に整合性のある図表を生成する。
論文 参考訳(メタデータ) (2026-05-05T05:20:46Z) - Spatio-Semantic Expert Routing Architecture with Mixture-of-Experts for Referring Image Segmentation [0.3437656066916039]
画像セグメント化の参照は、自然言語表現によって記述された画像領域のためのピクセルレベルのマスクを作成することを目的としている。
画像セグメンテーションを参照するための空間分割型エキスパートルーティングアーキテクチャSERAを提案する。
SERAは、視覚言語フレームワーク内の2つの相補的な段階において、軽量で表現を意識した専門家の洗練を導入する。
論文 参考訳(メタデータ) (2026-03-13T00:37:20Z) - Unpaired Image-to-Image Translation via a Self-Supervised Semantic Bridge [59.247871132422006]
逆拡散法と拡散反転法は、未ペア画像から画像への変換を先進的に進めているが、それぞれが鍵となる制限に直面している。
本稿では,外部意味を拡散ブリッジモデルに統合する汎用フレームワークであるSelf-Supervised Semantic Bridge (SSB)を提案する。
我々のキーとなる考え方は、自己教師付き視覚エンコーダを活用して、外観変化に不変な表現を学習するが、幾何学的構造を捉えることである。
論文 参考訳(メタデータ) (2026-02-18T18:05:00Z) - Modality Gap-Driven Subspace Alignment Training Paradigm For Multimodal Large Language Models [84.78794648147608]
永続的な幾何学的異常であるモダリティギャップが残っている。
このギャップを埋める以前のアプローチは、過度に単純化された等方的仮定によってほとんど制限されている。
固定フレームモダリティギャップ理論(英語版)を提案し、モダリティギャップを安定バイアスと異方性残差に分解する。
次に、トレーニング不要なモダリティアライメント戦略であるReAlignを紹介します。
論文 参考訳(メタデータ) (2026-02-02T13:59:39Z) - How Modality Shapes Perception and Reasoning: A Study of Error Propagation in ARC-AGI [7.226300346775942]
ARC-AGIとARC-AGI-2は、小さな色量子格子上の一般化スルー合成を測定する。
最近の命令ファーストシステムは、グリッドを生成-実行-選択ループで実行される簡潔な自然言語またはDSLルールに変換する。
論文 参考訳(メタデータ) (2025-11-11T19:06:41Z) - A Large-scale Interpretable Multi-modality Benchmark for Facial Image Forgery Localization [22.725542948364357]
我々は、モデル予測を説明するのに基本的なバイナリフォージェリーマスクが不十分であると主張している。
本研究では,偽画像に対する有能な領域中心の解釈を生成する。
ForgeryTalkerは,フォージェリーローカライゼーションと解釈を同時に行うように設計されたアーキテクチャである。
論文 参考訳(メタデータ) (2024-12-27T15:23:39Z) - Fully Context-Aware Image Inpainting with a Learned Semantic Pyramid [102.24539566851809]
画像中の任意の欠落する領域に対して、合理的で現実的なコンテンツを復元することは、重要な課題である。
最近の画像インパインティングモデルは鮮明な視覚的詳細を生成するために大きな進歩を遂げているが、それでもテクスチャのぼやけや構造的歪みにつながる可能性がある。
本研究では,画像中の局所的欠落コンテンツの回復に大きく貢献する,多スケールなセマンティック・セマンティック・ピラミッド・ネットワーク(SPN)を提案する。
論文 参考訳(メタデータ) (2021-12-08T04:33:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。