論文の概要: Multimodal Image Colorization: Quantifying the Impact of Text-Conditioned Guidance on Grayscale-to-Color Translation
- arxiv url: http://arxiv.org/abs/2606.20722v1
- Date: Tue, 16 Jun 2026 21:21:47 GMT
- ステータス: 情報取得中
- システム内更新日: 2026-06-23 11:19:08.784743
- Title: Multimodal Image Colorization: Quantifying the Impact of Text-Conditioned Guidance on Grayscale-to-Color Translation
- Title(参考訳): マルチモーダル画像のカラー化: テキスト記述誘導がグレースケール・ツー・カラー翻訳に与える影響の定量化
- Authors: Colten Reissmann, Hugo Garrido-Lestache Belinchon,
- Abstract要約: グレースケール・ツー・カラー画像モデルにおいて,テキストコンディショニングが画素レベルおよび知覚的指標に与える影響を定量化する。
その結果,PSNRは5.6%,SSIMは1.2%,カラフルは36.6%,LPIPSは7.6%向上した。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Grayscale images are commonly found in historical photography restoration, medical imaging, and artistic media. However, automatically applying color to these images remains a significant challenge in computer vision because many plausible colorizations can correspond to the same grayscale input. In this work, we quantify the effect of text conditioning on pixel-level and perceptual metrics for grayscale-to-color image models. Specifically, we compare two architectures, a U-Net and Stable Diffusion 1.5, each tested with and without CLIP text conditioning while holding all other variables constant. Our results show that text conditioning improves PSNR by 5.6%, SSIM by 1.2%, and colorfulness by 36.6%, while reducing LPIPS by 7.6% in the U-Net tier. In the Stable Diffusion tier, text conditioning improves PSNR by 5.8%, SSIM by 1.5%, and colorfulness by 0.6%, while reducing LPIPS by 11.3%. These results indicate that text conditioning provides consistent, measurable improvements to colorization quality across both architecture scales.
- Abstract(参考訳): グレイスケールの画像は、歴史的写真復元、医用画像、芸術メディアでよく見られる。
しかしながら、これらの画像に色を自動で適用することは、多くの可視色化が同じグレースケールの入力に対応できるため、コンピュータビジョンにおいて重要な課題である。
本研究では,テキストコンディショニングがグレースケール・ツー・カラー画像モデルにおける画素レベルおよび知覚的指標に与える影響を定量化する。
具体的には、U-NetとStable Diffusion 1.5という2つのアーキテクチャを比較し、それぞれがCLIPテキストコンディショニングを使用してテストし、他のすべての変数を定数に保持する。
その結果,PSNRは5.6%,SSIMは1.2%,カラフルは36.6%,LPIPSは7.6%向上した。
安定拡散層では、テキストコンディショニングはPSNRを5.8%改善し、SSIMを1.5%改善し、カラフルを0.6%改善し、LPIPSを11.3%削減した。
これらの結果から,テキスト条件付けは両アーキテクチャスケールのカラー化品質を一貫した,測定可能な改善をもたらすことが示唆された。
関連論文リスト
- NumColor: Precise Numeric Color Control in Text-to-Image Generation [57.72106507860579]
テキストと画像のモデルは、自然言語の記述から画像を生成するのに優れているが、数値的な色を解釈できない。
我々は,複数の拡散アーキテクチャを横断する正確な数値色制御が可能なNumColorを提案する。
NumColorは、GenColorBenchベンチマークで色調和スコアを10-30倍改善しながら、5つのモデルで4-9倍の数値色精度を向上させる。
論文 参考訳(メタデータ) (2026-03-13T19:37:25Z) - You Only Need One Color Space: An Efficient Network for Low-light Image Enhancement [50.37253008333166]
低照度画像強調(LLIE)タスクは、劣化した低照度画像から詳細と視覚情報を復元する傾向がある。
水平/垂直インテンシティ(HVI)と呼ばれる新しいトレーニング可能なカラー空間を提案する。
輝度と色をRGBチャネルから切り離して、拡張中の不安定性を緩和するだけでなく、トレーニング可能なパラメータによって異なる照明範囲の低照度画像にも適応する。
論文 参考訳(メタデータ) (2024-02-08T16:47:43Z) - SPDGAN: A Generative Adversarial Network based on SPD Manifold Learning for Automatic Image Colorization [1.1174586184779576]
生成逆ネットワーク(SPDGAN)を用いたSymmetric Positive Definite (SPD) Manifold Learningに基づく完全自動カラー化手法を提案する。
本モデルは,2つの識別器とジェネレータの対角ゲームを確立する。その目標は,残差接続により層間の色情報を失うことなく,偽のカラー化画像を生成することである。
論文 参考訳(メタデータ) (2023-12-21T00:52:01Z) - MMC: Multi-Modal Colorization of Images using Textual Descriptions [22.666387184216678]
本稿では、2つの入力(グレースケール画像と各エンコードされたテキスト記述)を受信し、関連する色成分を予測しようとするディープネットワークを提案する。
また、画像中の各オブジェクトを予測し、個々の記述で色付けし、それらの属性を色付けプロセスに組み込む。
提案手法は,LPIPS,PSNR,SSIMの指標を用いて,既存のカラー化手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2023-04-24T10:53:13Z) - TIC: Text-Guided Image Colorization [24.317541784957285]
本稿では、2つの入力(グレースケール画像と各エンコードされたテキスト記述)を取り込み、関連する色域を予測しようとする新しいディープネットワークを提案する。
各テキスト記述にはシーンに存在するオブジェクトの色情報が含まれているので、テキストエンコーディングは予測された色の全体的な品質を改善するのに役立つ。
提案手法を異なる指標を用いて評価した結果,定性的にも定量的にも,最先端のカラー化アルゴリズムよりも優れていることがわかった。
論文 参考訳(メタデータ) (2022-08-04T18:40:20Z) - Transform your Smartphone into a DSLR Camera: Learning the ISP in the
Wild [159.71025525493354]
本稿では,スマートフォンが取得したRAW画像に基づいて,DSLRの品質画像を生成する訓練可能な画像信号処理フレームワークを提案する。
トレーニング画像ペア間の色ずれに対処するために、カラー条件ISPネットワークを使用し、各入力RAWと基準DSLR画像間の新しいパラメトリック色マッピングを最適化する。
論文 参考訳(メタデータ) (2022-03-20T20:13:59Z) - Semantic-Sparse Colorization Network for Deep Exemplar-based
Colorization [23.301799487207035]
模範的なカラー化アプローチは、対象のグレースケール画像に対して可視色を提供するために、参照画像に依存する。
本研究では,グローバルな画像スタイルとセマンティックな色の両方をグレースケールに転送するセマンティック・スパースカラー化ネットワーク(SSCN)を提案する。
我々のネットワークは、あいまいなマッチング問題を緩和しつつ、グローバルカラーとローカルカラーのバランスを完全にとることができる。
論文 参考訳(メタデータ) (2021-12-02T15:35:10Z) - Learning to Structure an Image with Few Colors [59.34619548026885]
そこで,カラー量子化ネットワークであるColorCNNを提案する。
1ビットのカラースペース(すなわち2色)だけで、提案されたネットワークはCIFAR10データセット上で82.1%のトップ-1の精度を達成した。
アプリケーションの場合、PNGでエンコードされた場合、提案したカラー量子化は、極低ビットレート方式の他の画像圧縮方法よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-03-17T17:56:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。