論文の概要: CSFlow: Aligning Flow Matching with Human Contrast Sensitivity
- arxiv url: http://arxiv.org/abs/2606.08833v1
- Date: Sun, 07 Jun 2026 20:52:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:06.47504
- Title: CSFlow: Aligning Flow Matching with Human Contrast Sensitivity
- Title(参考訳): CSFlow:人間のコントラスト感度にマッチするフローの調整
- Authors: Malgorzata Galinska, Bart Pogodzinski, Jan Eric Lenssen,
- Abstract要約: 本稿では,人間の眼のContrast Sensitive Function(CSF)をフローマッチングの反復的認知ステップに接続する重み付け方式であるContrast Sensitive Flow(CSFlow)を紹介する。
CSFlowの重みが視覚的リアリズムを向上させ、生成した画像のマンガ的な外観を損なうことがわかりました。
- 参考スコア(独自算出の注目度): 13.378950543360752
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce Contrast Sensitive Flow (CSFlow), a weighting scheme that connects the human eye's Contrast Sensitivity Function (CSF) to the iterative denoising steps of flow matching. Because real-world images concentrate signal at low spatial frequencies, these components reach high signal-to-noise ratio earlier during continuous diffusion than high-frequency components. When generating images with diffusion or flow matching models, this induces a soft autoregressive structure in Fourier space, where coarse image content stabilizes before fine detail. Meanwhile, the human visual system is unequally sensitive to spatial frequencies: very low and very high frequencies require significantly higher contrast to be perceived. We for the first time merge these observations through two contributions: (1) a metric that estimates which frequencies are generated at each reverse flow interval and (2) timestep weights obtained by aligning the frequencies generated at each noise level with human contrast sensitivity. We validate our contributions experimentally showing that these weights can improve generative performance by lowering FID by 4.7%, increasing Inception Score by 2.2% and improving GenEval scores by 2.5% using inference-only timestep modification or short fine-tuning. Qualitatively, we find that our CSFlow weights lead to better visual realism and less cartoonish appearance of generated images.
- Abstract(参考訳): 本稿では,人間の眼のContrast Sensitive Function(CSF)をフローマッチングの反復的認知ステップに接続する重み付け方式であるContrast Sensitive Flow(CSFlow)を紹介する。
実世界の画像は低空間周波数で信号に集中するため、これらの成分は高周波成分よりも連続拡散中に高い信号対雑音比に達する。
拡散またはフローマッチングモデルで画像を生成する場合、これはフーリエ空間におけるソフトな自己回帰構造を誘導し、粗い画像内容は細部まで安定化する。
一方、人間の視覚系は空間周波数に不平等に敏感であり、非常に低く、非常に高い周波数は知覚されるために非常に高いコントラストを必要とする。
本研究は,(1)逆流間隔で発生する周波数を推定する指標と,(2)騒音レベルで発生する周波数を人間のコントラスト感度に合わせることで得られる時間ステップ重みの2つの寄与により,これらの観測を初めてマージする。
FIDを4.7%減らし、インセプションスコアを2.2%増し、推論のみのタイムステップ修正や短い微調整を用いてGenEvalスコアを2.5%改善することで、これらのウェイトが生成性能を向上させることを実験的に検証した。
質的に見れば、CSFlowの重みが視覚的リアリズムを向上させ、生成した画像のマンガ的な外観を損なうことが分かる。
関連論文リスト
- Frequency-Aware Flow Matching for High-Quality Image Generation [40.59308529513355]
フローマッチングモデルは、現実的な画像生成のための強力なフレームワークとして登場した。
本稿では,周波数認識条件をフローマッチングフレームワークに明示的に組み込んだ周波数認識フローマッチングを提案する。
従来の拡散モデルDiTと流れマッチングモデルSiTをそれぞれ0.79FIDと0.58FIDに上回り、FID1.38の最先端性能を実現する。
論文 参考訳(メタデータ) (2026-04-16T21:00:41Z) - V-Co: A Closer Look at Visual Representation Alignment via Co-Denoising [65.5867130156805]
統合JTフレームワークにおける視覚的コデノゲーションの体系的研究であるV-Coについて述べる。
本研究は,視覚的コデノジングを効果的に行うための4つの重要な要素を明らかにする。
V-Coは、基礎となる画素空間拡散ベースラインと強い前の画素拡散法より優れている。
論文 参考訳(メタデータ) (2026-03-17T17:01:54Z) - DeCo: Frequency-Decoupled Pixel Diffusion for End-to-End Image Generation [93.6273078684831]
より効率的な画素拡散パラダイムを追求するために,周波数デカップリング方式の画素拡散フレームワークを提案する。
高速・低周波成分の生成を分離する直感によって, セマンティックガイダンスに基づく高周波細部を生成するために, 軽量画素デコーダを利用する。
実験の結果,DeCoは1.62 (256x256) と2.22 (512x512) の FID を実現した。
論文 参考訳(メタデータ) (2025-11-24T17:59:06Z) - Learning Multi-scale Spatial-frequency Features for Image Denoising [58.883244886588336]
本稿では,マルチスケール適応型デュアルドメインネットワーク(MADNet)を提案する。
画像ピラミッド入力を用いて低解像度画像からノイズのない結果を復元する。
高周波情報と低周波情報の相互作用を実現するために,適応型空間周波数学習ユニットを設計する。
論文 参考訳(メタデータ) (2025-06-19T13:28:09Z) - FUSE: Label-Free Image-Event Joint Monocular Depth Estimation via Frequency-Decoupled Alignment and Degradation-Robust Fusion [92.4205087439928]
画像強調共同深度推定法は、頑健な知覚に相補的なモダリティを利用するが、一般化可能性の課題に直面している。
自己監督型転送(PST)と周波数デカップリング型フュージョンモジュール(FreDF)を提案する。
PSTは、画像基盤モデルとの遅延空間アライメントによるクロスモーダルな知識伝達を確立し、データ不足を効果的に軽減する。
FreDFは、低周波構造成分から高周波エッジ特性を明示的に分離し、モード比周波数ミスマッチを解消する。
この組み合わせのアプローチにより、FUSEはターゲットデータセットに対する軽量デコーダ適応のみを必要とするユニバーサルなイメージイベントを構築することができる。
論文 参考訳(メタデータ) (2025-03-25T15:04:53Z) - Frequency Domain Enhanced U-Net for Low-Frequency Information-Rich Image Segmentation in Surgical and Deep-Sea Exploration Robots [34.28684917337352]
CNNと人間の視覚系における周波数帯域感度の差について検討する。
本稿では、生体視覚機構にインスパイアされたウェーブレット適応スペクトル融合(WASF)法を提案する。
我々は SAM2 のバックボーンネットワークを利用する FE-UNet モデルを開発し, セグメンテーション精度を確保するために細調整した Hiera-Large モジュールを組み込んだ。
論文 参考訳(メタデータ) (2025-02-06T07:24:34Z) - Low-Light Enhancement in the Frequency Domain [24.195131201768096]
低照度画像には、可視性、高密度ノイズ、偏光色がよく見られる。
周波数領域で学習した新しい残差多重ウェーブレット畳み込みニューラルネットワークR2-MWCNNを提案する。
このエンドツーエンドのトレーニング可能なネットワークは、マルチレベル離散ウェーブレット変換を使用して入力特徴写像を異なる周波数に分割し、より優れたノイズの影響をもたらす。
論文 参考訳(メタデータ) (2023-06-29T08:39:34Z) - Noise-based Enhancement for Foveated Rendering [10.124827218817439]
フェーベレートレンダリングと呼ばれる新しい画像合成技術は、この観測を利用して、周囲の合成画像の空間分解能を低下させる。
この特定の周波数範囲を効率的にプロシージャノイズに置き換えることが実証された。
我々の主な貢献は、拡張と校正に必要なノイズのパラメータを導出する知覚にインスパイアされた技法である。
論文 参考訳(メタデータ) (2022-04-09T12:00:28Z) - Exploring Inter-frequency Guidance of Image for Lightweight Gaussian
Denoising [1.52292571922932]
本稿では,周波数帯域を低域から高域に漸進的に洗練するために,IGNetと呼ばれる新しいネットワークアーキテクチャを提案する。
この設計では、より周波数間先行と情報を利用するため、モデルサイズは軽量化でき、競争結果も維持できる。
論文 参考訳(メタデータ) (2021-12-22T10:35:53Z) - Focal Frequency Loss for Image Reconstruction and Synthesis [125.7135706352493]
周波数領域の狭さが画像再構成と合成品質をさらに改善できることを示す。
本稿では,合成が難しい周波数成分に適応的に焦点を合わせることのできる,新しい焦点周波数損失を提案する。
論文 参考訳(メタデータ) (2020-12-23T17:32:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。