論文の概要: AnyMod-LLVE: Low-Light Video Enhancement with Modality-Agnostic Inference
- arxiv url: http://arxiv.org/abs/2606.11186v1
- Date: Tue, 09 Jun 2026 17:59:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-10 15:40:58.663492
- Title: AnyMod-LLVE: Low-Light Video Enhancement with Modality-Agnostic Inference
- Title(参考訳): AnyMod-LLVE: Modality-Agnostic Inferenceによる低照度ビデオ強調
- Authors: Hangfeng Liang, Yutao Hu, Yanhan Hu, Xiaohan Wu, Wenqi Shao, Ying Fu,
- Abstract要約: 低照度映像強調(LLVE)は、低照度条件下での深刻な情報劣化のため、依然として困難な課題である。
近年のマルチモーダルアプローチでは,イベントストリームや赤外線画像などの補助的なモダリティを取り入れることで,改善性能が著しく向上している。
LLVEのための統一マルチモーダルフレームワークであるAMNetを提案し、フレキシブルなモダリティに依存しない推論をサポートする。
- 参考スコア(独自算出の注目度): 29.511379324319282
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Low-light video enhancement (LLVE) remains a challenging task due to severe information degradation under low-illumination conditions. Recent multimodal approaches have significantly improved enhancement performance by incorporating auxiliary modalities, such as event streams and infrared images. However, these methods typically assume the availability of these modalities at inference, which is often not feasible in real-world scenarios. To solve this problem, in this work, we propose AMNet, a unified multimodal framework for LLVE, to support flexible modality-agnostic inference, where auxiliary modalities may be unavailable. To address the issue of modality absence, we introduce a Spatial-Spectral Dual-Gated Translator that learns the correspondence between auxiliary modalities and RGB inputs, producing implicit auxiliary representations to support the robust enhancement. Additionally, to fully facilitate the learning of cross-modal correspondence, we conduct large-scale multimodal pretraining based on the RGB-only dataset with synthetic auxiliary modalities. Extensive experiments demonstrate that AMNet could handle arbitrary inference-time modality combinations and exhibits superior performance for LLVE under modality absence conditions. Code and models are available on the project page.
- Abstract(参考訳): 低照度映像強調(LLVE)は、低照度条件下での深刻な情報劣化のため、依然として困難な課題である。
近年のマルチモーダルアプローチでは,イベントストリームや赤外線画像などの補助的なモダリティを取り入れることで,改善性能が著しく向上している。
しかし、これらの手法は一般的に、現実のシナリオでは実現不可能なこれらのモダリティを推論時に利用できると仮定する。
この問題を解決するため,我々はLLVE用の統一マルチモーダルフレームワークであるAMNetを提案する。
モダリティの欠如に対処するため、補助モダリティとRGB入力の対応を学習する空間スペクトルデュアルゲートトランスレータを導入し、ロバストな拡張を支援するために暗黙の補助表現を生成する。
さらに, クロスモーダル対応の学習を円滑に行うために, RGBのみのデータセットに基づく大規模マルチモーダル事前学習を行う。
広範囲な実験により、AMNetは任意の推論時モダリティの組み合わせを扱えることを示し、モダリティのない条件下ではLLVEに優れた性能を示す。
コードとモデルはプロジェクトページで公開されている。
関連論文リスト
- Modality-Agnostic Prompt Learning for Multi-Modal Camouflaged Object Detection [61.36976558603528]
本稿では,Segment Anything Model(SAM)のためのモダリティに依存しないマルチモーダルプロンプトを生成する新しいフレームワークを提案する。
具体的には,データ駆動型コンテンツドメインと知識駆動型プロンプトドメインとのインタラクションを通じて,マルチモーダル学習をモデル化する。
さらに,微粒なプロンプトキューを組み込むことで,粗い予測をキャリブレーションする軽量マスクリファインモジュールを導入する。
論文 参考訳(メタデータ) (2026-04-14T07:13:28Z) - Learning Progressive Adaptation for Multi-Modal Tracking [67.50696675353451]
マルチモーダルトラッカーは通常、パラメータ効率の良い微調整モジュールを備えた事前訓練されたRGBモデルを採用することで構築される。
この問題に対処するため,マルチモーダルトラッキング(PATrack)のためのプログレッシブ・アダプタ(Progressive Adaptation)を提案する。
この革新的なアプローチは、モダリティに依存し、モダリティに絡み合った、タスクレベルのアダプタを取り入れ、マルチモーダルデータにRGB事前学習ネットワークを適用する際のギャップを効果的に埋める。
論文 参考訳(メタデータ) (2026-03-22T07:25:54Z) - Parameter-Efficient Modality-Balanced Symmetric Fusion for Multimodal Remote Sensing Semantic Segmentation [8.840077295284393]
MoBaNetはパラメータ効率とモダリティバランスを持つ対称核融合フレームワークである。
ほとんど凍結されたVFMバックボーン上に構築されたMoBaNetは、一般化可能な表現を維持するために対称なデュアルストリームアーキテクチャを採用している。
ISPRS VaihingenとPotsdamベンチマークの実験は、MoBaNetが最先端のパフォーマンスを達成することを示した。
論文 参考訳(メタデータ) (2026-03-18T13:23:58Z) - Generalizing Large Language Model Usability Across Resource-Constrained [0.43512163406552007]
論文は、現実世界の制約下での大規模言語モデルを一般化するための体系的な研究である。
まず、LLMが多様なモダリティをシームレスに統合することを可能にする、堅牢なテキスト中心アライメントフレームワークを導入する。
マルチモーダル設定以外にも、この論文はLLMの推論時間最適化戦略を研究している。
論文 参考訳(メタデータ) (2025-05-13T01:00:12Z) - InvFussion: Bridging Supervised and Zero-shot Diffusion for Inverse Problems [76.39776789410088]
この研究は、教師付きアプローチの強いパフォーマンスとゼロショットメソッドの柔軟性を組み合わせたフレームワークを導入している。
新規なアーキテクチャ設計では、分解演算子を直接デノイザにシームレスに統合する。
FFHQとImageNetデータセットの実験結果は、最先端の後方サンプリング性能を示している。
論文 参考訳(メタデータ) (2025-04-02T12:40:57Z) - Enhancing Unimodal Latent Representations in Multimodal VAEs through Iterative Amortized Inference [20.761803725098005]
マルチモーダル変分オートエンコーダ(VAE)は、異なるデータモダリティからの情報を統合することで、共有潜在表現をキャプチャすることを目的としている。
重要な課題は、あらゆる可能なモダリティの組み合わせに対して、非現実的な数の推論ネットワークを訓練することなく、任意のモダリティのサブセットから正確に表現を推論することである。
本稿では,マルチモーダルVAEフレームワーク内での反復的改善機構であるマルチモーダル反復補正推論を導入する。
論文 参考訳(メタデータ) (2024-10-15T08:49:38Z) - Towards Multimodal Video Paragraph Captioning Models Robust to Missing Modality [26.55645677311152]
ビデオキャプション(VPC)は、長いビデオのための詳細な物語を生成する。
既存のモデルは、1つの補助モダリティの一定の可用性の仮定によって制約される。
本稿では, 利用可能な全ての補助入力を有効活用し, 一定のモダリティがなくてもレジリエンスを維持する, ミス・抵抗性フレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-28T08:35:46Z) - CREMA: Generalizable and Efficient Video-Language Reasoning via Multimodal Modular Fusion [58.15403987979496]
CREMAは、ビデオ推論のための一般化可能、高効率、モジュラリティ融合フレームワークである。
本稿では,軽量核融合モジュールとモーダリティ・シークエンシャル・トレーニング・ストラテジーによって支援された,新しいプログレッシブ・マルチモーダル・フュージョン設計を提案する。
ビデオQA や Video-Audio/3D/Touch/Thermal QA を含む7つのビデオ言語推論タスクについて検証を行った。
論文 参考訳(メタデータ) (2024-02-08T18:27:22Z) - Exploiting modality-invariant feature for robust multimodal emotion
recognition with missing modalities [76.08541852988536]
我々は、欠落したモダリティ・イマジネーション・ネットワーク(IF-MMIN)に不変な特徴を用いることを提案する。
提案モデルは,不確実なモダリティ条件下で,すべてのベースラインを上回り,全体の感情認識性能を不変に向上することを示す。
論文 参考訳(メタデータ) (2022-10-27T12:16:25Z) - Robust Latent Representations via Cross-Modal Translation and Alignment [36.67937514793215]
ほとんどのマルチモーダル機械学習手法では、トレーニングに使用されるすべてのモダリティをテストに利用する必要がある。
この制限に対処するため、トレーニング中のみに複数のモーダルを用いてユニモーダルシステムのテスト性能を向上させることを目的としている。
提案するマルチモーダルトレーニングフレームワークは、クロスモーダル変換と相関に基づく潜在空間アライメントを用いる。
論文 参考訳(メタデータ) (2020-11-03T11:18:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。