論文の概要: HDRAgent: An Agentic Framework for Multi-Exposure HDR Imaging
- arxiv url: http://arxiv.org/abs/2606.09110v1
- Date: Mon, 08 Jun 2026 07:00:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:06.780264
- Title: HDRAgent: An Agentic Framework for Multi-Exposure HDR Imaging
- Title(参考訳): マルチ露光HDRイメージングのためのエージェントフレームワークHDRAgent
- Authors: Weiyu Zhou, Tao Hu, Yijian Wang, Xiaogang Xu, Ruixing Wang, Qingsen Yan,
- Abstract要約: 既存の多くのマルチ露光HDR法は、固定フィードフォワード再構成パラダイムに従っており、複雑なダイナミックシーンでゴーストするアーティファクトの傾向が強い。
本稿では,現在のシーン条件に応じて適応的に再構築戦略を選択するHDRAgentを提案する。
実験により、HDRAgentはゴーストや局所的なアーティファクトを効果的に低減し、競争力または優れた客観的パフォーマンスと視覚的品質を達成することが示された。
- 参考スコア(独自算出の注目度): 24.45994058813237
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Most existing multi-exposure HDR methods follow a fixed feed-forward reconstruction paradigm, making them prone to ghosting artifacts in complex dynamic scenes. To address this issue, we propose HDRAgent, the first agent-driven framework for HDR imaging, which adaptively selects reconstruction strategies according to the current scene conditions. Specifically, to provide scene-specific prior knowledge, we introduce a fine-grained contextual knowledge matching (FCM) module. This module leverages multimodal large language model (MLLM)-derived scene perception to retrieve relevant historical cases and tool knowledge, organizing them into structured evidence for MLLM-based adaptive tool scheduling. In addition, we propose a perception--distortion feedback mechanism that transforms post-execution quality assessment and artifact diagnosis into structured feedback, which is accumulated in historical memory to help subsequent contextual knowledge refinement and strategy selection. Furthermore, considering that extreme motion can invalidate alignment methods, we design an agent-guided generative alignment strategy that uses MLLM-based dynamic-region parsing to reconstruct unreliable contents in non-reference frames under reference-frame guidance. Experiments demonstrate that HDRAgent effectively reduces ghosting and local artifacts while achieving competitive or superior objective performance and visual quality.
- Abstract(参考訳): 既存の多くのマルチ露光HDR法は、固定フィードフォワード再構成のパラダイムに従っており、複雑なダイナミックシーンでゴーストするアーティファクトの傾向が強い。
この問題に対処するために,HDRイメージングのための最初のエージェント駆動型フレームワークであるHDRAgentを提案する。
具体的には、シーン固有の事前知識を提供するために、細粒度コンテキスト知識マッチング(FCM)モジュールを導入する。
このモジュールはMLLM(Multimodal large language model)に由来するシーン認識を利用して、関連する歴史的事例とツール知識を検索し、MLLMベースの適応ツールスケジューリングのための構造化されたエビデンスに整理する。
さらに,実行後の品質評価とアーティファクト診断を構造化されたフィードバックに変換する知覚歪みフィードバック機構を提案する。
さらに、極端な動きがアライメントの手法を無効にすることができることを考慮し、MLLMに基づく動的領域解析を用いて参照フレーム誘導の下で非参照フレーム内の信頼できないコンテンツを再構成するエージェント誘導型生成アライメント戦略を設計する。
実験により、HDRAgentはゴーストや局所的なアーティファクトを効果的に低減し、競争力または優れた客観的パフォーマンスと視覚的品質を達成することが示された。
関連論文リスト
- Leveraging Multimodal Large Language Models for All-in-One Image Restoration via a Mixture of Frequency Experts [9.395990800489828]
オールインワン画像復元は、多様な未知の劣化によって影響を受ける入力からクリーン画像の復元を目指している。
近年の手法は, 修復過程を導くために, 劣化特性を同定することによって, 高い性能を示した。
マルチモーダル埋め込みをガイダンスとして利用するマルチモーダル大言語モデル(MLLM)誘導画像復元フレームワークを提案する。
論文 参考訳(メタデータ) (2026-05-12T02:55:05Z) - ReCALL: Recalibrating Capability Degradation for MLLM-based Composed Image Retrieval [64.14282916266998]
Composed Image Retrievalは、参照画像と修正テキストからなるハイブリッドクエリに基づいてターゲット画像を取得することを目的としている。
本稿では,診断・生成・再定義パイプラインに従うモデルに依存しないフレームワークであるReCALLを提案する。
CIRRとFashionIQの実験では、ReCALLは継続的に劣化した機能を再検討し、最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2026-02-02T04:52:54Z) - HDR Image Reconstruction using an Unsupervised Fusion Model [0.0]
高ダイナミックレンジ(露光)イメージングは、自然界に存在する幅広い明るさレベルを再現することを目的としている。
本稿では,HDR画像生成のための深層学習に基づくマルチ露光融合手法を提案する。
論文 参考訳(メタデータ) (2025-10-21T17:43:22Z) - FrameMind: Frame-Interleaved Video Reasoning via Reinforcement Learning [65.42201665046505]
現在のビデオ理解モデルは、各質問の特定の推論条件にかかわらず、固定されたフレームサンプリング戦略に依存し、所定の視覚入力を処理する。
この静的アプローチは、視覚的エビデンスを適応的に収集する能力を制限し、広範囲の時間的カバレッジやきめ細かい空間的詳細を必要とするタスクにおいて、最適以下のパフォーマンスをもたらす。
Frame-Interleaved Chain-of-Thought (FiCOT)を通して、モデルが推論中に視覚情報を動的に要求することを可能にする強化学習で訓練されたエンドツーエンドフレームワークであるFrameMindを紹介する。
従来のアプローチとは異なり、FrameMindは複数のターンで動作し、モデルがテキスト推論とアクティブな視覚知覚を交互に切り替え、ツールを使って抽出する。
論文 参考訳(メタデータ) (2025-09-28T17:59:43Z) - Boosting HDR Image Reconstruction via Semantic Knowledge Transfer [45.738735520776004]
シーン固有のセマンティクスの活用は、高度に劣化したリージョンを復元するための有望なソリューションを提供する。
これらの先行データは、通常、sRGB Standard Dynamic Range (SDR)画像から抽出される。
本稿では,既存のHDR再構築を促進するために,SDRドメインから派生した意味的知識を自己蒸留により伝達する一般的なフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-19T16:01:27Z) - Reti-Diff: Illumination Degradation Image Restoration with Retinex-based
Latent Diffusion Model [59.08821399652483]
照明劣化画像復元(IDIR)技術は、劣化した画像の視認性を改善し、劣化した照明の悪影響を軽減することを目的としている。
これらのアルゴリズムのうち、拡散モデル(DM)に基づく手法は期待できる性能を示しているが、画像レベルの分布を予測する際に、重い計算要求や画素の不一致の問題に悩まされることが多い。
我々は、コンパクトな潜在空間内でDMを活用して、簡潔な指導先を生成することを提案し、IDIRタスクのためのReti-Diffと呼ばれる新しいソリューションを提案する。
Reti-Diff は Retinex-based Latent DM (RLDM) と Retinex-Guided Transformer (RG) の2つの鍵成分からなる。
論文 参考訳(メタデータ) (2023-11-20T09:55:06Z) - HDR Reconstruction from Bracketed Exposures and Events [12.565039752529797]
高品質なHDR画像の再構成は、現代の計算写真の中心にある。
特徴領域におけるブラケット画像とイベントを融合したマルチモーダルなエンドツーエンド学習型HDRイメージングシステムを提案する。
我々のフレームワークは、スライディングウィンドウを使用して入力イベントストリームをサブサンプリングすることで、イベントの時間分解能を高める。
論文 参考訳(メタデータ) (2022-03-28T15:04:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。