論文の概要: Tool-IQA: Augmenting Image Quality Assessment with Simple Tools
- arxiv url: http://arxiv.org/abs/2606.16082v1
- Date: Mon, 15 Jun 2026 00:47:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-16 16:21:34.023673
- Title: Tool-IQA: Augmenting Image Quality Assessment with Simple Tools
- Title(参考訳): Tool-IQA: シンプルなツールによる画像品質評価の強化
- Authors: Guanyi Qin, Junjie Zhang, Chunming He, Yibing Fu, Jie Liang, Tianhe Wu, Lei Zhang,
- Abstract要約: VLM(Vision-Language Models)は画像品質評価(IQA)に採用されている。
本稿では,評価機構を受動的スコアリングからツール拡張ワークフローへシフトするツールIQAを提案する。
提案するツールIQAは,既存の最先端モデルよりも大幅に優れている。
- 参考スコア(独自算出の注目度): 17.03478604082667
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Vision-Language Models (VLMs) have been increasingly adopted for Image Quality Assessment (IQA). However, current methods typically employ a static one-shot scoring paradigm, despite the fact that humans assess image quality through dynamic visual inspection, e.g., selectively adjusting views to verify details and subtle artifacts. Specifically, relying solely on a single-pass observation introduces two primary limitations: first, perceiving the image only at a global scale restricts the assessment of finer local details; second, the original intensity distribution of the image may overwhelm the visibility, leading to insufficient inspection of image quality. To address these issues, we propose Tool-IQA, shifting the assessment mechanism from passive scoring to a tool-augmented workflow. In particular, we equip VLMs with simple yet effective view tools: a Magnifier to inspect local details, and a Gamma Corrector to uncover visibility and hidden artifacts. The assessment follows a structured pipeline that consists of an initial observation with rubric notes, a tool-augmented in-depth inspection, and a final quantification for calibrated quality score. Furthermore, to ensure efficient and purposeful tool callings, we introduce a batch-aware training strategy to reward tool interactions that can yield positive contributions rather than simply encouraging usage. Experiments on a variety of IQA benchmarks demonstrate that, with effective tool calling and calibrated assessment, our proposed Tool-IQA significantly outperforms existing state-of-the-art models, e.g., it achieves a PLCC of 0.854 on the challenging CLIVE dataset.
- Abstract(参考訳): VLM(Vision-Language Models)は画像品質評価(IQA)に採用されている。
しかしながら、現在の手法では、人間がダイナミックな視覚検査によって画像の品質を評価するという事実にもかかわらず、静的なワンショットスコアリングパラダイムが採用されている。
具体的には、単一パスの観測のみに依存することには、2つの主要な制限が伴う: まず、世界規模でのみ画像を認識することは、より微細な局所的な詳細の評価を制限する。
これらの問題に対処するため,評価機構を受動的スコアリングからツール拡張ワークフローへシフトするツールIQAを提案する。
特に、VLMには、ローカルの詳細を検査するMagnifierと、可視性と隠されたアーティファクトを明らかにするGamma Correctorという、シンプルで効果的なビューツールが備わっている。
評価は、ルーブリックノートによる最初の観測、ツール強化されたインディープス検査、調整された品質スコアの最終的な定量化からなる構造化パイプラインに従う。
さらに,ツールコールの効率性と目的性を確保するため,ツールインタラクションに報奨を与えるためのバッチ対応のトレーニング戦略を導入する。
様々なIQAベンチマークの実験により、有効なツールコールと校正評価により、提案したツール-IQAは既存の最先端モデル、例えば、挑戦的なCLIVEデータセット上でのPLCCの0.854を著しく上回っていることが示された。
関連論文リスト
- Q-DeepSight: Incentivizing Thinking with Images for Image Quality Assessment and Refinement [58.15004031934379]
我々は、この人間のようなプロセスをエミュレートする思考とイメージのフレームワークであるQ-DeepSightを提案する。
Q-DeepSightは、自然、復元、AI生成コンテンツなど、さまざまなベンチマークで最先端のパフォーマンスを実現している。
本稿では,Q-DeepSight の診断が反復画像強調を導くトレーニングフリーフレームワークであるPerceptual-in-Generation (PiG) を用いて,その実用的価値を示す。
論文 参考訳(メタデータ) (2026-04-18T06:10:57Z) - Q-Insight: Understanding Image Quality via Visual Reinforcement Learning [27.26829134776367]
画像品質評価(IQA)は、画像の知覚的視覚的品質に焦点を当て、画像再構成、圧縮、生成などの下流タスクにおいて重要な役割を果たす。
グループ相対ポリシー最適化(GRPO)に基づく強化学習に基づくモデルQ-Insightを提案する。
評価結果から,Q-Insightは,評価結果の回帰と劣化知覚の両面において,既存の最先端手法を大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2025-03-28T17:59:54Z) - DP-IQA: Utilizing Diffusion Prior for Blind Image Quality Assessment in the Wild [73.6767681305851]
野生のブラインド画像品質評価(IQA)は重大な課題を呈している。
大規模なトレーニングデータの収集が困難であることを考えると、厳密な一般化モデルを開発するために限られたデータを活用することは、未解決の問題である。
事前訓練されたテキスト・ツー・イメージ(T2I)拡散モデルの堅牢な画像認識能力により,新しいIQA法,拡散先行に基づくIQAを提案する。
論文 参考訳(メタデータ) (2024-05-30T12:32:35Z) - Descriptive Image Quality Assessment in the Wild [25.503311093471076]
VLMに基づく画像品質評価(IQA)は、画像品質を言語的に記述し、人間の表現に合わせることを目指している。
野生における画像品質評価(DepictQA-Wild)について紹介する。
本手法は,評価タスクと比較タスク,簡潔かつ詳細な応答,完全参照,非参照シナリオを含む多機能IQAタスクパラダイムを含む。
論文 参考訳(メタデータ) (2024-05-29T07:49:15Z) - Blind Multimodal Quality Assessment: A Brief Survey and A Case Study of
Low-light Images [73.27643795557778]
ブラインド画像品質評価(BIQA)は、視覚信号の客観的スコアを自動的に正確に予測することを目的としている。
この分野での最近の発展は、ヒトの主観的評価パターンと矛盾しない一助的解によって支配されている。
主観的評価から客観的スコアへの低照度画像の一意なブラインドマルチモーダル品質評価(BMQA)を提案する。
論文 参考訳(メタデータ) (2023-03-18T09:04:55Z) - No-Reference Image Quality Assessment via Feature Fusion and Multi-Task
Learning [29.19484863898778]
ブラインドまたはノン参照画像品質評価(NR-IQA)は基本的な問題であり、未解決であり、難しい問題である。
マルチタスク学習に基づく簡易かつ効果的な汎用的ノンリフレクション(NR)画像品質評価フレームワークを提案する。
このモデルでは、歪み型と主観的な人間のスコアを用いて画質を推定する。
論文 参考訳(メタデータ) (2020-06-06T05:04:10Z) - Object-QA: Towards High Reliable Object Quality Assessment [71.71188284059203]
オブジェクト認識アプリケーションでは、オブジェクトイメージは通常、異なる品質レベルで表示される。
本稿では,オブジェクト画像の信頼性の高い品質スコアを評価するために,Object-QAという効果的手法を提案する。
論文 参考訳(メタデータ) (2020-05-27T01:46:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。