論文の概要: Enhancing Pathological VLMs with Cross-scale Reasoning
- arxiv url: http://arxiv.org/abs/2606.17412v2
- Date: Wed, 17 Jun 2026 02:08:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-18 13:57:35.213484
- Title: Enhancing Pathological VLMs with Cross-scale Reasoning
- Title(参考訳): クロススケール推論による病的VLMの強化
- Authors: Chi Phan, Tianyi Zhang, Qiaochu Xue, Yufeng Wu, Dan Hu, Zeyu Liu, Sudong Wang, Yueming Jin,
- Abstract要約: 病理画像は本質的にマルチスケールであり、病理学者は、低倍率で地球規模の組織構造から高倍率で細胞形態まで、正確な診断のために証拠を統合する必要がある。
既存の視覚言語モデル(VLM)の病理データセットには様々なスケールがあるが、明示的なクロススケール推論の目的はない。
本稿では,病理学の解釈を多変量化推論として定式化する,最初のクロススケールトレーニングと評価パラダイムを紹介する。
- 参考スコア(独自算出の注目度): 16.185615513686532
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pathological images are inherently multi-scale, requiring pathologists to integrate evidence from global tissue architecture at low magnification to cellular morphology at higher magnification for accurate diagnosis. While existing pathological datasets for vision-language model (VLM) include various scales, they often lack an explicit cross-scale reasoning objective. This limitation prevents VLMs from capturing essential cross-scale representations and learning evidence-based reasoning. To bridge this gap, we introduce the first cross-scale training and evaluation paradigm that formulates pathology interpretation as multi-magnification reasoning. However, creating such a task reveals a critical challenge: multi-image visual question answering (VQA) is prone to text-only shortcuts, which allow models to guess answers using magnification-dependent artifacts rather than visual evidence. To address this, we propose a leakage-aware curation pipeline that combines adversarial text-only screening with constraint-guided question design. Using this pipeline, we construct Scale-VQA, a high-quality benchmark with 4,685 multiple-choice questions grounded in 2,537 pathology images across multiple magnification levels. Finally, we present ScaleReasoner-R1, a model trained via reinforcement learning to optimize performance on the cross-scale VQA task. ScaleReasoner-R1 achieves state-of-the-art performance on our cross-scale reasoning benchmark and generalizes to SOTA performance on established single-scale benchmarks. Findings suggest that even the limited cross-scale supervision can significantly improve pathological understanding. The code and demos will be open-sourced.
- Abstract(参考訳): 病理画像は本質的にマルチスケールであり、病理学者は、低倍率で地球規模の組織構造から高倍率で細胞形態まで、正確な診断のために証拠を統合する必要がある。
既存の視覚言語モデル(VLM)の病理データセットには様々なスケールが含まれているが、しばしば明示的なクロススケール推論の目的が欠落している。
この制限は、VLMが重要なクロススケール表現をキャプチャし、エビデンスに基づく推論を学ぶのを防ぐ。
このギャップを埋めるために,病理学の解釈を多量化推論として定式化する,最初のクロススケールトレーニングと評価パラダイムを導入する。
マルチイメージの視覚的質問応答(VQA)は、テキストのみのショートカットの傾向があるため、モデルが視覚的証拠ではなく、拡大に依存した成果物を使って答えを推測することができる。
そこで本稿では,敵対的テキストのみのスクリーニングと制約付き質問設計を組み合わせた,リーク対応のキュレーションパイプラインを提案する。
このパイプラインを用いて,2,537の病理像から得られた4,685の多重選択質問を用いた高品質なベンチマークであるScale-VQAを構築した。
最後に、クロススケールVQAタスクの性能を最適化するために強化学習を用いて訓練されたモデルであるScaleReasoner-R1を紹介する。
ScaleReasoner-R1は、我々のクロススケール推論ベンチマークで最先端のパフォーマンスを達成し、確立された単一スケールベンチマークでSOTAパフォーマンスに一般化する。
研究結果から, クロススケール監視の限界さえも, 病理学的理解を著しく向上させる可能性が示唆された。
コードとデモはオープンソースになる予定だ。
関連論文リスト
- PixDLM: A Dual-Path Multimodal Language Model for UAV Reasoning Segmentation [71.53011159355401]
推論セグメンテーションは地上のシーンからリモートセンシング画像へと拡張されているが、UAVデータは異なる課題を提起している。
UAV推論タスクを定義し,そのセマンティック要件を3次元(空間,属性,シーンレベルの推論)に整理する。
DRSegはUAV推論セグメンテーションのための大規模ベンチマークであり、Chain-of-Thought QA監督と組み合わせた10kの高解像度空中画像を含む。
論文 参考訳(メタデータ) (2026-04-17T03:48:56Z) - Context-Aware Asymmetric Ensembling for Interpretable Retinopathy of Prematurity Screening via Active Query and Vascular Attention [1.8420107091891775]
未熟児網膜症(ROP:Retinopathy of Prematurity)は、小児期盲症の主要な原因の一つである。
現在のディープラーニングモデルは、大きなプライベートデータセットとパッシブマルチモーダル融合に大きく依存している。
本研究では,2つの専門ストリームによる臨床推論をシミュレートする文脈認識非対称アンサンブルモデル(CAAアンサンブル)を提案する。
論文 参考訳(メタデータ) (2026-02-05T02:06:26Z) - Anatomy-R1: Enhancing Anatomy Reasoning in Multimodal Large Language Models via Anatomical Similarity Curriculum and Group Diversity Augmentation [52.7583577508452]
MLLM(Multimodal Large Language Models)は自然画像推論において顕著な進歩を遂げている。
医用画像におけるその潜在性は、特に臨床解剖学的外科画像では未発見のままである。
これらの課題は、従来のSupervised Fine-Tuning戦略の有効性を制限する。
論文 参考訳(メタデータ) (2025-12-22T16:06:36Z) - A Semantically Enhanced Generative Foundation Model Improves Pathological Image Synthesis [82.01597026329158]
本稿では,組織合成のための相関調整フレームワーク(CRAFTS)について紹介する。
CRAFTSは、生物学的精度を確保するためにセマンティックドリフトを抑制する新しいアライメント機構を組み込んでいる。
本モデルは,30種類の癌にまたがる多彩な病理像を生成する。
論文 参考訳(メタデータ) (2025-12-15T10:22:43Z) - Navigating Gigapixel Pathology Images with Large Multimodal Models [0.649324006529432]
汎用大規模マルチモーダルモデル(LMM)は、一般的に医療画像の解釈において不十分または不確定な性能を示している。
病理医のように,LMMが画像全体を反復的にナビゲートできる最初のフレームワークであるgigapixel Image Agent for Navigating tissue (GIANT)を紹介した。
我々はMultiPathQAを用いて,従来のパッチやサムネイルベースのベースラインよりもはるかに優れたエージェントシステムを示す。
論文 参考訳(メタデータ) (2025-11-24T19:33:56Z) - A Hybrid CNN-VSSM model for Multi-View, Multi-Task Mammography Analysis: Robust Diagnosis with Attention-Based Fusion [5.15423063632115]
乳がんの早期かつ正確な検診は乳がん検出に不可欠である。
既存のAIアプローチは、単一ビューのインプットや単一タスクのアウトプットに注目して、不足している。
本研究では,4つの標準マンモグラフィビュー全てを処理する,新しいマルチビュー・マルチタスクハイブリッドディープラーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-22T18:52:18Z) - PathVLM-R1: A Reinforcement Learning-Driven Reasoning Model for Pathology Visual-Language Tasks [15.497221591506625]
病理画像に特化して設計された視覚言語モデルPathVLM-R1を提案する。
我々は,Qwen2.5-VL-7B-インストラクタをベースとして,厳密に設計したポストトレーニング戦略により,病理的タスクのパフォーマンスを向上させた。
論文 参考訳(メタデータ) (2025-04-12T15:32:16Z) - Multi-Modal Prompt Learning on Blind Image Quality Assessment [65.0676908930946]
画像品質評価(IQA)モデルは意味情報から大きな恩恵を受け、異なる種類のオブジェクトを明瞭に扱うことができる。
十分な注釈付きデータが不足している従来の手法では、セマンティックな認識を得るために、CLIPイメージテキスト事前学習モデルをバックボーンとして使用していた。
近年のアプローチでは、このミスマッチに即時技術を使って対処する試みがあるが、これらの解決策には欠点がある。
本稿では、IQAのための革新的なマルチモーダルプロンプトベースの手法を提案する。
論文 参考訳(メタデータ) (2024-04-23T11:45:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。