論文の概要: Scalable Training of Spatially Grounded 2D Vision-Language Models for Radiology
- arxiv url: http://arxiv.org/abs/2606.20477v2
- Date: Fri, 19 Jun 2026 13:04:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-23 13:41:31.041907
- Title: Scalable Training of Spatially Grounded 2D Vision-Language Models for Radiology
- Title(参考訳): 放射線学のための空間接地2次元視覚空間モデルのスケーラブルな訓練
- Authors: Yusuf Salcan, Simon Ging, Robin Tibor Schirrmeister, Philipp Arnold, Elmar Kotter, Behzad Bozorgtabar, Thomas Brox,
- Abstract要約: 手動の空間アノテーションを使わずに放射線学のための視覚接地型視覚言語モデル(VLM)の訓練方法を検討する。
本稿では、1.2M CTとMR画像テキストペアからなる大規模バイリンガル(ドイツ語/英語)データセットRefRad2Dを紹介する。
我々のモデルRaderは、共同でレポート生成、視覚的質問応答、空間的接地を行う。
- 参考スコア(独自算出の注目度): 24.605909151554613
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study how to train visually grounded vision-language models (VLMs) for radiology without manual spatial annotations. We introduce RefRad2D, a large-scale bilingual (German/English) dataset of 1.2M CT and MR image-text pairs derived from clinical practice, with task-specific VQA and spatial grounding subsets generated automatically via LLM-based curation and automated segmentation. Trained on this data, our model RadGrounder jointly performs report generation, visual question answering, and spatial grounding via bounding-box detection or segmentation. On external VQA benchmarks (Slake, VQA-RAD), RadGrounder achieves competitive results with specialized medical VLMs. Adding our clinical data to the training mixture improves open-ended VQA over fine-tuning on the downstream datasets alone, showing the transferability of our dataset. Crucially, adding grounding supervision does not degrade language quality, enabling spatially verifiable outputs at no cost to VQA performance.
- Abstract(参考訳): 手動の空間アノテーションを使わずに放射線学のための視覚接地型視覚言語モデル(VLM)の訓練方法を検討する。
本稿では, 大規模バイリンガル(ドイツ語/英語)データセットであるRefRad2Dを紹介し, LLMベースのキュレーションと自動セグメンテーションにより, タスク固有のVQAと空間接地サブセットを自動生成する。
このデータに基づいて、我々のモデルRadGrounderは、バウンディングボックス検出やセグメンテーションによるレポート生成、視覚的質問応答、空間接地を共同で行う。
外部のVQAベンチマーク(Slake, VQA-RAD)では、RadGrounderは専門の医療用VLMと競合する結果を得る。
トレーニングミックスに臨床データを追加することで、下流データセットのみを微調整することで、オープンエンドのVQAが改善され、データセットの転送可能性を示す。
重要な点として、接地監督を追加することは言語品質を劣化させることなく、空間的に検証可能な出力をVQA性能に犠牲にすることができる。
関連論文リスト
- VISTA: Vision-Grounded and Physics-Validated Adaptation of UMI data for VLA Training [52.05483137072975]
Universal Manipulation Interface (UMI)は、ハードウェア固有の遠隔操作なしでスケーラブルな実世界のロボットデータ収集を可能にする。
VISTAは、この2つのギャップを3つの相乗的コンポーネントを通して橋渡しするフレームワークである。
我々は,物理検証パイプライン,UMI-VQA,検証された軌道データ,コミュニティのための事前学習モデルをリリースする。
論文 参考訳(メタデータ) (2026-06-03T10:38:45Z) - STVG-R1: Incentivizing Instance-Level Reasoning and Grounding in Videos via Reinforcement Learning [65.36458157092207]
視覚言語モデル(VLM)では、テキスト記述と視覚座標のミスアライメントはしばしば幻覚を引き起こす。
本稿では,座標の調整が難しい問題を回避するために,新しい視覚的プロンプトパラダイムを提案する。
本稿では,STVGの最初の強化学習フレームワークであるSTVG-R1を紹介する。
論文 参考訳(メタデータ) (2026-02-12T08:53:32Z) - SITUATE -- Synthetic Object Counting Dataset for VLM training [0.0]
本稿では,視覚言語モデルの訓練と評価を目的とした新しいデータセットであるSITUATEを提案する。
このデータセットは、VLMCountBenchのような単純な2Dデータセットと、TallyQAのようなあいまいな実生活データセットとのギャップを埋める。
論文 参考訳(メタデータ) (2026-01-26T16:17:53Z) - MedGround: Bridging the Evidence Gap in Medical Vision-Language Models with Verified Grounding Data [32.65971100171597]
セグメンテーションリソースを高品質な医療参照基盤データに変換する自動パイプラインであるMedGroundを紹介する。
我々はまた、MedGround-35Kという新しいマルチモーダル医療データセットを提示する。
論文 参考訳(メタデータ) (2026-01-11T10:34:18Z) - S-Chain: Structured Visual Chain-of-Thought For Medicine [81.97605645734741]
S-Chainは,有界ボックスと構造化ビジュアルCoT(SV-CoT)を備えた,12,000のエキスパートアノテートされた医用画像の最初の大規模データセットである。
データセットはさらに16言語をサポートし、幅広い多言語適用性のための合計700万VQAペアをサポートする。
S-Chainは、根拠のある医療推論のための新しいベンチマークを確立し、より信頼性が高く説明可能な医療ビジョン言語モデルへの道を開く。
論文 参考訳(メタデータ) (2025-10-26T15:57:14Z) - RadVLM: A Multitask Conversational Vision-Language Model for Radiology [16.91934682353275]
本稿では,CXR解釈のためのコンパクトなマルチタスク対話基盤モデルRadVLMを提案する。
以上の結果から,RadVLMは対話能力と視覚的グラウンドニングにおいて最先端の性能を達成することが示唆された。
これらの知見は、臨床的に関連するAIアシスタントとしてのRadVLMの可能性を強調している。
論文 参考訳(メタデータ) (2025-02-05T16:27:02Z) - Learning Visual Grounding from Generative Vision and Language Model [29.2712567454021]
ビジュアルグラウンドタスクは、自然言語参照に基づいて画像領域をローカライズすることを目的としている。
生成的VLMには基底知識がすでに存在しており、適切なプロンプトによって引き起こすことができる。
本研究は,実世界における視覚的接地を拡大するための生成型VLMの可能性を実証するものである。
論文 参考訳(メタデータ) (2024-07-18T20:29:49Z) - Vision-Language Modelling For Radiological Imaging and Reports In The
Low Data Regime [70.04389979779195]
本稿では,視覚および言語入力を共通空間に埋め込んだ医用視覚言語モデル(VLM)について検討する。
本稿では,新しい画像領域やテキスト領域への汎用事前学習モデルの適用など,低データ性能向上のためのいくつかの候補手法について検討する。
テキスト・ツー・イメージ検索をベンチマークとして,2つの胸部X線および放射線学的報告を用いた可変サイズのトレーニングデータセットを用いて,これらの手法の性能評価を行った。
論文 参考訳(メタデータ) (2023-03-30T18:20:00Z) - Unified Visual Relationship Detection with Vision and Language Models [89.77838890788638]
この研究は、複数のデータセットからラベル空間の結合を予測する単一の視覚的関係検出器のトレーニングに焦点を当てている。
視覚と言語モデルを活用した統合視覚関係検出のための新しいボトムアップ手法UniVRDを提案する。
人物体間相互作用検出とシーングラフ生成の双方による実験結果から,本モデルの競合性能が示された。
論文 参考訳(メタデータ) (2023-03-16T00:06:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。