論文の概要: UniReason-Med: A Shared Grounded Reasoning Interface for 2D-to-3D Transfer in Medical VQA
- arxiv url: http://arxiv.org/abs/2606.11740v1
- Date: Wed, 10 Jun 2026 07:16:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-11 16:42:38.337983
- Title: UniReason-Med: A Shared Grounded Reasoning Interface for 2D-to-3D Transfer in Medical VQA
- Title(参考訳): UniReason-Med:医療用VQAにおける2次元-3次元移動のための共有接地型推論インタフェース
- Authors: Mengzhuo Chen, Yan Shu, Chi Liu, Hongming Piao, Xidong Wang, Derek Li, Bryan Dai,
- Abstract要約: 豊富な2次元医用画像からの根拠的推論監督が3次元医用VQAを改善するか否かを検討した。
2次元画像またはスライスシリアライズされた3次元ボリュームを推論時に処理する単一チェックポイントフレームワークであるUniReason-Medを紹介する。
- 参考スコア(独自算出の注目度): 13.275458028363566
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study whether grounded reasoning supervision from abundant 2D medical images can improve 3D medical VQA when both input types are aligned through a common reasoning interface. We introduce UniReason-Med, a single-checkpoint framework that processes either a 2D image or a slice-serialized 3D volume at inference time, generating interleaved textual reasoning and localized visual evidence through shared box syntax, region-token injection, and a common grounded reasoning policy. To train this interface, we construct UniMed-CoT, a 220K instruction-tuning dataset with interleaved textual reasoning and grounded visual evidence, including 170K 2D and 50K 3D samples. Through supervised fine-tuning followed by outcome-level reinforcement learning, UniReason-Med learns to generate grounded reasoning traces without IoU/Dice-based localization rewards during RL. Data-mixture and component ablations show that joint 2D+3D grounded supervision substantially improves 3D reasoning over 3D-only training, while grounding and region-token injection consistently benefit both 2D and 3D tasks. These results suggest that a shared grounded reasoning interface can transfer reasoning structure from 2D images to slice-serialized volumetric medical understanding. The code and data are publicly available at https://github.com/IQuestLab/unireason-med.
- Abstract(参考訳): 両入力タイプが共通の推論インタフェースによって整列された場合, 豊富な2次元医用画像からの根拠的推論監督が, 3次元医用VQAを改善するか否かを検討する。
単一チェックポイントフレームワークであるUniReason-Medを導入する。これは2次元画像またはスライスシリアライズされた3次元ボリュームを推論時に処理し、共有ボックス構文、領域トーケンインジェクション、共通基底推論ポリシーを用いて、インターリーブドテキスト推論および局所的視覚的エビデンスを生成する。
このインタフェースをトレーニングするために、UniMed-CoTという220Kのインストラクションチューニングデータセットを構築し、170Kの2Dと50Kの3Dサンプルを含む視覚的証拠を抽出した。
教師付き微調整と結果レベルの強化学習を通じて、UniReason-Medは、RL中にIoU/Diceベースのローカライゼーション報酬を伴わずに、基礎的推論トレースを生成することを学ぶ。
データミキシングとコンポーネントの短縮により、関節2D+3Dグラウンドドインスペクションは3Dのみのトレーニングよりも3D推論を大幅に改善し、グラウンドドインジェクションと領域トケインジェクションは2Dと3Dの両方のタスクに一貫した効果がある。
これらの結果は、2次元画像からスライスシリアライズされたボリューム医学的理解へ推論構造を移すことができることを示唆している。
コードとデータはhttps://github.com/IQuestLab/unireason-med.comで公開されている。
関連論文リスト
- MedVol-R1: Reward-Driven Evidence Grounding for Volumetric Reasoning Segmentation [7.746295603410245]
Volumetric Reasoningは、フリーフォームの臨床クエリから、ターゲット領域を3Dの医療スキャンに分割することを目的としている。
既存の手法は、マスクの復号化と言語を結びつけるための特別なセグメンテーショントークンに依存している。
本稿では,VRSのための強化学習ベースのフレームワークであるMedVol-R1について述べる。
論文 参考訳(メタデータ) (2026-05-26T06:59:19Z) - Training-Free Zero-Shot Anomaly Detection in 3D Brain MRI with 2D Foundation Models [0.0]
3次元脳MRIにおけるZSADのためのフルトレーニングフリーフレームワークについて紹介する。
このフレームワークは, 2次元基礎モデルにより処理された多軸スライスを集約することにより, 局所化ボリュームトークンを構成する。
これらの3Dパッチトークンは、立方体空間コンテキストを復元し、距離ベースでバッチレベルの異常検出パイプラインと直接統合する。
論文 参考訳(メタデータ) (2026-02-17T02:46:45Z) - Unifying 2D and 3D Vision-Language Understanding [85.84054120018625]
2次元および3次元視覚言語学習のための統一アーキテクチャUniVLGを紹介する。
UniVLGは、既存の2D中心モデルと、エンボディシステムで利用可能なリッチな3Dセンサーデータのギャップを埋める。
論文 参考訳(メタデータ) (2025-03-13T17:56:22Z) - Four Ways to Improve Verbo-visual Fusion for Dense 3D Visual Grounding [56.00186960144545]
3Dビジュアルグラウンドティング(3D visual grounding)は、自然言語で記述された3Dシーンでオブジェクトをローカライズするタスクである。
そこで本研究では,高密度な3次元グラウンドネットワークを提案し,グラウンド性能向上を目的とした4つの新しいスタンドアローンモジュールを提案する。
論文 参考訳(メタデータ) (2023-09-08T19:27:01Z) - Joint Embedding of 2D and 3D Networks for Medical Image Anomaly
Detection [0.8122270502556374]
本研究では, 接合による3次元ネットワークの強度と2次元ネットワークの強度を組み合わせる手法を開発した。
提案手法は分類タスクと分割タスクの両方において,SoTA法と比較して優れた性能を示す。
論文 参考訳(メタデータ) (2022-12-21T11:28:52Z) - Joint Self-Supervised Image-Volume Representation Learning with
Intra-Inter Contrastive Clustering [31.52291149830299]
自己教師付き学習は、ラベル付きデータから特徴表現を学習することで、ラベル付きトレーニングサンプルの欠如を克服することができる。
現在の医療分野におけるSSL技術のほとんどは、2D画像または3Dボリュームのために設計されている。
本研究では2次元および3次元データモダリティの教師なし共同学習のための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-12-04T18:57:44Z) - FCOS3D: Fully Convolutional One-Stage Monocular 3D Object Detection [78.00922683083776]
一般的な2D検出器をこの3Dタスクで動作させることは簡単ではない。
本報告では,完全畳み込み型単段検出器を用いた手法を用いてこの問題を考察する。
私たちのソリューションは、NeurIPS 2020のnuScenes 3D検出チャレンジのすべてのビジョンのみの方法の中で1位を獲得します。
論文 参考訳(メタデータ) (2021-04-22T09:35:35Z) - Semantic Correspondence via 2D-3D-2D Cycle [58.023058561837686]
本稿では,3次元領域に利用して意味的対応を予測するための新しい手法を提案する。
提案手法は,標準的なセマンティックベンチマークにおいて比較,さらに優れた結果を与えることを示す。
論文 参考訳(メタデータ) (2020-04-20T05:27:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。