論文の概要: BioMedVR: Confusion-Aware Mixture-of-Prompt Experts for Biomedical Visual Reprogramming
- arxiv url: http://arxiv.org/abs/2606.24740v1
- Date: Tue, 23 Jun 2026 16:03:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-24 22:16:49.046505
- Title: BioMedVR: Confusion-Aware Mixture-of-Prompt Experts for Biomedical Visual Reprogramming
- Title(参考訳): BioMedVR: バイオメディカル・ビジュアル・リプログラミングのためのコンフュージョン・アウェア・ミックス・オブ・プロンプトの専門家
- Authors: Jiaxiang Liu, Tianxiang Hu, Juwei Guan, Yujie Wu, Yusong Wang, Yao Mu, Zuozhu Liu, Mingkun Xu,
- Abstract要約: BioMedVRは、バイオメディカルイメージングのための最初のフレームワークであり、事前訓練された視覚言語モデルの少数ショット適応を可能にする。
授業の混乱を軽減するために,コンフュージョン最小化機構を導入する。
11のバイオメディカルデータセットと7つの自然画像ベンチマークを含む18のデータセットの実験は、BioMedVRがより優れた精度と一般化を達成することを実証している。
- 参考スコア(独自算出の注目度): 32.401481854035474
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in vision-language models (VLMs) such as CLIP have demonstrated strong generalization across natural-image domains. However, adapting these models to biomedical imaging is non-trivial: full-model fine-tuning is computationally expensive, while medical data are often scarce and exhibit subtle, fine-grained inter-class differences, making parameter-efficient adaptation particularly critical. Visual Reprogramming (VR) offers a parameter-efficient alternative by injecting learnable perturbations into the input space, but existing VR approaches for VLMs mainly focus on positive class prompts and overlook confusing negatives, leading to miscalibrated predictions in fine-grained medical scenarios. We present BioMedVR, the first VR-based framework for biomedical imaging, enabling few-shot adaptation of pretrained VLMs through compact learnable VR modules. To mitigate class confusion, we introduce a Confusion Minimization Mechanism that leverages LLM-generated confusion-aware attributes together with a Confusion-Suppression Loss to explicitly reduce false-positive alignment. Moreover, the designed Mixture-of-Prompt Experts combines a positive expert for main-class discrimination and a negative expert for confusion suppression, balanced via adaptive gating. Extensive experiments on 18 datasets, including 11 biomedical datasets and 7 natural image benchmarks, demonstrate that BioMedVR achieves superior accuracy and generalization, effectively bridging VR and VLMs in biomedical domains.
- Abstract(参考訳): CLIPのような視覚言語モデル(VLM)の最近の進歩は、自然画像領域にまたがる強力な一般化を示している。
しかし、これらのモデルをバイオメディカルイメージングに適応させることは簡単ではない: フルモデル微調整は計算コストがかかるが、医療データは希少であり、微妙できめ細かいクラス間差があり、パラメータ効率の適応が特に重要である。
ビジュアルリプログラミング(VR)は、学習可能な摂動を入力空間に注入することでパラメータ効率の良い代替手段を提供するが、VLMの既存のVRアプローチは、主に肯定的なクラスプロンプトに焦点をあて、混乱するネガティブを見落とし、きめ細かい医療シナリオにおける誤った予測をもたらす。
バイオメディカルイメージングのための最初のVRベースのフレームワークであるBioMedVRについて述べる。
クラス混乱を軽減するために,LLM生成した混乱認識属性とConfusion-Suppression Lossを併用して,誤陽性アライメントを明示的に低減するコンフュージョン最小化機構を導入する。
さらに、デザインされたMixture-of-Prompt Expertsは、メインクラスの差別に関する肯定的な専門家と、アダプティブゲーティングを通じてバランスをとる混乱抑制に関する否定的な専門家を組み合わせる。
11のバイオメディカルデータセットと7つの自然画像ベンチマークを含む18のデータセットに対する大規模な実験は、BioMedVRがより優れた精度と一般化を実現し、バイオメディカルドメインにおけるVRとVLMを効果的にブリッジすることを示した。
関連論文リスト
- MMBU: A Massive Multi-modal Biomedical Understanding Benchmark to Probe the Perception Capabilities of Vision-Language Models [83.50100003741628]
ビジョンと言語モデル(VLM)は、バイオメディカルイメージングを変革する大きな可能性を秘めている。
本稿では,MMBU(Massive Multimodal Biomedical Understanding)ベンチマークを紹介する。
今までで最大のビジョンと言語ベンチマークで、35のサブモダリティと豊富な構造化メタデータをカバーしている。
論文 参考訳(メタデータ) (2026-06-04T20:24:47Z) - Evi-Steer: Learning to Steer Biomedical Vision-Language Models through Efficient and Generalizable Evidential Tuning [9.71224567110431]
Evi-SteerはBiomedCLIPのための明らかなクロスモーダルな低次元ステアリングフレームワークである。
完全なモデルパラメータの0.11%を更新しながら、不確実性に配慮したパラメータ効率の微調整を可能にする。
Evi-Steerは、数ショットの学習とドメインシフト設定の下で、最先端のメソッドを一貫して上回る。
論文 参考訳(メタデータ) (2026-05-25T19:30:22Z) - Multi-View Synergistic Learning with Vision-Language Adaption for Low-Resource Biomedical Image Classification [59.24009931000134]
MVSL(Multi-View Synergistic Learning)は、適応パラダイム、表現の粒度、疾患の意味的関係に対処する統合フレームワークである。
MVSLは、視覚的およびテキスト的エンコーダの適応を分離し、それぞれの表現特性を尊重する。
さらに、グローバルなイメージセマンティクスと局所的な病変レベルの証拠の両方を明示的にモデル化するために、多粒性コントラスト学習を導入する。
MVSLは、いくつかのショットとゼロショットの分類設定において、最先端のメソッドを一貫して上回る。
論文 参考訳(メタデータ) (2026-04-27T02:41:27Z) - MedVR: Annotation-Free Medical Visual Reasoning via Agentic Reinforcement Learning [15.624413588040753]
医療ビジョンランゲージモデル(VLM)は、複雑な臨床業務において大きな可能性を秘めている。
彼らの推論能力は、しばしばテキストのみのパラダイムによって制約される。
この制限は、きめ細かい視覚分析を必要とするタスクのパフォーマンスを抑えるだけでなく、安全クリティカルなアプリケーションにおける視覚幻覚のリスクも引き起こす。
医用VLMのアノテーションのない視覚的推論を可能にする新しい強化学習フレームワークであるMedVRを紹介する。
論文 参考訳(メタデータ) (2026-04-09T13:04:49Z) - MedVSR: Medical Video Super-Resolution with Cross State-Space Propagation [63.38824041721275]
低解像度(LR)医療ビデオは、ビデオ超解像度(VSR)モデルに固有の課題を提示する。
本稿では,医療用VSRのためのフレームワークであるMedVSRを提案する。
MedVSRは既存のVSRモデルよりも性能と効率が優れていることを示す。
論文 参考訳(メタデータ) (2025-09-25T14:56:59Z) - BiomedCoOp: Learning to Prompt for Biomedical Vision-Language Models [2.2585213273821716]
本稿では,バイオメディカル画像解析のための新しいプロンプト学習フレームワークであるBiomedCoOpを提案する。
提案手法は,Large Language Models (LLMs) からの平均的なプロンプトアンサンブルとのセマンティック一貫性と,統計に基づくプロンプト選択戦略による知識蒸留を活用することで,効果的なプロンプト文脈学習を実現する。
9つのモダリティと10の臓器にまたがる11の医療データセットについて,提案手法を総合的に検証し,精度と一般化性の両方に有意な改善が認められた。
論文 参考訳(メタデータ) (2024-11-21T19:13:04Z) - Dr-LLaVA: Visual Instruction Tuning with Symbolic Clinical Grounding [53.629132242389716]
VLM(Vision-Language Models)は、医用画像を分析し、自然言語の相互作用に関与することによって、臨床医を支援する。
VLMはしばしば「幻覚的」な振る舞いを示し、文脈的マルチモーダル情報に基づかないテキスト出力を生成する。
本稿では,臨床推論の象徴的表現を用いて医療知識にVLMを基盤とする新たなアライメントアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-05-29T23:19:28Z) - End-to-End Breast Cancer Radiotherapy Planning via LMMs with Consistency Embedding [47.360760580820966]
放射線腫瘍学の分野に適した包括的大規模マルチモーダルモデル(LMM)であるRO-LMMを提案する。
このモデルは臨床ワークフロー内の一連のタスクを効果的に管理し、臨床コンテキストの要約、放射線治療計画の提案、計画誘導されたターゲットボリュームセグメンテーションを含む。
クリーン入力処理の整合性を維持しつつ,LMMのノイズ入力に対する堅牢性を向上する,CEFTune(Consistency Embedding Fine-Tuning)技術を提案する。
論文 参考訳(メタデータ) (2023-11-27T14:49:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。