論文の概要: Benchmarking Vision-Language Models for Microscopic Plant Image Understanding
- arxiv url: http://arxiv.org/abs/2606.22497v1
- Date: Sun, 21 Jun 2026 13:39:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-25 17:05:30.016022
- Title: Benchmarking Vision-Language Models for Microscopic Plant Image Understanding
- Title(参考訳): 微視的植物画像理解のためのベンチマークビジョン言語モデル
- Authors: Tianqi Wei, Xin Yu, Zhi Chen, Scott Chapman, Zi Huang,
- Abstract要約: 植物画像の視覚言語モデル(VLM)を評価するためのベンチマークであるPlantMicroを提案する。
我々は、顕微鏡画像理解の異なる側面を捉える一連の補完的なタスクを設計する。
実験により、現在のVLMは微粒な認識と生物学的根拠の推論に苦しむことが示された。
- 参考スコア(独自算出の注目度): 34.461133608619015
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Microscopic imaging provides essential visual evidence for studying plant biology and pathology at the cellular and subcellular levels. However, existing benchmarks on vision-language models primarily focus on macroscopic plant imagery, while the microscopic domain remains underexplored. To address this gap, we present PlantMicro, a comprehensive benchmark for evaluating vision-language models (VLMs) in microscopic plant imagery. PlantMicro integrates more than 5,000 images collected across diverse hosts, biological domains, and imaging modalities. Building on this diversity, we design a set of complementary tasks that capture different facets of microscopic image understanding. To support these tasks, we construct over 9,000 VQA pairs that systematically evaluate the capabilities of VLMs. Experiments on PlantMicro show that current VLMs struggle with fine-grained recognition and biologically grounded reasoning. For example, GPT-5 achieves 34.93% accuracy on the pathogen classification task, which is only modestly above the random-guessing baseline. The results highlight a significant gap in current VLMs' ability to comprehend plant microscopic images. PlantMicro provides a standardized foundation for advancing VLMs toward reliable and comprehensive microscopy-level plant understanding.
- Abstract(参考訳): 顕微鏡イメージングは、植物生物学と細胞および細胞内レベルでの病理の研究に不可欠な視覚的証拠を提供する。
しかしながら、視覚言語モデルに関する既存のベンチマークは、主にマクロ的な植物像に焦点を当てているが、顕微鏡領域は未探索のままである。
このギャップに対処するために、顕微鏡植物画像の視覚言語モデル(VLM)を評価するための総合的なベンチマークであるPlantMicroを提案する。
PlantMicroは、多様な宿主、生物ドメイン、画像モダリティで収集された5000以上の画像を統合する。
この多様性に基づいて、顕微鏡画像理解の異なる側面を捉える一連の補完的なタスクを設計する。
これらのタスクをサポートするために、9000以上のVQAペアを構築し、VLMの能力を体系的に評価する。
植物マイクロの実験では、現在のVLMは微粒な認識と生物学的基盤の推論に苦慮している。
例えば、GPT-5は病原体分類タスクにおいて34.93%の精度を達成している。
この結果は、現在のVLMの植物顕微鏡画像の理解能力において、大きなギャップを浮き彫りにした。
PlantMicroは、信頼性と総合的な顕微鏡レベルの植物理解に向けて、VLMを進化させるための標準化された基盤を提供する。
関連論文リスト
- MMBU: A Massive Multi-modal Biomedical Understanding Benchmark to Probe the Perception Capabilities of Vision-Language Models [83.50100003741628]
ビジョンと言語モデル(VLM)は、バイオメディカルイメージングを変革する大きな可能性を秘めている。
本稿では,MMBU(Massive Multimodal Biomedical Understanding)ベンチマークを紹介する。
今までで最大のビジョンと言語ベンチマークで、35のサブモダリティと豊富な構造化メタデータをカバーしている。
論文 参考訳(メタデータ) (2026-06-04T20:24:47Z) - MAD: Microenvironment-Aware Distillation -- A Pretraining Strategy for Virtual Spatial Omics from Microscopy [6.991792373060689]
細胞中心の埋め込みを学習する事前学習戦略であるMAD(microenvironment-aware distillation)を導入する。
MADは、セルサブタイプ、転写予測、バイオインフォマティック推論を含む下流タスクで最先端の予測性能を達成する。
論文 参考訳(メタデータ) (2026-03-11T22:06:20Z) - From Macro to Micro: Benchmarking Microscopic Spatial Intelligence on Molecules via Vision-Language Models [49.40724953627119]
本稿では,顕微鏡空間知能(MiSI, Microscopic Spatial Intelligence)の概念を紹介し, 目に見えない微視的実体の空間的関係を知覚し, 推論する能力について述べる。
この領域におけるビジョン・ランゲージ・モデル(VLM)の可能性を評価するため,系統的なベンチマーク・フレームワークであるMISI-Benchを提案する。
このフレームワークは163,000以上の質問応答対と約4,000の分子構造から派生した587,000の画像を備える。
論文 参考訳(メタデータ) (2025-12-11T18:00:21Z) - Disentangled representations of microscopy images [0.9849635250118911]
本研究は、顕微鏡画像分類のためのモデル解釈可能性を高めるために、DRL法を提案する。
本稿では,合成データから学習した表現の伝達に基づくDRLフレームワークが,この領域における精度と解釈可能性とのトレードオフを良好に実現できることを示す。
論文 参考訳(メタデータ) (2025-06-25T17:44:37Z) - Masked Autoencoders for Microscopy are Scalable Learners of Cellular Biology [2.7280901660033643]
本研究は、弱教師付き分類器と自己教師付きマスク付きオートエンコーダ(MAE)のスケーリング特性について検討する。
以上の結果から,ViTをベースとしたMAEは,様々なタスクにおいて弱い教師付き分類器よりも優れており,公的なデータベースから得られた既知の生物学的関係を思い出すと,11.5%の相対的な改善が達成されることがわかった。
我々は、異なる数のチャネルと順序の画像を推論時に入力できる新しいチャネルに依存しないMAEアーキテクチャ(CA-MAE)を開発した。
論文 参考訳(メタデータ) (2024-04-16T02:42:06Z) - DualFocus: Integrating Macro and Micro Perspectives in Multi-modal Large
Language Models [85.4852517178828]
マルチモーダル大言語モデル(MLLM)におけるマクロ・マイクロ視点の統合フレームワークであるDualFocusについて述べる。
本研究は,DualFocusが総合的な洞察と詳細な検査のバランスをとる上で優れていることを示し,MLLMの幻覚例を著しく減らした。
論文 参考訳(メタデータ) (2024-02-22T18:26:02Z) - The TYC Dataset for Understanding Instance-Level Semantics and Motions
of Cells in Microstructures [29.29348484938194]
組換え酵母細胞(TYC)データセットは、マイクロ構造中の細胞のインスタンスレベルのセマンティクスと運動を理解するための新しいデータセットである。
TYCは、これまで最大のデータセットであるセルやマイクロ構造を含む10倍のインスタンスアノテーションを提供する。
論文 参考訳(メタデータ) (2023-08-23T13:10:33Z) - Application of the YOLOv5 Model for the Detection of Microobjects in the
Marine Environment [101.18253437732933]
海洋環境における微小物体の自動検出と認識の問題を解決するためのYOLOV5機械学習モデルの有効性について検討した。
論文 参考訳(メタデータ) (2022-11-28T10:58:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。