論文の概要: Million-scale multimodal pollen microscopy with expert-guided foundation models
- arxiv url: http://arxiv.org/abs/2606.17809v1
- Date: Tue, 16 Jun 2026 11:35:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-17 17:15:32.402689
- Title: Million-scale multimodal pollen microscopy with expert-guided foundation models
- Title(参考訳): 専門家誘導基礎モデルを用いた百万スケールマルチモーダル花粉顕微鏡
- Authors: András Biricz, Björn Gedda, Donát Magyar, Antonio Spanu, János Fillinger, Péter Pollner, István Csabai,
- Abstract要約: Pollen AI Atlasは100万スケールのマルチモーダル花粉顕微鏡リソースである。
1,511,390 は、専門家が計算した試験領域で99.6%の精度で穀物検出を行った。
Gemma4は最も制御された一次キャプションセットを提供し、タイトな長さ制御、リークなし、最強のテキスト検索性能を組み合わせた。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automated pollen identification from microscopy remains a bottleneck in aerobiology, palaeoecology and biodiversity monitoring, because scalable systems must generalise across specimen preparation, scanner settings and geographic origins while retaining palynological interpretability. To address this gap, we present a million-scale multimodal pollen microscopy resource, Pollen AI Atlas, assembled from pure-species whole-slide bright-field images spanning four geographic origins, four scanner settings and 46 taxon labels across 31 botanical families. Seeded by one manually selected exemplar per source slide, token-level mining and filtering produced 1,511,390 released grain detections with 99.6\% proposal precision in expert-curated test regions. Each detection was paired with machine-generated grain-level morphological captions from five open-weight vision-language models, guided by expert-verified palynological anchors, yielding structured descriptions of aperture systems, wall ornamentation, shape and size. Among the evaluated models, Gemma4 provided the most controlled primary caption set, combining tight length control, no leakage and the strongest text-retrieval performance. Baseline benchmarks with frozen visual features reached 88.16\% top-1 accuracy, while cross-regional retrieval showed that caption-derived text embeddings remained robust when image similarity degraded (mAP@20 0.811 versus 0.262). Released data, annotations, captions, splits, code, and weights provide a benchmark for pollen recognition, cross-regional domain adaptation and domain-specific multimodal microscopy learning.
- Abstract(参考訳): 微生物からの花粉の自動識別は、大気学、パレオエコロジー、生物多様性監視においてボトルネックであり、スケーラブルなシステムは、パリン学的解釈性を維持しながら、標本作成、スキャナー設定、地理的起源を一般化する必要がある。
このギャップに対処するため、100万スケールのマルチモーダル花粉顕微鏡リソースであるPollen AI Atlasを紹介します。
手動で選択した1つのソーススライドによって、トークンレベルのマイニングとフィルタリングにより、1,511,390個の穀物検出が行われ、99.6\%の提案精度が得られた。
それぞれの検出は、5つのオープンウェイトな視覚言語モデルから生成された穀物レベルのキャプションと組み合わせられ、専門家が検証したパリン系アンカーによって誘導され、開口系、壁の装飾、形状、大きさの構造化された記述が得られた。
評価されたモデルの中で、Gemma4は最も制御された一次キャプションセットを提供し、タイトな長さ制御、リークなし、最強のテキスト検索性能を組み合わせた。
凍結した視覚的特徴を持つベースラインのベンチマークは88.16\%のトップ-1の精度に達し、クロスリージョン検索では、画像の類似性が低下した(mAP@20 0.811 vs 0.262)ときにキャプション由来のテキストの埋め込みが頑健であった。
リリースされたデータ、アノテーション、キャプション、コード、重み付けは、花粉認識、クロスリージョンドメイン適応、ドメイン固有のマルチモーダル顕微鏡学習のためのベンチマークを提供する。
関連論文リスト
- A Modelling and Evaluation Framework for EuroCrops-Driven Sentinel-2 Crop Segmentation [78.66324246922831]
本研究では,Sentinel-2イメージとEuroCropsパーセルレベルのアノテーションからセマンティックセグメンテーション対応農業データセットを生成するパイプラインを提案する。
このデータセットには、ヨーロッパ5カ国から67,337のパッチが含まれており、10種類の作物と背景の分類を減らしている。
The four-level U-Net with Group Normalization were training using 10 Sentinel-2 spectrum bands and a Composite loss with class-weighted cross-entropy and Dice loss。
論文 参考訳(メタデータ) (2026-05-30T11:20:29Z) - OPTED: Open Preprocessed Trachoma Eye Dataset Using Zero-Shot SAM 3 Segmentation [0.0]
サハラ以南のアフリカは世界の負担の85%以上を占め、エチオピアだけでも全症例の半数以上を占めている。
しかし、自動トラコマ分類のための公開済みの事前処理データセットは乏しく、最も影響を受けた地域に由来するものはない。
本稿では,Segment Anything Model 3 (SAM3) を用いて構築した,オープンソースで事前処理されたトラコマアイデータセットであるOPTEDについて述べる。
論文 参考訳(メタデータ) (2026-03-06T21:07:08Z) - Adaptive Multi-Scale Integration Unlocks Robust Cell Annotation in Histopathology Images [3.504506659662406]
我々はXenium空間転写学からマーカー誘導されたデータセットを構築し、8つの臓器に200万セル以上の単一セル解像度ラベルを付けた。
我々は,核形態学と微小環境コンテキストの細胞レベルでのマルチスケール統合のための病理学ワークフローにインスパイアされたフレームワークであるNuClassを紹介する。
以上の結果から,多スケールで不確実性を考慮した核融合は,スライドレベルの病態基盤モデルと信頼度の高い細胞レベルの表現型予測とのギャップを埋める可能性が示唆された。
論文 参考訳(メタデータ) (2025-11-17T16:49:59Z) - Overview of PlantCLEF 2024: multi-species plant identification in vegetation plot images [2.7110107174608173]
PlantCLEF 2024チャレンジでは、専門家が注釈を付け、800種以上をカバーした何千ものマルチラベル画像の新たなテストセットを活用する。
個々の植物画像170万枚からなる大規模なトレーニングセットと、このデータに基づいて事前訓練された最先端のビジョントランスフォーマーモデルを提供する。
目的は、高解像度プロット画像上に存在するすべての植物種を予測することである。
論文 参考訳(メタデータ) (2025-09-19T08:51:41Z) - BeetleVerse: A Study on Taxonomic Classification of Ground Beetles [0.310688583550805]
地上の甲虫は、非常に敏感で特異な生物学的指標であり、生物多様性のモニタリングに不可欠である。
本稿では,4つの多種多様な長い尾を持つデータセットの分類分類に関する12の視覚モデルを評価する。
その結果,視覚と言語変換器を頭部と組み合わせたモデルが最も優れており,97%の精度で種・種レベルでの精度が得られた。
論文 参考訳(メタデータ) (2025-04-18T01:06:37Z) - SpectralEarth: Training Hyperspectral Foundation Models at Scale [47.93167977587301]
ハイパースペクトル基礎モデルの事前学習を目的とした大規模マルチテンポラルデータセットであるSpectralEarthを紹介する。
我々はSpectralEarthの一連の基礎モデルを事前訓練し、古典的な視覚バックボーンにスペクトルアダプタを統合する。
タンデムでは、土地被覆、作物型マッピング、樹木種分類のための9つの下流データセットを構築した。
論文 参考訳(メタデータ) (2024-08-15T22:55:59Z) - Revisiting Adaptive Cellular Recognition Under Domain Shifts: A Contextual Correspondence View [49.03501451546763]
生物学的文脈における暗黙の対応の重要性を明らかにする。
モデル構成成分間のインスタンス認識トレードオフを確保するために, 自己適応型動的蒸留を提案する。
論文 参考訳(メタデータ) (2024-07-14T04:41:16Z) - Significantly improving zero-shot X-ray pathology classification via fine-tuning pre-trained image-text encoders [50.689585476660554]
本稿では,正対損失緩和とランダムな文サンプリングを含む新たな微調整手法を提案する。
提案手法は,胸部X線データセットと3つの事前訓練モデル間のゼロショット病理分類を一貫して改善する。
論文 参考訳(メタデータ) (2022-12-14T06:04:18Z) - ScoreNet: Learning Non-Uniform Attention and Augmentation for
Transformer-Based Histopathological Image Classification [11.680355561258427]
高解像度画像はデジタル病理の進歩を妨げる。
パッチベースの処理は、しばしば複数のインスタンス学習(MIL)を組み込んで、画像レベルの予測をもたらす局所的なパッチレベルの表現を集約する。
本稿では,組織像分類に適したトランスフォーマーアーキテクチャを提案する。
局所的なきめ細かな注意と粗いグローバルな注意機構を組み合わせることで、高解像度画像の意味的な表現を効率的な計算コストで学習する。
論文 参考訳(メタデータ) (2022-02-15T16:55:09Z) - Chest x-ray automated triage: a semiologic approach designed for
clinical implementation, exploiting different types of labels through a
combination of four Deep Learning architectures [83.48996461770017]
本研究では,異なる畳み込みアーキテクチャの後期融合に基づく深層学習手法を提案する。
公開胸部x線画像と機関アーカイブを組み合わせたトレーニングデータセットを4つ構築した。
4つの異なるディープラーニングアーキテクチャをトレーニングし、それらのアウトプットとレイトフュージョン戦略を組み合わせることで、統一されたツールを得ました。
論文 参考訳(メタデータ) (2020-12-23T14:38:35Z) - Pollen13K: A Large Scale Microscope Pollen Grain Image Dataset [63.05335933454068]
この研究は、1万3千以上の天体を含む最初の大規模花粉画像データセットを提示する。
本稿では, エアロバイオロジカルサンプリング, 顕微鏡画像取得, 物体検出, セグメンテーション, ラベル付けなど, 採用データ取得のステップに注目した。
論文 参考訳(メタデータ) (2020-07-09T10:33:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。