論文の概要: SlideCheck: Guiding Self-Supervised Pretraining of Pathology Foundation Models via Dataset Distributions
- arxiv url: http://arxiv.org/abs/2606.07590v1
- Date: Thu, 28 May 2026 13:05:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-15 07:09:36.752287
- Title: SlideCheck: Guiding Self-Supervised Pretraining of Pathology Foundation Models via Dataset Distributions
- Title(参考訳): SlideCheck: データセット分布による病理基盤モデルの自己監督型事前トレーニングの指導
- Authors: Mingyi He, Xinyi Guo, Xitong Ling, Weiming Chen, Jiawen Li, Lianghui Zhu, Minxi Ouyang, Mingxi Fu, Yizhi Wang, Tian Guan,
- Abstract要約: SlideCheckは、凍結した病理モデルパッチ機能に基づいて構築された、軽量な事前トレーニングデータガイダンスツールである。
我々は,SlideCheckで定義されたデータ分布が,自己教師付きVT事前学習サブセットの下流挙動に影響を及ぼすことを示す。
- 参考スコア(独自算出の注目度): 19.660816645177338
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Pathology foundation models are pretrained on large streams of WSI-derived patches, while supervision during data construction is often slide-level, sparse, or heterogeneous. This mismatch makes it difficult to understand and control which biological patterns enter the pretraining data. We propose SlideCheck, a lightweight pretraining data guidance tool built on frozen pathology foundation model patch features. Rather than serving as a standalone patch diagnostic model, SlideCheck provides explicit abnormality and malignancy scores for organizing, filtering, and auditing pathology pretraining data. SlideCheck uses a dual-head MLP to separately model broad abnormal morphology and malignant evidence. A regularized feature-space scorer provides a supervised anchor for patch-level evidence estimation, while score-attention agreement combines patch scores with WSI-level MIL attention to mine high-confidence pseudo labels. The same scores are then used to construct broad-positive ViT pretraining subsets, where a patch is selected if either abnormality or malignancy evidence exceeds a threshold. Experiments show that SlideCheck-defined data distributions influence the downstream behavior of self-supervised ViT pretraining, indicating that biological composition is an important controllable factor in pathology foundation model development. Curated subsets can approach full-data performance, suggesting that explicitly scored patch pools may support more efficient and auditable pretraining data construction. These findings position SlideCheck as a data guidance and auditing layer for transforming large, undifferentiated patch pools into controllable and reusable pretraining datasets.
- Abstract(参考訳): 病理基盤モデルは、WSI由来のパッチの大きなストリームで事前訓練されているが、データ構築時の監視は、しばしばスライドレベル、スパース、異種である。
このミスマッチは、どの生物学的パターンが事前学習データに入るかを理解し、制御することを難しくする。
凍結した病理基盤モデルパッチ機能をベースに構築された軽量プレトレーニングデータガイダンスツールであるSlideCheckを提案する。
スタンドアロンのパッチ診断モデルとして機能するのではなく、SlideCheckは、データの整理、フィルタリング、監査のための明確な異常と悪性スコアを提供する。
SlideCheckはデュアルヘッドMLPを使用して、広範囲の異常な形態と悪性の証拠を個別にモデル化する。
正規化された特徴空間スコアラは、パッチレベルのエビデンス推定のための教師付きアンカーを提供する一方、スコアアテンション合意は、パッチスコアとWSIレベルのMILアテンションを組み合わせて、高信頼の擬似ラベルをマイニングする。
同じスコアを使用して広陽性のViT事前訓練サブセットを構築し、異常または悪性の証拠がしきい値を超えた場合、パッチが選択される。
実験により,SlideCheckが定義したデータ分布が自己監督型ViTプレトレーニングの下流行動に影響を及ぼし,生物学的組成が病理基盤モデル開発において重要な制御可能な要因であることが示唆された。
キュレートされたサブセットは、完全なデータパフォーマンスにアプローチでき、明示的にスコア付けされたパッチプールは、より効率的で監査可能な事前学習データ構築をサポートする可能性があることを示唆している。
これらの知見は、SlideCheckを、大規模で未分化のパッチプールを制御可能で再利用可能な事前トレーニングデータセットに変換するためのデータガイダンスおよび監査層として位置付けている。
関連論文リスト
- XtrAIn: Training-Guided Occlusion for Feature Attribution [3.3609128464006015]
Occlusion-based Attribution Methodは、入力特徴を摂動させ、結果のモデル出力の変化を測定することにより、特徴の重要度を推定することができる。
本稿では,入力空間からパラメータ空間へのオクルージョン操作を伝達する学習誘導帰属法であるXtrAInを紹介する。
XtrAInは標準的な属性ベースラインよりもクリーンで解釈可能な属性パターンを生成する。
論文 参考訳(メタデータ) (2026-06-09T13:52:05Z) - Validation of Whole-Slide Foundation Models for Image Retrieval in TCGA Data [1.834937230572996]
私たちはThe Cancer Genome Atlasの17の臓器と60の診断にまたがる9,387の診断スライドで10のパイプラインをベンチマークした。
方法としては、4つの事前訓練されたスライド基盤モデル、パッチ埋め込みのための注意ベースの多重インスタンス学習(ABMIL)アグリゲータ、パッチレベルの検索がある。
論文 参考訳(メタデータ) (2026-04-28T19:19:53Z) - bioLeak: Leakage-Aware Modeling and Diagnostics for Machine Learning in R [0.0]
BioLeak(バイオリーク)は、共通リーク機構に適合したモデルの構築と監査を行うRパッケージである。
この実装はバイナリ分類、マルチクラス分類、回帰分析、生存分析をサポートし、タスク固有のメトリクスと分割、適合、監査、インフレーションの要約のためのS4コンテナを提供する。
論文 参考訳(メタデータ) (2026-04-13T04:01:31Z) - Correcting False Alarms from Unseen: Adapting Graph Anomaly Detectors at Test Time [60.341117019125214]
グラフ異常検出(GAD)における未確認正規pattErnsの修正のための,軽量かつプラグアンドプレイなテスト時間適応フレームワークを提案する。
意味的混乱に対処するために、シフトしたデータと元のデータとをグラフ属性レベルで整合させるグラフ整合器を用いる。
10個の実世界のデータセットに対する大規模な実験により、TUNEは事前学習されたGADモデルの合成パターンと実際の見えない正常パターンの両方への一般化性を著しく向上することが示された。
論文 参考訳(メタデータ) (2025-11-10T12:10:05Z) - ADALog: Adaptive Unsupervised Anomaly detection in Logs with Self-attention Masked Language Model [2.55347686868565]
ADALogは適応的で教師なしの異常検出フレームワークである。
個々の非構造化ログで動作し、ログ内のコンテキスト関係を抽出し、通常のデータに対して適応しきい値を設定する。
BGL,Thunderbird,Spiritのベンチマークデータセット上でADALogを評価する。
論文 参考訳(メタデータ) (2025-05-15T17:31:40Z) - CBW: Towards Dataset Ownership Verification for Speaker Verification via Clustering-based Backdoor Watermarking [85.68235482145091]
大規模音声データセットは貴重な知的財産となった。
本稿では,新しいデータセットのオーナシップ検証手法を提案する。
我々のアプローチはクラスタリングに基づくバックドア透かし(CBW)を導入している。
我々は,ベンチマークデータセットに対する広範な実験を行い,本手法の有効性とロバスト性を検証した。
論文 参考訳(メタデータ) (2025-03-02T02:02:57Z) - Deep evolving semi-supervised anomaly detection [14.027613461156864]
本研究の目的は,連続的半教師付き異常検出(CSAD)のタスクを形式化することである。
本稿では,半教師付きデータを扱うための変分オートエンコーダ(VAE)のベースラインモデルを提案する。
論文 参考訳(メタデータ) (2024-12-01T15:48:37Z) - Prior Knowledge-Guided Attention in Self-Supervised Vision Transformers [79.60022233109397]
本研究では、未ラベル画像データセットにおける一貫した空間的・意味的構造を利用するフレームワークである空間的事前注意(SPAN)を提案する。
SPANは、アテンションマスクを別個のトランスフォーマーヘッドから正規化し、セマンティック領域の様々な先導に従う。
その結果,アテンションマスクは,ドメインに依存しない事前学習から得られるマスクよりも解釈可能であることが判明した。
論文 参考訳(メタデータ) (2022-09-07T02:30:36Z) - How Training Data Impacts Performance in Learning-based Control [67.7875109298865]
本稿では,トレーニングデータの密度と制御性能の関係を考察する。
データセットの品質尺度を定式化し、$rho$-gap と呼ぶ。
フィードバック線形化制御法に$rho$-gapを適用する方法を示す。
論文 参考訳(メタデータ) (2020-05-25T12:13:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。