論文の概要: Learnable Token Sparsification for Efficient Gigapixel Whole Slide Image Reasoning
- arxiv url: http://arxiv.org/abs/2606.08641v1
- Date: Sun, 07 Jun 2026 14:07:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:06.310952
- Title: Learnable Token Sparsification for Efficient Gigapixel Whole Slide Image Reasoning
- Title(参考訳): 高速ギガピクセル画像推論のための学習可能なトークンスペーシング
- Authors: Jingzhi Chen, Landi He, Zhuo Chen, Shawn Young, Lijian Xu,
- Abstract要約: 本研究では,スライディング画像全体のトークン削減をトレーニング可能なスペーシング問題として再検討する。
我々のフレームワークはSlideBench (TCGA) で73.32%の精度を実現していることを示す。
この研究は、エンド・ツー・エンドのギガピクセル全体の画像推論に非常に効率的なパラダイムを提供する。
- 参考スコア(独自算出の注目度): 8.596353244934853
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The processing of gigapixel whole slide images within vision language models faces a major difficulty due to an excessive number of visual tokens. Existing solutions typically rely on spatial downsampling or heuristic pruning strategies that operate without training, and these methods often discard subtle but clinically meaningful patterns because pathological evidence is scattered irregularly across the tissue. To overcome this limitation, we reformulate token reduction in whole slide images as a trainable sparsification problem, allowing the model to learn an optimal selection strategy instead of following fixed heuristics. We propose a decoupled routing architecture. To enable gradient propagation through the nondifferentiable pruning operation during training, we introduce a component called SparseLearn. This component uses a variance-preserving noise gate that regulates the information flow of each patch via a differentiable Soft Top-K operator, together with a diagonal attention denoiser that recovers perturbed representations without leaking spatial information. At inference time, the SparseLearn module is entirely discarded, and the trained scorer applies a deterministic Hard Top-K operator to keep only the highest scoring 32 tokens, incurring no extra computation. By compressing the visual sequence down to a sparse set of just 32 tokens, which represents as little as 0.78% of the original length, our framework achieves 73.32% overall accuracy on SlideBench (TCGA), consistently surpassing sampling-based baselines and general-purpose vision language models. It also demonstrates strong zero shot generalization on SlideBench (BCNB) and WSI VQA*. By resolving the visual context bottleneck and preventing the dilution of sparse diagnostic evidence, this work provides a highly efficient paradigm for end to end gigapixel whole slide image reasoning.
- Abstract(参考訳): 視覚言語モデルにおけるスライド画像全体のギガピクセルの処理は、過度の視覚トークン数のために大きな困難に直面している。
既存のソリューションは通常、トレーニングなしで機能する空間的なダウンサンプリングやヒューリスティックプルーニング戦略に依存しており、病理学的証拠が組織全体に不規則に散らばっているため、これらの手法はしばしば微妙だが臨床的に意味のあるパターンを破棄する。
この制限を克服するため、スライディング画像全体のトークン削減をトレーニング可能なスカラー化問題として再構成し、固定ヒューリスティックに従わずに最適な選択戦略を学習できるようにする。
本稿では,疎結合なルーティングアーキテクチャを提案する。
そこで本研究では,SparseLearnというコンポーネントを導入する。
分散保存ノイズゲートを用いて、異なるソフトトップ−K演算子を介して各パッチの情報の流れを調節し、空間情報を漏らさずに摂動表現を復元する対角的注意分解器を用いる。
推測時、SparseLearnモジュールは完全に破棄され、訓練されたスコアラは決定論的ハードトップK演算子を適用して、最高スコアの32トークンだけを保持し、余分な計算を行わない。
従来の長さの0.78%に満たない,わずか32個のトークンからなるスパースセットにビジュアルシーケンスを圧縮することにより,SlideBench (TCGA) の全体的な精度は73.32%向上し,サンプリングベースベースラインや汎用視覚言語モデルに一貫して勝っている。
また、SlideBench (BCNB) と WSI VQA* に対して強いゼロショット一般化を示す。
本研究は,視覚的コンテキストのボトルネックを解消し,スパース診断証拠の希釈を防止することにより,スライド画像の終端から終端までの画像解析において,高効率なパラダイムを提供する。
関連論文リスト
- TC-SSA: Token Compression via Semantic Slot Aggregation for Gigapixel Pathology Reasoning [10.675615956951468]
本稿では,パッチ機能を一定の数のセマンティックスロットに集約する,学習可能なトークン圧縮フレームワークTC-SSAを提案する。
ゲートルーティングモジュールは、スパースなTop-2ルーティングを使用してスロットにパッチを割り当て、次に重み付けされたアグリゲーションによって、厳格なトークン予算の下でグローバルなスライドカバレッジを可能にする。
SlideBench(TCGA)では、全体の精度が78.34%、診断サブセットが77.14%に達し、サンプリングベースベースラインを上回っている。
論文 参考訳(メタデータ) (2026-03-01T15:07:57Z) - Switchable Token-Specific Codebook Quantization For Face Image Compression [72.44596412563503]
顔画像圧縮のための切り換え可能なToken-Specific Codebook Quantizationを提案する。
トークンが少量のビットを持つコードブックグループを記録することで,コードブックグループのサイズを小さくする場合に発生する損失を低減することができる。
提案手法は顔認識データに対して有効性を示し,0.05bppの再構成画像に対して平均93.51%の精度を実現した。
論文 参考訳(メタデータ) (2025-10-27T02:56:17Z) - Cascaded Cross-Attention Networks for Data-Efficient Whole-Slide Image
Classification Using Transformers [0.11219061154635457]
全スライディングイメージングは、組織標本の高解像度画像のキャプチャとデジタル化を可能にする。
高解像度情報を効果的に活用するための候補としてトランスフォーマーアーキテクチャが提案されている。
本稿では,抽出されたパッチ数と線形にスケールするクロスアテンション機構に基づく新しいカスケード型クロスアテンションネットワーク(CCAN)を提案する。
論文 参考訳(メタデータ) (2023-05-11T16:42:24Z) - DBAT: Dynamic Backward Attention Transformer for Material Segmentation
with Cross-Resolution Patches [8.812837829361923]
クロスレゾリューション特徴を集約する動的後方アテンション変換器(DBAT)を提案する。
実験の結果,DBATの精度は86.85%であり,最先端のリアルタイムモデルの中では最高の性能であることがわかった。
さらに,提案モデルが他の手法よりも優れた材料関連特徴を抽出できることを示すため,セマンティックなラベルにアライメントし,ネットワーク分割を行う。
論文 参考訳(メタデータ) (2023-05-06T03:47:20Z) - Learning strides in convolutional neural networks [34.20666933112202]
この研究は、学習可能なステップを持つ最初のダウンサンプリング層であるDiffStrideを紹介している。
音声と画像の分類実験は,ソリューションの汎用性と有効性を示す。
論文 参考訳(メタデータ) (2022-02-03T16:03:36Z) - Mixed Supervision Learning for Whole Slide Image Classification [88.31842052998319]
超高解像度画像のための混合監視学習フレームワークを提案する。
パッチトレーニングの段階では、このフレームワークは、粗いイメージレベルのラベルを使用して、自己教師付き学習を洗練することができる。
画素レベルの偽陽性と偽陰性を抑制するための包括的な戦略が提案されている。
論文 参考訳(メタデータ) (2021-07-02T09:46:06Z) - Group-Wise Semantic Mining for Weakly Supervised Semantic Segmentation [49.90178055521207]
この研究は、画像レベルのアノテーションとピクセルレベルのセグメンテーションのギャップを埋めることを目標に、弱い監督されたセマンティックセグメンテーション(WSSS)に対処する。
画像群における意味的依存関係を明示的にモデル化し,より信頼性の高い擬似的基盤構造を推定する,新たなグループ学習タスクとしてWSSSを定式化する。
特に、入力画像がグラフノードとして表現されるグループ単位のセマンティックマイニングのためのグラフニューラルネットワーク(GNN)を考案する。
論文 参考訳(メタデータ) (2020-12-09T12:40:13Z) - Powers of layers for image-to-image translation [60.5529622990682]
本稿では,未ペア画像から画像への変換タスクに対処するシンプルなアーキテクチャを提案する。
固定重み付きイメージオートエンコーダアーキテクチャから始める。
各タスクに対して、潜在空間で動作している残留ブロックを学習し、ターゲット領域に到達するまで繰り返し呼び出される。
論文 参考訳(メタデータ) (2020-08-13T09:02:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。