論文の概要: How Seemingly Inconsequential Design Choices Dictate Performance of LLMs in Pathology
- arxiv url: http://arxiv.org/abs/2606.12407v1
- Date: Wed, 10 Jun 2026 17:59:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-11 16:42:38.61799
- Title: How Seemingly Inconsequential Design Choices Dictate Performance of LLMs in Pathology
- Title(参考訳): 病理学におけるLCMの性能の非連続的選択について
- Authors: Kian R. Weihrauch, Thomas A. Buckley, William Lotter, Arjun K. Manrai,
- Abstract要約: 汎用大言語モデル(LLM)は、全スライディング画像(WSI)の特殊な病理モデルを評価する際に、ベースラインとして日常的に使用される。
ここでは、推論モード、パッチサイズ、倍率、パッチ数という4つの入力設計要素の系統的因子分析を行う。
従来の研究では、最適化されていない入力構成を選択することで、特殊モデルと汎用LLMのギャップが過大評価されていることを実証した。
- 参考スコア(独自算出の注目度): 0.7381544829807618
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: General-purpose large language models (LLMs) are routinely used as baselines when evaluating specialized pathology models on whole-slide images (WSIs). Because WSIs exceed contemporary model context limits, LLM baselines routinely use small, high-magnification patches processed independently via majority voting, without systematic evaluation of seemingly inconsequential design choices such as patch size, patch count, and magnification. Generalist LLMs have consistently underperformed specialized systems, reinforcing the perception that domain-specific training or architectural adaptation is necessary for pathology tasks involving WSIs. Here, we conduct a systematic factorial analysis of four input design factors: inference mode, patch size, magnification, and patch count. We demonstrate that prior studies have overstated the gap between specialized models and general-purpose LLMs by choosing non-optimized input configurations. On the MultiPathQA benchmark, switching to a single balanced configuration (large patches at lower magnification, processed jointly) raises GPT-5 from 15.1% to 39.5% on cancer-type classification (TCGA) and from 38.1% to 62.9% on organ classification (GTEx). Per-task optimization yields further gains up to 43.9% (TCGA) and 71.6% (GTEx). The same configuration generalizes to two other models and to a fully held-out CPTAC cohort, where it improves Gemini 3 Flash by 23.4 percentage points without any task-specific tuning.
- Abstract(参考訳): 汎用大言語モデル(LLMs)は,全スライディング画像(WSIs)の専門的病理モデルを評価する際に,ベースラインとして日常的に使用される。
WSIsは現代のモデルコンテキスト限界を超えるため、LLMベースラインは、パッチサイズ、パッチ数、倍率などの不適切な設計選択を体系的に評価することなく、多数決によって独立して処理される小型の高機能パッチを使用する。
一般のLSMは、WSIを含む病的タスクにおいて、ドメイン固有のトレーニングやアーキテクチャ適応が不可欠であるという認識を強め、常に性能を低下させてきた。
ここでは、推論モード、パッチサイズ、倍率、パッチ数という4つの入力設計要素の系統的因子分析を行う。
従来の研究では、最適化されていない入力構成を選択することで、特殊モデルと汎用LLMのギャップが過大評価されていることを実証した。
MultiPathQAベンチマークでは、単一のバランスの取れた構成(低い倍率で処理された大きなパッチ)に切り替えると、GPT-5はがんタイプ分類(TCGA)では15.1%から39.5%、臓器分類(GTEx)では38.1%から62.9%に上昇する。
タスクごとの最適化により、さらに43.9%(TCGA)と71.6%(GTEx)に向上する。
同じ構成は2つの他のモデルと完全に保持されたCPTACコホートに一般化され、タスク固有のチューニングなしでGemini 3 Flashを23.4ポイント改善する。
関連論文リスト
- Simple Token-Efficient Vision-Language Model for Case-level Pathology Synoptic Report Generation [9.268049949671958]
ケースレベルの合成レポート生成のための単純なトークン効率の視覚言語モデルを提案する。
私たちのアーキテクチャは、凍結した病理パッチ、軽量な2層視覚言語調整器、および大規模言語モデルデコーダという、最小限の3成分設計に従っています。
提案手法は,メモリと実行時の効率を著しく向上しつつ,高いROUGE-L/METEOR/BLEU-4スコアを実現する。
論文 参考訳(メタデータ) (2026-05-29T01:15:13Z) - optimize_anything: A Universal API for Optimizing any Text Parameter [98.42497715725356]
単一タスク検索をサポートする1つのAIベースの最適化システム、クロスプロブレム転送によるマルチタスク検索、および目に見えない入力への一般化を示す。
LLMに基づく検索によるテキストの最適化は汎用的な問題解決パラダイムであることを示す。
論文 参考訳(メタデータ) (2026-05-19T10:18:12Z) - Validation of Whole-Slide Foundation Models for Image Retrieval in TCGA Data [1.834937230572996]
私たちはThe Cancer Genome Atlasの17の臓器と60の診断にまたがる9,387の診断スライドで10のパイプラインをベンチマークした。
方法としては、4つの事前訓練されたスライド基盤モデル、パッチ埋め込みのための注意ベースの多重インスタンス学習(ABMIL)アグリゲータ、パッチレベルの検索がある。
論文 参考訳(メタデータ) (2026-04-28T19:19:53Z) - Benchmarking and Adapting On-Device Large Language Models for Clinical Decision Support [3.165122193962168]
大規模言語モデル(LLM)は、臨床意思決定において急速に進歩している。
しかし、プロプライエタリなシステムのデプロイは、プライバシの懸念とクラウドベースのインフラストラクチャへの依存によって妨げられている。
論文 参考訳(メタデータ) (2025-12-18T22:29:45Z) - Towards a Science of Scaling Agent Systems [79.64446272302287]
エージェント評価の定義を定式化し,エージェント量,コーディネーション構造,モデル,タスク特性の相互作用として,スケーリング法則を特徴付ける。
協調指標を用いて予測モデルを導出し,R2=0をクロスバリデーションし,未知のタスク領域の予測を可能にする。
ツールコーディネーショントレードオフ: 固定的な計算予算の下では, ツールヘビータスクはマルチエージェントのオーバーヘッドから不均衡に悩まされ, 2) 能力飽和: 調整が減少または負のリターンを, 単一エージェントのベースラインが45%を超えると達成できる。
論文 参考訳(メタデータ) (2025-12-09T06:52:21Z) - Order from Chaos: Comparative Study of Ten Leading LLMs on Unstructured Data Categorization [0.0]
本研究では,非構造化テキスト分類に適用された10種類の最先端大規模言語モデル(LLM)の比較評価を行った。
この分析では、8,660人の注釈付きサンプルと同一のゼロショットプロンプトの統一データセットを使用して、すべてのモデルにおける方法論的一貫性を確保した。
その結果,現代LLMは,平均スコアが34%,精度が42%,リコールが45%,F1スコアが41%であった。
論文 参考訳(メタデータ) (2025-10-14T02:15:01Z) - AHDMIL: Asymmetric Hierarchical Distillation Multi-Instance Learning for Fast and Accurate Whole-Slide Image Classification [51.525891360380285]
AHDMILは非対称な階層的蒸留マルチインスタンス学習フレームワークである。
2段階のトレーニングプロセスを通じて、無関係なパッチを排除します。
分類性能と推論速度の両方において、従来の最先端手法を一貫して上回っている。
論文 参考訳(メタデータ) (2025-08-07T07:47:16Z) - CPath-Omni: A Unified Multimodal Foundation Model for Patch and Whole Slide Image Analysis in Computational Pathology [17.781388341968967]
CPath-OmniはパッチとWSIレベルの画像解析を統合するために設計された最初のLMMである。
CPath-Omniは、42データセット中39のタスクに対して、最新技術(SOTA)のパフォーマンスを達成する。
CPath-CLIPは、初めて異なるビジョンモデルを統合し、大きな言語モデルをテキストエンコーダとして組み込んで、より強力なCLIPモデルを構築する。
論文 参考訳(メタデータ) (2024-12-16T18:46:58Z) - GroupMamba: Efficient Group-Based Visual State Space Model [66.35608254724566]
状態空間モデル(SSM)は、最近、四次計算の複雑さで長距離依存を捉えることを約束している。
しかし、純粋にSSMベースのモデルは、コンピュータビジョンタスクにおける安定性と最先端の性能を達成するために重要な課題に直面している。
本稿では,コンピュータビジョンのためのSSMベースのモデルをスケールする上での課題,特に大規模モデルの不安定性と非効率性について論じる。
論文 参考訳(メタデータ) (2024-07-18T17:59:58Z) - Benchmarking GPT-4 on Algorithmic Problems: A Systematic Evaluation of Prompting Strategies [47.129504708849446]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらした。
LLMは体系的な一般化を欠き、学習された統計正則をトレーニング分布の外へ外挿することができる。
本稿では,最も先進的なLCMの1つであるGPT-4の系統的なベンチマークを行う。
論文 参考訳(メタデータ) (2024-02-27T10:44:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。