論文の概要: Stress-testing medical large language models reveals latent safety pathology beyond benchmark accuracy
- arxiv url: http://arxiv.org/abs/2606.07929v1
- Date: Sat, 06 Jun 2026 01:39:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:05.541432
- Title: Stress-testing medical large language models reveals latent safety pathology beyond benchmark accuracy
- Title(参考訳): ストレステストの医療用大言語モデルがベンチマークの精度を超えた潜在的な安全病理を明らかに
- Authors: Yuan Shen, Xiaojun Wu, Linghua Yu,
- Abstract要約: 大規模言語モデル(LLM)は、安全関連障害モードの検出に失敗する可能性のあるベンチマーク精度に基づいて臨床実践を行っている。
本稿では, 肝疾患からのメタボリックストレステストの論理を臨床摂動評価に適用する, ストレス監査フレームワークであるAI-MASLDを提案する。
- 参考スコア(独自算出の注目度): 25.403894453021817
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) are entering clinical practice based on benchmark accuracy that may fail to detect safety-relevant failure modes. Here we present AI-MASLD, a stress-audit framework that adapts the logic of metabolic stress testing from hepatology to the evaluation of clinical LLMs. Using 240 clinical cases across six narrative perturbation probes, we subjected seven models to double-stress testing and quantified performance through three indices: metabolic index (MI), perturbation flip rate (PFR), and counterfactual fairness index (CFI). Under clean baseline conditions, all models performed uniformly well. Under realistic narrative stress, performance diverged sharply, revealing two distinct stress-response phenotypes. Quantized models exhibited pseudonormalization, in which low flip rates hid functional collapse. Medical supervised fine-tuning systematically degraded logical stability, fairness, and information extraction. An open-weight model matched or exceeded proprietary alternatives on every safety dimension. These findings establish narrative stress auditing as a necessary complement to accuracy-based evaluation.
- Abstract(参考訳): 大規模言語モデル(LLM)は、安全関連障害モードの検出に失敗する可能性のあるベンチマーク精度に基づいて臨床実践を行っている。
本稿では, 肝疾患からのメタボリックストレステストの論理を臨床LSMの評価に適用する, ストレス監査フレームワークであるAI-MASLDを提案する。
メタボリック・インデクス(MI),摂動フリップレート(PFR),反ファクト・フェアネス・インデクス(CFI)の3つの指標を用いて,6つのモデルを用いて二重ストレス試験と定量化を行った。
クリーンなベースライン条件下では、全てのモデルが均一に動作した。
現実的な物語的ストレスの下では、パフォーマンスは急変し、2つの異なるストレス応答表現型が明らかになった。
量子化モデルは擬似正規化を示し、低いフリップレートは機能的崩壊を隠した。
医療監督による微調整は、系統的に論理的安定性、公正性、情報抽出を低下させた。
オープンウェイトモデルは、あらゆる安全次元においてプロプライエタリな代替品と一致するか超えた。
これらの知見は,正確性に基づく評価に欠かせない,物語的ストレス監査を確立した。
関連論文リスト
- When Large Language Models Fail in Healthcare: Evaluating Sensitivity to Prompt Variations [1.0152838128195467]
大規模言語モデル (LLMs) は、臨床質問応答、診断支援、報告要約などのタスクのために医療でますます使われている。
彼らの約束にもかかわらず、これらのモデルは語彙的および構文的両方の微妙な急激な摂動に対して非常に敏感であり、安全クリティカルな臨床応用に重大なリスクをもたらす。
摂動を自然型, 逆型に分類し, モデル整合性, 精度, 信頼性に及ぼす効果について検討した。
論文 参考訳(メタデータ) (2026-06-05T13:07:11Z) - Counterfactual Stress Testing for Image Classification Models [12.520708194901735]
医療画像における深層学習モデルは、新しい臨床環境に配備されるとしばしば失敗する。
同様のバリデーションパフォーマンスを持つモデルでは、現実の障害モードが相違する。
本稿では,現実的な「もし」な画像を生成する因果生成モデルに基づく非現実的ストレステストフレームワークを提案する。
論文 参考訳(メタデータ) (2026-05-11T17:36:16Z) - Beyond Prompt: Fine-grained Simulation of Cognitively Impaired Standardized Patients via Stochastic Steering [58.85421622061983]
認知障害患者の微粒化シミュレーションのためのStsPatientを提案する。
対照的な命令と応答のペアからステアリングベクトルを抽出することにより、ドメイン固有の特徴を捉える。
StsPatientは、臨床の信頼性と重症度の両方において、ベースラインを著しく上回る。
論文 参考訳(メタデータ) (2026-04-14T02:37:46Z) - Delving Aleatoric Uncertainty in Medical Image Segmentation via Vision Foundation Models [56.29123284262618]
本研究は,視覚基盤モデルの普遍的表現能力を生かして固有データ不確実性を推定することを提案する。
モデルのデコード表現の特徴の多様性を分析し,その特異値エネルギーを定量化し,各クラスに対する意味知覚尺度を定義する。
この基礎に基づいて,本研究は,(1)潜在的にノイズの多いサンプルを排除し,モデル学習品質を向上させるためのアレータリック不確実性認識データフィルタリング機構,(2)意味認識尺度に基づくトレーニング中にクラス固有の損失重みを適応的に調整する動的不確実性認識最適化戦略,およびトレーニング安定性を向上させるラベル認知機構の2つの不確実性駆動型アプリケーション戦略を設計する。
論文 参考訳(メタデータ) (2026-04-13T03:59:54Z) - The Stationarity Bias: Stratified Stress-Testing for Time-Series Imputation in Regulated Dynamical Systems [0.098314893665023]
時系列計算ベンチマークはランダムマスキングと形状に依存しないメトリクスを使用する。
我々は、このバイアスを形式化し、評価を定常型と過渡型に分割するemphStratified Stress-Testを提案する。
論文 参考訳(メタデータ) (2026-02-17T15:05:56Z) - A systematic evaluation of uncertainty quantification techniques in deep learning: a case study in photoplethysmography signal analysis [1.6690512882610855]
ディープラーニングモデルは、臨床外の生理的パラメータを継続的に監視するために使用することができる。
実践的な測定シナリオに配備された場合、パフォーマンスが悪くなるリスクがあり、負の患者結果につながる。
ここでは、2つの臨床関連予測タスクで訓練されたモデルに対して、8つの不確実性(UQ)技術を実装する。
論文 参考訳(メタデータ) (2025-10-31T22:54:13Z) - EchoBench: Benchmarking Sycophancy in Medical Large Vision-Language Models [82.43729208063468]
医療用LVLM(Large Vision-Language Models)の最近のベンチマークでは、信頼性と安全性を見越して、リーダボードの精度を強調している。
ユーザが提供した情報を非批判的に反響させる傾向のモデルについて検討する。
医療用LVLMの梅毒を系統的に評価するベンチマークであるEchoBenchを紹介する。
論文 参考訳(メタデータ) (2025-09-24T14:09:55Z) - Organ-Agents: Virtual Human Physiology Simulator via LLMs [66.40796430669158]
オルガン-エージェント(Organ-Agents)は、LDM駆動のエージェントを介して人間の生理学をシミュレートする多エージェントフレームワークである。
症例は7,134例,コントロール7,895例で,9系統および125変数にわたる高分解能トラジェクトリを作成した。
臓器抗原は4,509人の保留患者に対して高いシミュレーション精度を達成し, システムごとのMSE0.16とSOFA系重症度層間の堅牢性を示した。
論文 参考訳(メタデータ) (2025-08-20T01:58:45Z) - Beyond Benchmarks: Dynamic, Automatic And Systematic Red-Teaming Agents For Trustworthy Medical Language Models [87.66870367661342]
大規模言語モデル(LLM)は、医療におけるAIアプリケーションで使用される。
LLMを継続的にストレステストするレッドチームフレームワークは、4つのセーフティクリティカルなドメインで重大な弱点を明らかにすることができる。
敵エージェントのスイートは、自律的に変化するテストケースに適用され、安全でないトリガー戦略を特定し、評価する。
私たちのフレームワークは、進化可能でスケーラブルで信頼性の高い、次世代の医療AIのセーフガードを提供します。
論文 参考訳(メタデータ) (2025-07-30T08:44:22Z) - Robustness Stress Testing in Medical Image Classification [26.094688963784254]
我々はストレステストを用いて、疾患検出モデルにおけるモデルロバスト性およびサブグループパフォーマンスの相違を評価する。
胸部X線画像と皮膚病変画像に対する疾患検出モデルのロバスト性の測定にストレステストを適用した。
我々の実験は、いくつかのモデルが他のモデルよりもより堅牢で公平な性能が得られることを示唆している。
論文 参考訳(メタデータ) (2023-08-14T02:02:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。