論文の概要: MedBench v5: A Dynamic, Process-Oriented, and Hallucination-Aware Benchmark for Clinical Multimodal Models
- arxiv url: http://arxiv.org/abs/2606.24155v1
- Date: Tue, 23 Jun 2026 05:23:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-24 22:16:48.789013
- Title: MedBench v5: A Dynamic, Process-Oriented, and Hallucination-Aware Benchmark for Clinical Multimodal Models
- Title(参考訳): MedBench v5: 臨床マルチモーダルモデルのための動的、プロセス指向、幻覚を意識したベンチマーク
- Authors: Ding Jinru, Jiang Chuchu, Lu Lu, Pang Wenrao, Bian Mouxiao, Gao Zhuangzhi, Chen Jiangyuan, Peng xinwei, Chen Ruiyao, Ren Sijie, Lu Renjie, Han Bin, Liu Meiling, and Xu Jie,
- Abstract要約: 既存の医療AIベンチマークには、プロセスの可視性、アトミックスキル評価、統合幻覚検出が欠如している。
臨床マルチモーダルモデルのための再設計されたベンチマークであるMedBench v5を紹介する。
- 参考スコア(独自算出の注目度): 1.4505218422924067
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing medical AI benchmarks lack process visibility, atomic skill evaluation, and integrated hallucination detection. We introduce MedBench v5, a redesigned benchmark for clinical multimodal models (language, vision-language, and agent systems) that moves from static QA to dynamic, process-oriented evaluation. MedBench v5 features: (1) a dual-dimensional framework combining Clinical Cognitive Responsiveness (14 sub-dimensions) and Medical Atomic Skills (4 agent environments), covering 63 tasks; (2) three switchable information-flow stressors (omission, contradiction, evidence delay) for factorized degradation analysis; (3) a dynamic process audit protocol with five reasoning nodes that produces model-specific failure fingerprints; (4) hallucination propagation monitoring across initiation, propagation, anchoring, and contradiction interaction-capturing silent hallucination. Experiments on frontier models show that strong overall task performance does not guarantee process stability: stressors mainly disrupt contradiction detection, diagnosis updating, hallucination propagation, and contradiction-based self-correction, while final evidence grounding can remain superficially stable. MedBench v5 provides a unified infrastructure for capability profiling, controllable stress testing, process auditing, and hallucination trajectory analysis in clinical AI evaluation.
- Abstract(参考訳): 既存の医療AIベンチマークには、プロセスの可視性、アトミックスキル評価、統合幻覚検出が欠如している。
MedBench v5は、静的QAから動的プロセス指向評価に移行する、臨床マルチモーダルモデル(言語、視覚言語、エージェントシステム)のための再設計されたベンチマークである。
MedBench v5 の特徴は,(1) 臨床認知応答性 (14サブ次元) と医療原子スキル (4エージェント環境) を組み合わせた2次元のフレームワークで,63 タスクをカバーし,(2) 分解分析のための3 つの切り換え可能な情報フローストレス因子 (省略性,矛盾性,証拠遅延) ,(3) モデル特異的な障害指紋を生成する5 つの推論ノードを持つ動的プロセス監査プロトコル,(4) 開始,伝播,アンカー,および矛盾する相互作用を捉えたサイレント幻覚のモニタリングである。
ストレッサーは、主に矛盾検出、診断更新、幻覚伝播、矛盾に基づく自己補正を妨害し、最終的な証拠は表面的には安定である。
MedBench v5は、機能プロファイリング、制御可能なストレステスト、プロセス監査、および臨床AI評価における幻覚の軌跡分析のための統一的なインフラストラクチャを提供する。
関連論文リスト
- A Multi-Agent Audit Framework for High-Stakes Reasoning: Evaluation and Interpretability in Clinical Mental Health Screening [0.8758828205574085]
協調的な多段階検証プロセスをシミュレートするマルチエージェント監査フレームワークを提案する。
臨床精神保健検診の感度領域において,このアーキテクチャを実証的に検証した。
本フレームワークは, 推論過程を知覚エージェント, 知識検索生成(RAG), CoT (Chain-of-Thought) 臨床推論, 重要な監査段階に分解する。
論文 参考訳(メタデータ) (2026-06-19T05:51:03Z) - MedCTA: A Benchmark for Clinical Tool Agents [47.47354499871572]
MedCTA(MedCTA)は,臨床医が有する段階的作業における医療ツールエージェントの評価のためのベンチマークである。
MedCTAは、実世界の107の臨床的タスクと、臨床者が検証した5つのデプロイツール以上の実行可能な軌道から構成される。
我々は18のオープンソースおよびクローズドソースマルチモーダルモデルをベンチマークし、フロンティアシステムでさえもマルチステップ臨床ツールの使用において脆弱であることを発見した。
論文 参考訳(メタデータ) (2026-06-10T06:26:52Z) - Dialectic-Med: Mitigating Diagnostic Hallucinations via Counterfactual Adversarial Multi-Agent Debate [2.645243404278707]
本稿では,対数弁証法を用いて診断厳格を強制するマルチエージェントフレームワークDialectic-Medを提案する。
ファリシフィケーションの認知過程を明示的にモデル化することにより、診断的推論が検証された視覚領域にしっかりと根付いていることを保証する。
論文 参考訳(メタデータ) (2026-04-13T10:09:36Z) - Tree-of-Evidence: Efficient "System 2" Search for Faithful Multimodal Grounding [1.6365003324232734]
Inference-time search algorithm that frames interpretability as a individual optimization problem。
ToEは、粗いグループまたはデータの単位をスコアする軽量なEvidence Bottleneckを採用し、モデルの予測を再現するために必要なコンパクトなエビデンスを特定するためにビームサーチを実行する。
スパースエビデンス予算の下では、ToEは他のアプローチよりも高い決定合意と低い確率忠実度誤差を達成する。
論文 参考訳(メタデータ) (2026-04-09T01:28:14Z) - Strong Reasoning Isn't Enough: Evaluating Evidence Elicitation in Interactive Diagnosis [29.630872344186873]
インタラクティブな医療相談は、エージェントが不確実性の下で行方不明な臨床証拠を積極的に引き出す必要がある。
既存の評価の大部分は静的あるいは結果中心であり、エビデンス収集プロセスを無視している。
シミュレーションされた患者と、原子的証拠に基づく再現されたレポーターを用いて、コンサルテーションプロセスを明示的にモデル化するインタラクティブな評価フレームワークを提案する。
論文 参考訳(メタデータ) (2026-01-27T16:36:35Z) - AgentsEval: Clinically Faithful Evaluation of Medical Imaging Reports via Multi-Agent Reasoning [73.50200033931148]
本稿では,放射線科医の協調診断ワークフローをエミュレートしたマルチエージェントストリーム推論フレームワークであるAgensEvalを紹介する。
評価プロセスを基準定義、エビデンス抽出、アライメント、一貫性スコアなどの解釈可能なステップに分割することで、AgensEvalは明確な推論トレースと構造化された臨床フィードバックを提供する。
実験結果から,AgensEvalは,言い換え,意味的,スタイリスティックな摂動の下でも頑健な臨床的整合性,意味的忠実性,解釈可能な評価を提供することが示された。
論文 参考訳(メタデータ) (2026-01-23T11:59:13Z) - M3CoTBench: Benchmark Chain-of-Thought of MLLMs in Medical Image Understanding [66.78251988482222]
CoT(Chain-of-Thought)推論は、ステップバイステップの中間推論を奨励することによって、大規模言語モデルの強化に有効であることが証明されている。
医用画像理解のための現在のベンチマークでは、推論パスを無視しながら最終回答に重点を置いている。
M3CoTBenchは、透明で信頼性が高く、診断的に正確な医療用AIシステムの開発を促進することを目的としている。
論文 参考訳(メタデータ) (2026-01-13T17:42:27Z) - Benchmarking Egocentric Clinical Intent Understanding Capability for Medical Multimodal Large Language Models [48.95516224614331]
MedGaze-Benchは、臨床医の視線を認知的カーソルとして活用し、手術、緊急シミュレーション、診断解釈における意図的理解を評価する最初のベンチマークである。
本ベンチマークでは,解剖学的構造の視覚的均一性,臨床における時間・因果依存性の厳格化,安全プロトコルへの暗黙の順守という3つの基本的な課題に対処する。
論文 参考訳(メタデータ) (2026-01-11T02:20:40Z) - Vision-Language Introspection: Mitigating Overconfident Hallucinations in MLLMs via Interpretable Bi-Causal Steering [33.3588824921581]
メタ認知的自己補正プロセスをシミュレートするトレーニングフリー推論フレームワークであるVision-Language Introspection (VLI)を導入する。
VLIは高度なモデルで最先端のパフォーマンスを実現し、MMHal-Benchではオブジェクト幻覚率を12.67%削減し、POPEでは精度を5.8%向上した。
論文 参考訳(メタデータ) (2026-01-08T17:49:13Z) - ICR Probe: Tracking Hidden State Dynamics for Reliable Hallucination Detection in LLMs [50.18087419133284]
隠れた状態を活用する幻覚検出法は、主に静的および孤立した表現に焦点を当てている。
隠れ状態の更新に対するモジュールの寄与を定量化する新しいメトリック ICR Score を導入する。
本稿では,隠れ状態の層間進化を捉えた幻覚検出手法 ICR Probe を提案する。
論文 参考訳(メタデータ) (2025-07-22T11:44:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。