論文の概要: Trust but Verify: Mitigating Medical Hallucinations via Post-Hoc Adversarial Auditing and Multi-Agent Feedback Loops
- arxiv url: http://arxiv.org/abs/2606.14149v1
- Date: Fri, 12 Jun 2026 06:21:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-15 16:00:42.769322
- Title: Trust but Verify: Mitigating Medical Hallucinations via Post-Hoc Adversarial Auditing and Multi-Agent Feedback Loops
- Title(参考訳): 信頼と検証: ホック後の反対監査とマルチエージェントフィードバックループによる医学的幻覚の緩和
- Authors: Muhammad Osama, Maheera Amjad, Zartasha Mustansar, Arslan Shaukat, Muhammad U. S. Khan,
- Abstract要約: 大規模言語モデル(LLM)は、医療現場にますます導入されているが、臨床上の決定が関与すると、幻覚を引き起こす傾向が生じる。
本研究は, LLMが最近, 臨床的疑問に答える際に, 薬剤の投与を推奨するか, 中止を推奨するかを検討するものである。
LLMバックボーンを用いた5エージェント"Trust but verify"システムを開発した。
- 参考スコア(独自算出の注目度): 0.07249400282852114
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) are increasingly deployed in healthcare settings, yet their tendency to hallucinate poses risks when clinical decisions are involved. This study examine whether LLMs recommend recently banned or withdrawn pharmaceuticals when answering clinical questions and tests an agent-based method for reducing such errors. We developed a five-agent "Trust but Verify" system using a single LLM backbone. To measure regulatory knowledge obsolescence, we created an adversarial dataset of 103 clinical MCQs where historically correct answers now refer to banned substances. This scale ensures statistical significance across various therapeutic classes. We evaluated three open-access model families (GPT-OSS, Llama-3, Falcon-3) under vanilla and agentic conditions. Performance was measured via pointwise score, label accuracy, Hallucination Error Rate (HER), and Component Fidelity (CF) score. We also observed clinical safety regression in proprietary models. In default configurations, all models showed high hallucination rates, consistently selecting banned drugs that matched training data patterns. Our proposed agentic architecture reduced HER by approximately 53% across models. Pointwise scores shifted from -0.25 (unsafe recommendation) toward 0.0 (appropriate refusal). The safety audit intercepted dangerous outputs even when models' parametric knowledge favored the banned substance. The proposed multi-agent framework offers a model-agnostic method for enforcing regulatory compliance that prioritizes patient safety over fluent text generation. Our work demonstrates a practical approach for deploying autonomous AI systems in safety-critical healthcare settings. It shows how real-time regulatory data can be integrated into LLM pipelines to support clinical decision-making.
- Abstract(参考訳): 大規模言語モデル(LLM)は、医療現場にますます導入されているが、臨床上の決定が関与すると、幻覚を引き起こす傾向が生じる。
本研究は, LLMが最近, 臨床質問に答える際に, 薬剤の投与を推奨するか, 中止を推奨するか, エージェントベースの方法を用いてその誤りを低減させるかを検討した。
LLMバックボーンを用いた5エージェント"Trust but Verify"システムを開発した。
規制知識の陳腐化を測定するために, 歴史的に正しい回答が禁止物質に言及されている103の臨床MCQの逆解析データセットを作成した。
この尺度は、様々な治療階級における統計的重要性を保証する。
3種類のオープンアクセスモデル(GPT-OSS, Llama-3, Falcon-3)をバニラおよび薬剤条件下で評価した。
評価は,ポイントワイドスコア,ラベル精度,HER(Halucination Error Rate),CF(Component Fidelity)スコアを用いて行った。
また,プロプライエタリモデルにおいても臨床安全性の低下が観察された。
デフォルト設定では、すべてのモデルは高い幻覚率を示し、トレーニングデータパターンにマッチする禁止薬物を一貫して選択した。
提案するエージェントアーキテクチャにより,モデル間でHERを約53%削減した。
ポイントワイドスコアは-0.25(アンセーフレコメンデーション)から0.0(適切な拒絶)にシフトした。
安全監査は、モデルのパラメトリック知識が禁止物質を好んだとしても、危険な出力を傍受した。
提案するマルチエージェントフレームワークは,患者の安全を優先する規制コンプライアンスを強制するモデルに依存しない手法を提供する。
私たちの研究は、安全クリティカルな医療環境で自律型AIシステムをデプロイするための実践的なアプローチを示します。
これは、リアルタイムの規制データをLLMパイプラインに統合して、臨床的意思決定をサポートする方法を示している。
関連論文リスト
- CARE: A Conformal Safety Layer for Medical Summarization [24.00849890172944]
大きな言語モデル(LLM)は、医学的な要約にますます使われている。
既存のエラー検出手法ではスコアが生成または未校正され、エラーを正しく制御することができない。
リスク評価のためのコンフォーマルアセスメント(CARE, Conformal Assessment for Risk Evaluation)を導入する。
論文 参考訳(メタデータ) (2026-06-08T03:10:45Z) - Med-HEAL: Analyzing and Mitigating Hallucinations in Medical LLMs with Hallucination-Aware In-Context Learning [8.322191814123315]
医学的大言語モデルにおける幻覚は臨床決定支援に重大なリスクをもたらす。
医療用LLMの幻覚を系統的に同定し,分析し,緩和するためのフレームワークであるMed-HEALを紹介する。
論文 参考訳(メタデータ) (2026-05-31T15:43:42Z) - ProtoMedAgent: Multimodal Clinical Interpretability via Privacy-Aware Agentic Workflows [7.27267618572654]
ProtoMedAgentは、反復的なゼロ段階のテスト時間最適化問題としてマルチモーダルな臨床報告を定式化する。
オンライン生成は、厳密な集合論微分と反射的スクリーブ・クリティカルループによって制限される。
ProtoMedAgentは91.2%の比較集合Fithfulnessを実現し、標準RAG(46.2%)を根本的に上回る
論文 参考訳(メタデータ) (2026-05-13T20:57:37Z) - A Federated and Parameter-Efficient Framework for Large Language Model Training in Medicine [59.78991974851707]
大規模言語モデル(LLM)は、質問応答や診断など、医療ベンチマークにおいて強力なパフォーマンスを示している。
ほとんどの医療用LDMは、異種システムの一般化性と安全性の制限に直面している単一の機関のデータに基づいて訓練されている。
本稿では, LLMを医療応用に適用するためのモデルに依存しない, パラメータ効率のよいフェデレーション学習フレームワークを提案する。
論文 参考訳(メタデータ) (2026-01-29T18:48:21Z) - Conformal Lesion Segmentation for 3D Medical Images [82.92159832699583]
本稿では,データ駆動しきい値の校正をコンフォーマル化することで,テスト時間FNRが目標許容値以下であることを保証する,リスク制約付きフレームワークを提案する。
5つのバックボーンモデルにまたがる6つの3D-LSデータセット上でのCLSの統計的健全性と予測性能を検証し,臨床実践におけるリスク認識セグメンテーションの展開に関する実用的な知見を得た。
論文 参考訳(メタデータ) (2025-10-19T08:21:00Z) - A Granular Study of Safety Pretraining under Model Abliteration [64.24346997570275]
本稿では,リフレクションに敏感な方向を除去する軽量プロジェクション技術であるモデルアブリーブレーションについて検討する。
我々は、バランスのとれた有害かつ無害なケースで100のプロンプトを発行し、複数の判断を用いて**Refusal*または***Non-Refusal*として応答を分類し、判断の忠実さを検証する。
本研究は,データ中心の安全コンポーネントが失語中も頑健であるチェックポイントレベルの特徴付けを行う。
論文 参考訳(メタデータ) (2025-10-03T07:01:45Z) - From Scores to Steps: Diagnosing and Improving LLM Performance in Evidence-Based Medical Calculations [45.414878840652115]
大規模言語モデル(LLM)は医療ベンチマークで有望な性能を示した。
しかし、医学的な計算を行う能力は未熟であり、評価も不十分である。
本研究は,臨床信頼性を重視した医療計算評価を再考する。
論文 参考訳(メタデータ) (2025-09-20T09:10:26Z) - Beyond Benchmarks: Dynamic, Automatic And Systematic Red-Teaming Agents For Trustworthy Medical Language Models [87.66870367661342]
大規模言語モデル(LLM)は、医療におけるAIアプリケーションで使用される。
LLMを継続的にストレステストするレッドチームフレームワークは、4つのセーフティクリティカルなドメインで重大な弱点を明らかにすることができる。
敵エージェントのスイートは、自律的に変化するテストケースに適用され、安全でないトリガー戦略を特定し、評価する。
私たちのフレームワークは、進化可能でスケーラブルで信頼性の高い、次世代の医療AIのセーフガードを提供します。
論文 参考訳(メタデータ) (2025-07-30T08:44:22Z) - Correctness Coverage Evaluation for Medical Multiple-Choice Question Answering Based on the Enhanced Conformal Prediction Framework [2.9599960287815144]
大規模言語モデル(LLM)は、医療質問応答(QA)のシナリオでますます採用されている。
LLMは幻覚や非現実的な情報を生成でき、高い医療業務における信頼性を損なう。
本稿では,医療用マルチ選択質問応答タスクのための拡張型コンフォーマル予測フレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-07T15:22:10Z) - SORRY-Bench: Systematically Evaluating Large Language Model Safety Refusal [64.9938658716425]
SORRY-Benchは、安全でないユーザ要求を認識し拒否する大規模言語モデル(LLM)能力を評価するためのベンチマークである。
まず、既存の手法では、安全でないトピックの粗い分類を使い、いくつかのきめ細かいトピックを過剰に表現している。
第二に、プロンプトの言語的特徴とフォーマッティングは、様々な言語、方言など、多くの評価において暗黙的にのみ考慮されているように、しばしば見過ごされる。
論文 参考訳(メタデータ) (2024-06-20T17:56:07Z) - Large Language Model Distilling Medication Recommendation Model [58.94186280631342]
大規模言語モデル(LLM)の強力な意味理解と入力非依存特性を利用する。
本研究は, LLMを用いて既存の薬剤推奨手法を変換することを目的としている。
これを軽減するため,LLMの習熟度をよりコンパクトなモデルに伝達する機能レベルの知識蒸留技術を開発した。
論文 参考訳(メタデータ) (2024-02-05T08:25:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。