Fugu-MT 論文翻訳(概要): Knowledge-Graph Grounding Helps LLMs Only for Out-of-Training Knowledge: A Controlled Study on Clinical Question Answering

論文の概要: Knowledge-Graph Grounding Helps LLMs Only for Out-of-Training Knowledge: A Controlled Study on Clinical Question Answering

arxiv url: http://arxiv.org/abs/2606.22419v1
Date: Sun, 21 Jun 2026 10:12:17 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-24 16:10:15.10808
Title: Knowledge-Graph Grounding Helps LLMs Only for Out-of-Training Knowledge: A Controlled Study on Clinical Question Answering
Title（参考訳）: 知識グラフグラウンドリングは学習外知識にのみ役立つ:臨床質問応答の制御された研究
Authors: Madhulatha Mandarapu, Sandeep Kunkunuru,
Abstract要約: 最近のNature Medicineの研究では、汎用フロンティアLSMは、医学ベンチマークで特別な検索強化臨床ツールより優れていると報告されている。構造化知識グラフ(KG)は、この状況を変えていますか? まず,本研究のヘッドラインであるHealthBenchスコア(88)は,完全HealthBenchではなくConsensus変種である。ナイーブトリプル検索もエージェント自然言語-暗号ループ(82%のクエリ成功)も弱いモデルラグをまたいだMedQAを改善しない
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: A recent Nature Medicine study reports that general-purpose frontier LLMs outperform specialized retrieval-augmented clinical tools on medical benchmarks, and that retrieval can hurt strong models. We ask the natural follow-up: does structured knowledge-graph (KG) grounding change this, and when does grounding help at all? We contribute two results. First, a reproduction: the study's headline HealthBench score (~88) is the Consensus variant, not full HealthBench, where frontier models and ideal completions both score ~46-47 under a physician-calibrated grader (agreement 82.5%); we reproduce GPT-5.2 Consensus =90.9 and flag a score-deflating grader bug. Second, a knowledge-boundary result. Using a graph+vector engine (samyama-graph) over the public biomedical KG PrimeKG, neither naive triple retrieval nor an agentic natural-language-to-Cypher loop (82% successful queries) improves MedQA across a weak-to-strong model ladder (all |Delta| <= 3.4). On a synthetic counterfactual KG, and on a hybrid benchmark mixing known and novel facts, the identical pipeline lifts out-of-training accuracy from chance to ~100% (+68 to +79) while adding nothing on known facts (a no-LLM arm answers both). Across three regimes (no-knowledge, graph-aided, hybrid), grounding helps only insofar as the decisive fact lies outside the model's training -- public-KG facts are redundant, private and novel data are where it pays -- matching the study's institutional-data caveat.
Abstract（参考訳）: 最近のNature Medicineの研究では、汎用的なフロンティアLSMは、医学ベンチマークにおける特殊な検索強化臨床ツールよりも優れており、検索が強力なモデルを傷つける可能性があると報告されている。構造化知識グラフ(KG)は、この状況を変えていますか? 私たちは2つの結果に貢献する。まず、この研究のヘッドラインであるHealthBenchスコア(〜88)は、完全なHealthBenchではなくConsensus変種である。第二に、知識境界の結果です。一般のバイオメディカルKG PrimeKG上のグラフ+ベクターエンジン(サムヤマグラフ)を使用することで、3重検索もエージェント型自然言語-暗号ループ(82%のクエリ成功)も弱強モデルラグ(すべて|Delta| <= 3.4)でMedQAを改善する。合成反事実KGと、既知の事実と新しい事実を混合したハイブリッドベンチマークでは、同一のパイプラインは、トレーニングの正確さを確率から~100%(+68から+79)まで引き上げると同時に、既知の事実には何も追加しない(どちらもLLMのアームが答えない)。 3つの体制(知識なし、グラフ支援、ハイブリッド)をまたいだグラウンド化は、モデルトレーニングの外部にある決定的な事実として、内部でのみ有効である。

関連論文リスト

ReGraM: Region-First Knowledge Graph Reasoning for Medical Question Answering [0.8541350364950834]
ReGraMは、領域優先の知識グラフ推論フレームワークである。 ReGraMが強いベースライン(KGARevion)を一貫して上回ることを示す。また、これらの改善の原動力は、地域構築とホップワイズ推論の整合性にあることも示している。
論文参考訳（メタデータ） (2026-01-14T08:33:14Z)
From Evidence-Based Medicine to Knowledge Graph: Retrieval-Augmented Generation for Sports Rehabilitation and a Domain Benchmark [12.595335483488052]
医学において、大規模な言語モデルは、最新の外部証拠のアウトプットを得るために、検索強化世代(RAG)にますます依存している。本研究は,(1)クエリと検索されたエビデンス間のPICOアライメントの欠如,(2)再ランク付け時のエビデンス階層的考察の欠如,の2つの主要なギャップに対処する。本稿では,知識グラフ構築と検索にPICOフレームワークを統合することにより,EMMをグラフベースRAGに適用するための一般化可能な戦略を提案する。
論文参考訳（メタデータ） (2026-01-01T05:20:54Z)
MedKGent: A Large Language Model Agent Framework for Constructing Temporally Evolving Medical Knowledge Graph [57.54231831309079]
我々は、時間的に進化する医療知識グラフを構築するためのフレームワークであるMedKGentを紹介する。生医学的知識の出現を, 微粒な日々の時系列でシミュレートする。結果として得られるKGは156,275個のエンティティと2,971,384個のリレーショナルトリプルを含む。
論文参考訳（メタデータ） (2025-08-17T15:14:03Z)
Disentangling Reasoning and Knowledge in Medical Large Language Models [23.401484250342158]
大きな言語モデルにおける医学的推論は、臨床医の診断的思考をエミュレートすることを目的としている。 MedQA-USMLE、MedMCQA、PubMedQAといった現在のベンチマークでは、推論と事実のリコールが混在していることが多い。バイオメディカルモデル(HuatuoGPT-o1, MedReason, m1)と一般ドメインモデル(DeepSeek-R1, o4-mini, Qwen3)を評価する。我々は、推論重大例に基づいて微調整と強化学習を用いてBioMed-R1を訓練する。
論文参考訳（メタデータ） (2025-05-16T17:16:27Z)
KGARevion: An AI Agent for Knowledge-Intensive Biomedical QA [31.080514888803886]
KGARevionは知識グラフに基づくエージェントで、知識集約的な質問に答える。これは、大きな言語モデルに埋め込まれた潜伏した知識を活用することで、関連する三つ子を生成する。そして、これらの三重項を知識グラフに対して検証し、エラーをフィルタリングし、正確で文脈的に関係のある情報のみを保持する。
論文参考訳（メタデータ） (2024-10-07T00:17:37Z)
Brain Tumor Classification on MRI in Light of Molecular Markers [56.99710477905796]
1p/19q遺伝子の同時欠失は、低グレードグリオーマの臨床成績と関連している。本研究の目的は,MRIを用いた畳み込みニューラルネットワークを脳がん検出に活用することである。
論文参考訳（メタデータ） (2024-09-29T07:04:26Z)
Fact-Checking Generative AI: Ontology-Driven Biological Graphs for Disease-Gene Link Verification [45.65374554914359]
本研究の目的は,ChatGPTの内容から得られた生物学的グラフに埋め込まれた知識の事実チェックを実現することである。そこで我々は,ChatGPTの関連エンティティの系統的尋問を可能にする生物学的ネットワークアプローチを採用した。本研究は,ChatGPT生成テキスト中の集合疾患遺伝子関係の高精度な解析を行った。
論文参考訳（メタデータ） (2023-08-07T22:13:30Z)
Scientific Language Models for Biomedical Knowledge Base Completion: An Empirical Study [62.376800537374024]
我々は,KG の完成に向けた科学的 LM の研究を行い,生物医学的リンク予測を強化するために,その潜在知識を活用できるかどうかを探る。 LMモデルとKG埋め込みモデルを統合し,各入力例をいずれかのモデルに割り当てることを学ぶルータ法を用いて,性能を大幅に向上させる。
論文参考訳（メタデータ） (2021-06-17T17:55:33Z)
Explainable Multi-class Classification of the CAMH COVID-19 Mental Health Data [0.9137554315375922]
本稿では,Covid-19のメンタルヘルスデータの多クラス分類について述べる。機械学習研究では、コビッドウイルスのパンデミックにおいて、個人のメンタルヘルスに影響を与える潜在的な要因を見つけることを目的としている。
論文参考訳（メタデータ） (2021-05-27T20:08:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。