論文の概要: Small LLMs for Biomedical Claim Verification: Cost-Effective Fine-Tuning, Structural Dataset Shortcuts, and Cross-Domain Generalization
- arxiv url: http://arxiv.org/abs/2606.12854v1
- Date: Thu, 11 Jun 2026 03:38:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-12 15:55:27.563688
- Title: Small LLMs for Biomedical Claim Verification: Cost-Effective Fine-Tuning, Structural Dataset Shortcuts, and Cross-Domain Generalization
- Title(参考訳): バイオメディカルクレーム検証のための小型LCM:コスト効果ファインチューニング、構造データセットショートカット、クロスドメイン一般化
- Authors: Gaurav Kumar,
- Abstract要約: Mistral-7B QLoRA は GPT-4o と GPT-5 (最大 12% F1 ゲイン) を 1,008 のトレーニング例で上回っている。
これまでに報告されていないSciFactの構造的アーティファクトを同定し、ドメイン内のスコアを膨らませる。
- 参考スコア(独自算出の注目度): 4.179585029440466
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models such as GPT-4o and GPT-5 achieve strong zero-shot performance on biomedical claim verification, but cost and opacity limit scalable use. We fine-tune three small LLMs: Phi-3-mini (3.8B), Qwen2.5-3B, and Mistral-7B, via QLoRA on SciFact and HealthVer, providing the first study of QLoRA models against GPT-4o and fine-tuned BioLinkBERT encoders. Mistral-7B QLoRA surpasses both GPT-4o and GPT-5 (up to 12% F1 gain) at a fractional cost using just 1,008 training examples. We conduct extensive in-domain and cross-domain evaluation: models trained on SciFact tested on HealthVer and vice versa, at matched sizes to isolate dataset structure from data quantity. We identify a previously unreported structural artifact in SciFact that inflates in-domain scores, and show through bidirectional out-of-domain evaluation that training on structurally sound data enables robust cross-domain transfer. We plan to release all code and adapter checkpoints.
- Abstract(参考訳): GPT-4oやGPT-5のような大規模言語モデルは、バイオメディカルクレーム検証において強力なゼロショット性能を実現するが、コストと不透明性はスケーラブルな使用を制限する。
Phi-3-mini (3.8B), Qwen2.5-3B, Mistral-7B, via QLoRA on SciFact and HealthVer, which is a first study of QLoRA model against GPT-4o and fine-tuned BioLinkBERT encoders。
Mistral-7B QLoRA は GPT-4o と GPT-5 (最大 12% F1 ゲイン) を 1,008 のトレーニング例で上回っている。
HealthVerでテストされたSciFactでトレーニングされたモデルと、一致するサイズのデータセット構造をデータ量から分離するためのモデルです。
これまでに報告されていないSciFactの構造的アーティファクトを同定し、ドメイン内スコアを膨らませ、双方向のドメイン外評価を通して、構造的音声データによるトレーニングが堅牢なクロスドメイン転送を可能にすることを示す。
すべてのコードとアダプタのチェックポイントをリリースする予定です。
関連論文リスト
- Domain Fine-Tuning vs. Retrieval-Augmented Generation for Medical Multiple-Choice Question Answering: A Controlled Comparison at the 4B-Parameter Scale [0.0]
小さなオープンウェイトな大規模言語モデル (LLM) は、繰り返し行われる設計選択に直面している。
モデルサイズ,プロンプトテンプレート,復号化温度,検索パイプライン,評価プロトコルを固定することで,このトレードオフを分離する。
論文 参考訳(メタデータ) (2026-04-26T16:49:39Z) - P-RAG: Prompt-Enhanced Parametric RAG with LoRA and Selective CoT for Biomedical and Multi-Hop QA [9.399056753263757]
Retrieval-Augmented Generation (RAG) は、推論中に外部知識を取得することで、この制約に対処する。
3種類のRAG変異体-Standard RAG, DA-RAG, 提案したPrompt-Enhanced Parametric RAG (P-RAG) について検討した。
P-RAG は LLM 内にパラメトリック知識を統合し、チェイン・オブ・ソート (CoT) の誘導とローランド適応 (LoRA) によって導かれる証拠を回収する。
論文 参考訳(メタデータ) (2026-02-02T03:42:45Z) - A Federated and Parameter-Efficient Framework for Large Language Model Training in Medicine [59.78991974851707]
大規模言語モデル(LLM)は、質問応答や診断など、医療ベンチマークにおいて強力なパフォーマンスを示している。
ほとんどの医療用LDMは、異種システムの一般化性と安全性の制限に直面している単一の機関のデータに基づいて訓練されている。
本稿では, LLMを医療応用に適用するためのモデルに依存しない, パラメータ効率のよいフェデレーション学習フレームワークを提案する。
論文 参考訳(メタデータ) (2026-01-29T18:48:21Z) - Pearl: A Foundation Model for Placing Every Atom in the Right Location [52.35027831422145]
タンパク質-リガンド共フォールディングの基礎モデルであるPearlを紹介した。
パールはタンパク質-リガンド結合における新しい最先端性能を確立している。
Pearlは、パブリックなRuns N' PosesとPoseBustersベンチマークでAlphaFold 3や他のオープンソースベースラインを上回っている。
論文 参考訳(メタデータ) (2025-10-28T17:36:51Z) - Performance of GPT-5 Frontier Models in Ophthalmology Question Answering [6.225411871775591]
GPT-5のような大規模言語モデル(LLM)は、医学的質問応答タスクのパフォーマンスを向上させる高度な推論機能を統合する。
O1高, O3高, GPT-4oとともに, OpenAI の GPT-5 シリーズの12 構成を評価した。
GPT-5-highは、O3-highより1.66倍、理性品質(1.11倍、O3-highより1.11倍)の両方で第1位である。
これらの結果は、GPT-5を高品質眼科データセット上でベンチマークし、推論が精度に与える影響を実証し、スケーラブルな評価のためのオートグラファーフレームワークを導入した。
論文 参考訳(メタデータ) (2025-08-13T17:17:17Z) - EfficientLLM: Efficiency in Large Language Models [64.3537131208038]
大規模言語モデル(LLM)は大きな進歩を導いてきたが、その増加とコンテキストウィンドウは計算、エネルギー、金銭的コストを禁止している。
本稿では,新しいベンチマークであるEfficientLLMを紹介する。
論文 参考訳(メタデータ) (2025-05-20T02:27:08Z) - Large Language Models versus Classical Machine Learning: Performance in COVID-19 Mortality Prediction Using High-Dimensional Tabular Data [0.7472996057387354]
本研究では,古典的特徴ベース機械学習モデル(CML)と大規模言語モデル(LLM)のパフォーマンスを比較し,新型コロナウイルス死亡率の予測を行った。
XGBoost と RF は CML において優れた性能を示し,F1 スコアは0.87 と 0.83 であった。
GPT-4はF1スコアが0.43、微調整のMistral-7bは1%から79%に大幅に改善され、外部検証では安定したF1スコアが0.74となった。
論文 参考訳(メタデータ) (2024-09-02T14:51:12Z) - Towards Effective and Efficient Continual Pre-training of Large Language Models [163.34610964970258]
CPT(Continuous pre-training)は、特定のドメインやタスクに言語モデルを適用する上で重要なアプローチである。
本稿では,Llama-3 (8B) の継続事前訓練に関する技術的報告を報告する。
バックボーンモデルの中国語能力と科学的推論能力を大幅に向上させる。
論文 参考訳(メタデータ) (2024-07-26T13:55:21Z) - RankRAG: Unifying Context Ranking with Retrieval-Augmented Generation in LLMs [60.38044044203333]
大規模言語モデル(LLM)は、通常、検索拡張生成(RAG)において、レトリバーからトップkコンテキストを利用する。
本稿では,RAGにおける文脈ランク付けと回答生成の両目的のために,単一のLLMをチューニング可能な新しい命令微調整フレームワークであるRanRAGを提案する。
例えば、GPT-4-0613, GPT-4-turbo-2024-0409, ChatQA-1.5, RAGベンチマークの最先端性能を備えたオープンソースモデルなどである。
論文 参考訳(メタデータ) (2024-07-02T17:59:17Z) - A comparative study of zero-shot inference with large language models
and supervised modeling in breast cancer pathology classification [1.4715634464004446]
大規模言語モデル(LLM)は、有望な伝達学習能力を実証している。
LLMは、大きな注釈付きデータセットをキュレートする必要性を減らし、臨床NLP研究の実行を高速化する可能性を実証した。
これは、観察臨床研究におけるNLPに基づく変数の利用と結果の増加をもたらす可能性がある。
論文 参考訳(メタデータ) (2024-01-25T02:05:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。