Fugu-MT 論文翻訳(概要): Finetuning with Scientific Data Increases Hallucinations: A Multi-domain Factuality Evaluation of LLMs

論文の概要: Finetuning with Scientific Data Increases Hallucinations: A Multi-domain Factuality Evaluation of LLMs

arxiv url: http://arxiv.org/abs/2606.21359v1
Date: Fri, 19 Jun 2026 12:03:02 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-25 14:05:50.877541
Title: Finetuning with Scientific Data Increases Hallucinations: A Multi-domain Factuality Evaluation of LLMs
Title（参考訳）: 科学データを用いたファインタニングによる幻覚の増大: LLMの多領域性評価
Authors: Raia Abu Ahmad, Nikolas Rauscher, Ekaterina Borisova, Fabio Barth, Georg Rehm, Sebastian Möller,
Abstract要約: 大規模言語モデル(LLM)は、科学概念の伝達や説明にますます利用されている。本研究は, 科学的に微調整されたモデルと汎用ベースとの対比により, 18 LLM の評価を行った。
参考スコア（独自算出の注目度）: 8.700507644617964
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large language models (LLMs) are increasingly used to communicate and explain scientific concepts, yet their tendency to hallucinate poses significant risks in this high stakes use-case. Prior hallucination evaluation work remains largely restricted to the biomedical domain, treats hallucination as a binary task, and has not examined the growing family of scientifically fine-tuned LLMs. We address these gaps with SciFactCheck, a benchmark of 2,500 prompts across five scientific domains, paired with a modular evaluation framework targeting three factuality hallucination types: unverifiability, overclaim, and attribution. Using a controlled minimal-pairing design, we evaluate 18 LLMs by comparing each scientifically fine-tuned model against its general-purpose base. Our results indicate that 1. Scientifically fine-tuned models exhibit degraded factual reliability across all hallucination types and scientific domains, and 2. Fine-tuned models are internally less confident yet linguistically more assertive. A human pilot study further reveals that current fact-checking tools show only modest agreement with expert judgments on scientific content, and that defining scientifically check-worthy claims remains contested even among human annotators. Our findings fundamentally challenge current methods of domain-specific fine-tuning for factuality and call for developing improved verification infrastructure for scientific content.
Abstract（参考訳）: 大規模言語モデル(LLM)は、科学的概念の伝達や説明にますます利用されているが、その幻覚化傾向は、この高い利害関係のユースケースに重大なリスクをもたらす。初期幻覚評価作業は, 主に生物医学領域に限られており, 幻覚を二元的課題として扱っており, 科学的に微調整されたLDMの家系の発達について検討していない。 SciFactCheckは5つの科学的領域にまたがる2,500のプロンプトのベンチマークで、3つの事実の幻覚を対象とするモジュラー評価フレームワークである。制御された最小ペアリング設計を用いて、各科学的な微調整モデルと汎用モデルとの比較により、18個のLLMを評価した。私たちの結果は一科学的に微調整されたモデルは、すべての幻覚の種類及び科学的領域にわたって劣化した事実信頼性を示す。 2. 微調整モデルは内部的には信頼性が低く、言語的にもより断定的である。人間のパイロット研究により、現在の事実チェックツールは、科学的内容に関する専門家の判断とわずかに一致しているだけであり、科学的にチェックに値する主張を定義することは、人間のアノテーターの間でも論争が続いていることが明らかにされている。本研究は,現状の領域固有のファインタニング手法に根本的に挑戦し,科学コンテンツのための検証インフラの改善を訴えるものである。

関連論文リスト

MeasHalu: Mitigation of Scientific Measurement Hallucinations for Large Language Models with Enhanced Reasoning [16.93649712632818]
MeasHaluは、科学的測定幻覚を緩和するためのフレームワークである。 MeasHaluは幻覚率を大幅に削減し、MeasEvalベンチマークの全体的な精度を向上させる。
論文参考訳（メタデータ） (2026-04-18T09:26:52Z)
M2-Verify: A Large-Scale Multidomain Benchmark for Checking Multimodal Claim Consistency [17.049806985851994]
M2-Verifyは、科学的クレーム一貫性をチェックするための大規模なマルチモーダルデータセットである。 16のドメインで469万以上のインスタンスを提供し、専門家の監査を通じて厳格に検証されている。
論文参考訳（メタデータ） (2026-04-01T18:18:10Z)
Knowing When Not to Answer: Abstention-Aware Scientific Reasoning [2.680633756465714]
科学的条件下では、支持または不確実な結論は、棄権するよりも有害である。本稿では,この問題に対して,留意点を考慮した検証フレームワークを用いて検討する。我々はこのフレームワークをSciFactとPubMedQAの2つの科学的ベンチマークで評価した。
論文参考訳（メタデータ） (2026-02-15T15:29:43Z)
Evaluating Large Language Models in Scientific Discovery [91.732562776782]
大規模言語モデル (LLMs) は科学研究にますます応用されてきているが、科学ベンチマークでは非文脈化された知識を探索している。生物, 化学, 材料, 物理にまたがるLSMを評価するシナリオグラウンドベンチマークを提案する。このフレームワークは、(i)シナリオタイドアイテムの質問レベル精度と(ii)プロジェクトレベルのパフォーマンスの2つのレベルでモデルを評価する。
論文参考訳（メタデータ） (2025-12-17T16:20:03Z)
General-purpose AI models can generate actionable knowledge on agroecological crop protection [0.0]
我々は,Webグラウンドや非グラウンドの大規模言語モデルが生み出す農業的作物保護に関する科学的知識を検証する。 DeepSeekは継続的に4.8-49.7倍の文献コーパスを検査し、ChatGPTよりも1.6-2.4倍の生物学的制御剤や管理ソリューションを報告した。
論文参考訳（メタデータ） (2025-12-12T11:17:13Z)
MedHallu: A Comprehensive Benchmark for Detecting Medical Hallucinations in Large Language Models [82.30696225661615]
MedHalluは、医学的幻覚検出に特化して設計された最初のベンチマークである。 GPT-4o, Llama-3.1, および医学的に微調整されたUltraMedicalを含む最先端のLSMは、このバイナリ幻覚検出タスクに苦慮している。双方向の包絡クラスタリングを用いて, 難解な幻覚は, 意味論的に真実に近いことを示す。
論文参考訳（メタデータ） (2025-02-20T06:33:23Z)
A Debate-Driven Experiment on LLM Hallucinations and Accuracy [7.821303946741665]
本研究では,大規模言語モデル(LLM)における幻覚現象について検討する。 GPT-4o-Miniモデルの複数のインスタンスは、TrathfulQAデータセットからの質問によって引き起こされた議論のような相互作用に関与している。 1つのモデルは、もっともらしいが偽の答えを生成するように故意に指示され、他のモデルは真に応答するように要求される。
論文参考訳（メタデータ） (2024-10-25T11:41:27Z)
LLM and Simulation as Bilevel Optimizers: A New Paradigm to Advance Physical Scientific Discovery [141.39722070734737]
本稿では,大規模言語モデルの知識駆動型抽象推論能力をシミュレーションの計算力で強化することを提案する。本稿では,2段階最適化フレームワークであるSGA(Scientific Generative Agent)を紹介する。法発見と分子設計における枠組みの有効性を実証するための実験を行った。
論文参考訳（メタデータ） (2024-05-16T03:04:10Z)
Language Models Hallucinate, but May Excel at Fact Verification [89.0833981569957]
大規模言語モデル (LLM) はしばしば「ハロシン化 (hallucinate)」し、結果として非実効出力となる。 GPT-3.5でさえ、実際の出力は25%以下である。これは、進捗を計測し、インセンティブを与えるために、事実検証の重要性を浮き彫りにする。
論文参考訳（メタデータ） (2023-10-23T04:39:01Z)
Large Language Models for Automated Open-domain Scientific Hypotheses Discovery [50.40483334131271]
本研究は,社会科学の学術的仮説発見のための最初のデータセットを提案する。従来のデータセットとは異なり、新しいデータセットには、(1)オープンドメインデータ(RAW Webコーパス)を観察として使用すること、(2)人間性にさらに新しい仮説を提案することが必要である。パフォーマンス向上のための3つのフィードバック機構を含む,タスクのためのマルチモジュールフレームワークが開発されている。
論文参考訳（メタデータ） (2023-09-06T05:19:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。