論文の概要: Evaluating Hallucinations in Domain-Adapted Large Language Models
- arxiv url: http://arxiv.org/abs/2606.07521v1
- Date: Sun, 19 Apr 2026 16:03:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-15 07:09:36.670374
- Title: Evaluating Hallucinations in Domain-Adapted Large Language Models
- Title(参考訳): ドメイン適応型大規模言語モデルにおける幻覚の評価
- Authors: Sanchita Porwal, Sai Prasath S, Xingjian Bi, Madelyn Scandlen,
- Abstract要約: 幻覚とは、ドメインに適応した大規模言語モデルによって、非感覚的または不誠実なコンテンツを生成することである。
本研究では,Llama-2モデルのLaminiデータセットによる微調整に焦点を当てた。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This study investigates the phenomenon of hallucinations in domain-adapted Large Language Models (LLMs), focusing on the fine-tuning of the Llama-2 model with the Lamini dataset. Hallucinations, or the generation of nonsensical or unfaithful content by LLMs, pose a significant challenge, especially when these models are fine-tuned with domain-specific data. Our methodology involves a series of experiments testing memorization, recall, and reasoning capabilities of the fine-tuned LLM, comparing its performance on novel question-answer pairs and domain-specific information. We found that while the model shows proficiency in tasks similar to its training data, its capability to accurately reason about and recall new domain-specific information remains limited, leading to instances of hallucination. The model demonstrates a tendency to provide correct answers with extra information, suggesting an inclination toward over-generation. These results suggest important limitations of fine-tuning-only approaches for mitigating hallucinations when adapting LLMs to specialized domains and underscore the need for more robust methods in adapting LLMs to specialized domains. The study also provides insights into the varying performance of LLMs on different types of information, revealing a comparative weakness in handling domain-specific queries.
- Abstract(参考訳): 本研究では,Llama-2モデルとLaminiデータセットの微調整に着目し,ドメイン適応型大規模言語モデル(LLM)における幻覚現象について検討した。
幻覚(英: Hallucinations)は、特にこれらのモデルがドメイン固有のデータで微調整されている場合、LLMによる非感覚的または不誠実なコンテンツの生成が重大な課題となる。
提案手法は, 記憶, 記憶, リコール, 推論能力の一連の実験を包含し, 新規な質問応答対とドメイン固有情報の性能を比較した。
このモデルはトレーニングデータと同様のタスクの習熟度を示すが、新しいドメイン固有の情報を正確に推論し、リコールする能力は限定的であり、幻覚の事例につながる。
このモデルは、余分な情報で正しい答えを提供する傾向を示し、過剰世代への傾きを示唆している。
これらの結果は, LLMを専門領域に適応する際の幻覚を緩和するための微調整のみのアプローチの重要な限界を示唆し, LLMを専門領域に適応するためのより堅牢な手法の必要性を浮き彫りにしている。
この研究は、異なるタイプの情報に対するLLMの様々なパフォーマンスに関する洞察も提供し、ドメイン固有のクエリを扱う際の比較弱さを明らかにした。
関連論文リスト
- LVLM-Aided Alignment of Task-Specific Vision Models [49.96265491629163]
タスク固有の視覚モデルは、高い領域において不可欠である。
本稿では,タスク固有の視覚モデルと人間のドメイン知識を協調する,新しい,効率的な手法を提案する。
提案手法は, モデル動作と人間の仕様との整合性を大幅に向上させる。
論文 参考訳(メタデータ) (2025-12-26T11:11:25Z) - Building Domain-Specific Small Language Models via Guided Data Generation [5.404790079646315]
大規模言語モデル(LLM)は、幅広い知識集約的なタスクをサポートすることに顕著な成功を収めている。
専門分野においては、分野の専門家をドメイン固有の課題で支援するためにLLMを活用することへの関心が高まっている。
多くのオープンソースモデルは、効果的なドメイン適応とデプロイのために重要な計算資源を必要とする。
小型シードコーパスからガイド付き合成データ生成とボトムアップドメインデータを組み合わせた,低コストでスケーラブルなトレーニングパイプラインを提案する。
論文 参考訳(メタデータ) (2025-11-23T07:19:31Z) - Applying Large Language Models to Travel Satisfaction Analysis [2.5105418815378555]
本研究は上海で収集された家庭調査データを用いて,大言語モデル(LLM)と人間との相違点の存在と原因を特定する。
LLMは文脈的理解と一般化において強力な能力を持ち、タスク固有のデータへの依存を著しく減少させる。
小さいサンプルサイズで旅行行動のモデル化に応用できるLCMに基づくモデリング手法を提案する。
論文 参考訳(メタデータ) (2025-05-29T09:11:58Z) - Diversity as a Reward: Fine-Tuning LLMs on a Mixture of Domain-Undetermined Data [54.3895971080712]
多様なデータセットを使用した細調整された大規模言語モデル(LLM)は、さまざまな領域にわたる全体的なパフォーマンス向上に不可欠である。
本稿では,LLMに2つのアイデンティティを与える新しい手法を提案する。多様性報酬に基づいてデータを認知的に探索し,選択する出力モデルと,選択したデータに調整する入力モデルである。
論文 参考訳(メタデータ) (2025-02-05T17:21:01Z) - Exploring Language Model Generalization in Low-Resource Extractive QA [57.14068405860034]
ドメインドリフト下でのLarge Language Models (LLM) を用いた抽出質問応答(EQA)について検討する。
性能ギャップを実証的に説明するための一連の実験を考案する。
論文 参考訳(メタデータ) (2024-09-27T05:06:43Z) - Unveiling the Generalization Power of Fine-Tuned Large Language Models [81.70754292058258]
大規模言語モデル(LLM)に固有の内在的一般化能力に微調整が及ぼす影響について検討する。
本研究の主目的は、生成タスクと分類タスクを微調整したモデルが、異なる領域やタスクに一般化する際に異なる振る舞いを示すことである。
生成タスクの微調整中にコンテキスト内学習戦略を統合することで、モデルの一般化能力を高めることができる。
論文 参考訳(メタデータ) (2024-03-14T08:18:59Z) - ReEval: Automatic Hallucination Evaluation for Retrieval-Augmented Large Language Models via Transferable Adversarial Attacks [91.55895047448249]
本稿では,LLMベースのフレームワークであるReEvalについて述べる。
本稿では、ChatGPTを用いてReEvalを実装し、2つの人気のあるオープンドメインQAデータセットのバリエーションを評価する。
我々の生成したデータは人間可読であり、大きな言語モデルで幻覚を引き起こすのに役立ちます。
論文 参考訳(メタデータ) (2023-10-19T06:37:32Z) - Improving Small Language Models on PubMedQA via Generative Data
Augmentation [4.96649519549027]
大規模言語モデル (LLM) は自然言語処理の分野で顕著な進歩を遂げている。
小型言語モデル(SLM)はその効率で知られているが、限られた能力と訓練データに悩まされることが多い。
医療領域におけるSLMの改善を目的とした,LLMに基づく生成データ拡張を用いた新しい手法を提案する。
論文 参考訳(メタデータ) (2023-05-12T23:49:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。