論文の概要: Understanding LLMs in Title-Abstract Screening: From Disagreements to Recommendations
- arxiv url: http://arxiv.org/abs/2606.17588v1
- Date: Tue, 16 Jun 2026 06:51:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-17 17:15:32.315158
- Title: Understanding LLMs in Title-Abstract Screening: From Disagreements to Recommendations
- Title(参考訳): タイトル抽象スクリーニングにおけるLCMの理解:診断から勧告へ
- Authors: Mika Mäntylä, Patricia Matsubara, Katia Romero Felizardo, Miikka Kuutila, Marco Gerosa, Savio de Sousa Sampaio, Tayana Conte, Igor Steinmacher,
- Abstract要約: 体系的レビュー(SR)におけるタイトル抽出スクリーニングのための大規模言語モデル(LLM)の信頼性について検討する。
我々は、LLMと6つのソフトウェアエンジニアリングSRの研究者の意見の相違を分析し、1000以上の初等研究論文を分析した。
本稿では,デプロイ前の意味理解の検証,複数のLSMの実行,境界事例に対する検証の取り組みなどを提案する。
- 参考スコア(独自算出の注目度): 9.627821515153576
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Several studies have examined the use of large language models (LLMs) for title-abstract screening in systematic reviews (SRs), reporting mixed accuracy. However, questions of reliability remain largely unaddressed. In this study, we go beyond quantitative LLM-human agreement metrics and qualitatively investigate how and why LLMs fail. We also propose actionable recommendations. We analyzed disagreements between LLMs and researchers across six software engineering SRs and over 1,000 primary study papers. For each SR, papers were screened independently by human experts and LLMs in zero-shot mode, resulting in Kappa values ranging from 0.52 to 0.77. Qualitative analysis suggests that human-LLM disagreement results from recurring, identifiable causes, such as boundary ambiguity in key terms, keyword overemphasization, and incorrect topic inference. Based on these findings, we propose recommendations such as validating semantic understanding before deployment, running multiple LLMs, and focusing validation efforts on borderline cases. Future studies are needed to validate the impact of our recommendations, and community efforts are needed to develop normative guidelines on LLM usage in SRs.
- Abstract(参考訳): いくつかの研究は、体系的レビュー(SR)におけるタイトル抽出スクリーニング(英語版)における大言語モデル(LLM)の使用について検討し、混合精度を報告している。
しかし、信頼性の問題はほとんど未解決のままである。
本研究では,LLMの定量的な合意尺度を超越し,LLMの失敗の理由と原因を質的に検討する。
行動可能なレコメンデーションも提案する。
我々は、LLMと6つのソフトウェアエンジニアリングSRの研究者の意見の不一致と1000以上の研究論文を分析した。
各SRでは、論文は人間の専門家とLLMによって独立にゼロショットモードでスクリーニングされ、その結果、カッパの値は0.52から0.77まで変化した。
定性的な分析は、人-LLMの不一致は、キー用語における境界あいまいさ、キーワード強調の過度化、誤った話題推論など、繰り返し、識別可能な原因によって生じることを示唆している。
これらの知見に基づき、デプロイ前の意味理解の検証、複数のLSMの実行、境界事例に対する検証の取り組みなどを提案する。
今後の研究は、我々の推薦による影響を検証するために必要であり、SRにおけるLLM使用に関する規範的ガイドラインを開発するためには、コミュニティの努力が必要である。
関連論文リスト
- LLM-REVal: Can We Trust LLM Reviewers Yet? [70.58742663985652]
大規模言語モデル(LLM)は研究者に、学術的なワークフローに広く組み込むよう刺激を与えている。
本研究は、LLMのピアレビューと研究プロセスへの深い統合が学術的公正性にどのように影響するかに焦点を当てる。
論文 参考訳(メタデータ) (2025-10-14T10:30:20Z) - LLM-Specific Utility: A New Perspective for Retrieval-Augmented Generation [110.610512800947]
Retrieval-augmented Generation (RAG)は、外部知識を取り入れた大規模言語モデル(LLM)を強化する。
既存の研究はしばしばユーティリティをジェネリック属性として扱い、異なるLLMが同じ通路から異なる利益をもたらすという事実を無視している。
論文 参考訳(メタデータ) (2025-10-13T12:57:45Z) - DnA-Eval: Enhancing Large Language Model Evaluation through Decomposition and Aggregation [75.81096662788254]
大規模言語モデル(LLM)はスケーラブルで経済的な評価指標である。
これらの評価者がどの程度信頼できるかという問題は、重要な研究課題として浮上している。
本稿では,デコンプリートとアグリゲートを提案し,その評価プロセスを教育実践に基づいて異なる段階に分解する。
論文 参考訳(メタデータ) (2024-05-24T08:12:30Z) - Large Language Models are Inconsistent and Biased Evaluators [2.136983452580014]
我々は,Large Language Models (LLMs) が親しみの偏りを示し,評価の歪んだ分布を示すため,評価値の偏りを示すことを示した。
また, LLM は不整合性評価器であり, テキスト品質の人間の理解に欠かせない相違を誘発する「サンプル間合意」が低く, 感度が高いことがわかった。
論文 参考訳(メタデータ) (2024-05-02T20:42:28Z) - Evaluation of an LLM in Identifying Logical Fallacies: A Call for Rigor When Adopting LLMs in HCI Research [3.4245017707416157]
本稿では,デジタル誤情報介入の一部となる論理的誤信を識別するLLMの評価について述べる。
ラベル付きデータセットと比較すると,GPT-4の精度は0.79であり,無効または未同定のインスタンスを除外したユースケースでは0.90であることがわかった。
論文 参考訳(メタデータ) (2024-04-08T06:00:14Z) - Benchmarking LLMs via Uncertainty Quantification [91.72588235407379]
オープンソースのLarge Language Models(LLM)の普及は、包括的な評価方法の緊急の必要性を強調している。
我々は不確実性定量化を統合した LLM のための新しいベンチマーク手法を提案する。
以上の結果より, 精度の高いLSMでは, 精度が低下する可能性があり, II) より大規模なLSMでは, より小型のLSMに比べて不確実性が高いこと, III) 命令ファインタニングではLCMの不確実性が高くなる傾向が示唆された。
論文 参考訳(メタデータ) (2024-01-23T14:29:17Z) - Breaking the Silence: the Threats of Using LLMs in Software Engineering [12.368546216271382]
大規模言語モデル(LLM)は、ソフトウェア工学(SE)コミュニティ内で大きな注目を集めています。
本稿では,LSMに基づく研究の有効性に対する潜在的な脅威について,オープンな議論を開始する。
論文 参考訳(メタデータ) (2023-12-13T11:02:19Z) - Trustworthy LLMs: a Survey and Guideline for Evaluating Large Language Models' Alignment [35.42539816648068]
本稿では,大規模言語モデル(LLM)の評価において考慮すべき重要な要素について,包括的に調査する。
この調査は、信頼性、安全性、公正性、誤用に対する抵抗性、説明可能性と推論、社会的規範への固執、堅牢性の7つの主要なカテゴリーをカバーしている。
結果は、一般に、より整合したモデルは、全体的な信頼性の観点から、より良いパフォーマンスを示す傾向があることを示している。
論文 参考訳(メタデータ) (2023-08-10T06:43:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。