論文の概要: GIScholarBench: Benchmarking LLM Overconfidence in GIS Research
- arxiv url: http://arxiv.org/abs/2606.08036v1
- Date: Sat, 06 Jun 2026 07:56:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:05.682825
- Title: GIScholarBench: Benchmarking LLM Overconfidence in GIS Research
- Title(参考訳): GIScholarBench: GISリサーチにおけるLLM過信のベンチマーク
- Authors: Zongrng Li, Mingzheng Yang, Lei Zou, Hongxu Ma, Hao Tian, Siqi Zhou, Wenjing Gong, Kaili Zhang, Bingqian Chen, Mitch Zhang, Yifan Yang,
- Abstract要約: 大規模言語モデル(LLM)は、学術研究でますます使われているが、学術的なタスクは高い事実的精度を必要とする。
GIScholarBenchは、2020年から2025年にかけて25コアのGIScienceジャーナルに掲載された10,865の論文から構築されたベンチマークである。
我々は,実世界のユーザ対応環境下でネイティブなWebインターフェースを通じて,Claude Sonnet 4.5,Gemini 3,ChatGPT 5.3を評価した。
- 参考スコア(独自算出の注目度): 14.111940657521489
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) are increasingly used in academic research workflows, but scholarly tasks require high factual precision and therefore expose a key weakness: overconfidence. Here, overconfidence is defined behaviorally as the tendency to produce confident, assertive, and well-formatted outputs even when the underlying knowledge is incomplete or unverifiable, rather than as a calibration gap between stated confidence and accuracy. To examine this issue, we introduce GIScholarBench, a benchmark built from 10,865 papers published in 25 core GIScience journals between 2020 and 2025. The benchmark covers three tasks with increasing cognitive complexity: metadata retrieval, literature linking, and research direction generation. We evaluate Claude Sonnet 4.5, Gemini 3, and ChatGPT 5.3 through their native web interfaces under real-world user-facing conditions. Results show consistent overconfidence across all tasks. In metadata retrieval, ChatGPT 5.3 achieves the highest accuracy, but all models still generate definitive titles and DOIs when predictions are wrong. In literature linking, Claude Sonnet 4.5 recovers the most references, but all models show a clear gap between top-ranked retrieval and longer citation lists, suggesting that references are extended beyond reliable retrieval capacity. In research direction generation, AI-generated directions show lower topic coverage, higher novel miss rates, and lower semantic diversity than real future-citing papers. These findings suggest that LLM overconfidence is task-invariant but takes different forms: factual overgeneration in retrieval, unreliable citation expansion in literature linking, and overconfidence in output completeness during research ideation.
- Abstract(参考訳): 大規模言語モデル(LLM)は、学術研究のワークフローでますます使われているが、学術的なタスクには高い事実の精度が必要であり、従って重要な弱点である過信を露呈する。
ここでは、過信は、主張された自信と正確さの間のキャリブレーションのギャップとしてではなく、基礎となる知識が不完全であるか検証不可能である場合でも、自信、断定的、そして十分に整合されたアウトプットを生み出す傾向として、行動的に定義される。
GIScholarBenchは、2020年から2025年にかけて25のコアGIScienceジャーナルに掲載された10,865の論文から構築されたベンチマークである。
このベンチマークは、メタデータ検索、文学リンク、研究方向生成という、認知的複雑性を増大させる3つのタスクをカバーしている。
我々は,実世界のユーザ対応環境下でネイティブなWebインターフェースを通じて,Claude Sonnet 4.5,Gemini 3,ChatGPT 5.3を評価した。
結果はすべてのタスクに一貫した過信を示す。
メタデータ検索では、ChatGPT 5.3が最も精度が高いが、予測が間違っていれば、すべてのモデルが決定的なタイトルとDOIを生成する。
文学的なリンクでは、Claude Sonnet 4.5が最も参照を回復するが、すべてのモデルは上位の検索と長い引用リストの間に明確なギャップを示しており、参照は信頼性の高い検索能力を超えて拡張されていることを示唆している。
研究方向生成では、AIが生成する方向は、トピックのカバレッジが低く、新しいミス率が高く、セマンティックな多様性が将来の論文よりも低いことを示している。
これらの結果から, LLM過信はタスク不変であるが, 検索における事実過剰生成, 文献リンクにおける信頼できない引用展開, 研究思想におけるアウトプット完全性への過信など, 異なる形態を採っていることが示唆された。
関連論文リスト
- ELAIPBench: A Benchmark for Expert-Level Artificial Intelligence Paper Understanding [49.67493845115009]
ELAIPBenchは、大規模言語モデルによるAI研究論文の理解を評価するために、ドメインの専門家によってキュレーションされたベンチマークである。
難易度は3つあり、浅い検索よりも非自明な推論に重点を置いている。
実験の結果、最高の性能のLSMは、人間の性能よりはるかに低い39.95%の精度しか達成できないことがわかった。
論文 参考訳(メタデータ) (2025-10-12T11:11:20Z) - Let's Use ChatGPT To Write Our Paper! Benchmarking LLMs To Write the Introduction of a Research Paper [64.50822834679101]
SciIGは、タイトル、抽象、および関連する作品からコヒーレントな紹介を生成するLLMの能力を評価するタスクである。
オープンソース (DeepSeek-v3, Gemma-3-12B, LLaMA 4-Maverick, MistralAI Small 3.1) およびクローズドソース GPT-4o システムを含む5つの最先端モデルを評価する。
結果は、特に意味的類似性と忠実性において、ほとんどのメトリクスにおいて、LLaMA-4 Maverickの優れたパフォーマンスを示す。
論文 参考訳(メタデータ) (2025-08-19T21:11:11Z) - Factuality or Fiction? Benchmarking Modern LLMs on Ambiguous QA with Citations [0.0]
質問回答(QA)タスクにおける最先端大言語モデル(LLM)の事実精度と引用性能を評価する。
以上の結果から,より大規模で最近のモデルでは,不明瞭な文脈において,少なくとも1つの正解を常に予測するが,複数の有効な解のケースを処理できないことが示唆された。
論文 参考訳(メタデータ) (2024-12-23T23:55:19Z) - One Thousand and One Pairs: A "novel" challenge for long-context language models [56.60667988954638]
NoChaは、67冊の架空の書籍に関する1,001対の真偽の主張のデータセットである。
当社のアノテータは、NoChaにおけるペアの最大シェアは、本全体に対するグローバルな推論を必要としていることを確認しています。
平均的なモデルでは、文レベルの検索しか必要としないペアの方が、グローバルな推論よりもはるかに優れています。
論文 参考訳(メタデータ) (2024-06-24T02:03:57Z) - Attribution in Scientific Literature: New Benchmark and Methods [41.64918533152914]
大規模言語モデル(LLM)は、科学的コミュニケーションにおいて、自動ソース引用のための有望だが挑戦的なフロンティアを提供する。
本稿では、arXivから12の科学領域にまたがる文レベルのアノテーションを備えた新しいデータセットREASONSを紹介する。
我々は、GPT-O1、GPT-4O、GPT-3.5、DeepSeekなどのモデルや、Perplexity AI (7B)のような他の小さなモデルで広範な実験を行う。
論文 参考訳(メタデータ) (2024-05-03T16:38:51Z) - Empirical evaluation of Uncertainty Quantification in
Retrieval-Augmented Language Models for Science [0.0]
本研究では,科学知識を事前学習・検索データとして組み込んだ場合,不確実性スコアがどう変化するかを検討する。
我々は,検索データが予測生成に自信を持つ傾向にあるため,科学的知識に精通した既存のALMを観察する。
また、ALMは予測を過信しており、正確な予測よりも不正確な予測を確実にしていることもわかりました。
論文 参考訳(メタデータ) (2023-11-15T20:42:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。