論文の概要: Benchmarking LLM Agents on Meta-Analysis Articles from Nature Portfolio
- arxiv url: http://arxiv.org/abs/2606.17041v2
- Date: Tue, 16 Jun 2026 12:04:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-17 15:01:46.837296
- Title: Benchmarking LLM Agents on Meta-Analysis Articles from Nature Portfolio
- Title(参考訳): 自然ポートフォリオのメタ分析記事におけるLCMエージェントのベンチマーク
- Authors: Anzhe Xie, Weihang Su, Yujia Zhou, Yiqun Liu, Qingyao Ai,
- Abstract要約: 我々はNature Portfolio誌から442名の専門家によるメタアナリシスのデータセットであるMetaSynを紹介する。
各エントリは、PI/ECO基準、140k項目の検索コーパス、実証された肯定的な研究、相対的に類似しているがPI/ECOは無視できない硬い負の2つの研究課題をペアリングする。
K=200では90.9%のリコールがあったが、52.7%以上の文献を復元するシステムはない。
- 参考スコア(独自算出の注目度): 30.68853022964377
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Meta-analysis is a demanding form of evidence synthesis that combines literature retrieval, PI/ECO-guided study selection, and statistical aggregation. Its structured, verifiable workflow makes it an ideal substrate for evaluating systematic scientific reasoning, yet existing benchmarks lack ground truth across the full retrieval-screening-synthesis pipeline. We introduce MetaSyn, a dataset of 442 expert-curated meta-analyses from Nature Portfolio journals. Each entry pairs a research question with PI/ECO criteria, a retrieval corpus of 140k PubMed articles, verified positive studies, hard negatives that are topically similar but PI/ECO-ineligible, and complete search strategies and date bounds. Benchmarking twelve pipeline configurations (nine RAG variants and a protocol-driven agent) reveals a critical screening bottleneck: despite a retrieval ceiling of 90.9% recall at K=200, no system recovers more than 52.7% of ground-truth included literature. Current LLMs fail to reliably separate eligible studies from PI/ECO-failing distractors in pools of comparable topical relevance. Stage-attributed metrics capture where systems succeed and fail; a single end-to-end score does not.
- Abstract(参考訳): メタアナリシス(Meta-analysis)は、文献検索、PI/ECO誘導研究選択、統計集計を組み合わせたエビデンス合成の要求形式である。
その構造化された検証可能なワークフローは、体系的な科学的推論を評価するのに理想的な基盤となっているが、既存のベンチマークは完全な検索-スクリーニング-合成パイプライン全体にわたって基礎的な真実を欠いている。
我々はNature Portfolio誌から442名の専門家によるメタアナリシスのデータセットであるMetaSynを紹介する。
各エントリは、PI/ECO基準、140kのPubMed項目の検索コーパス、検証された肯定的な研究、PI/ECO非許容のハードネガティブ、完全な検索戦略と日付境界とをペアリングする。
12のパイプライン構成(9つのRAG変種とプロトコル駆動エージェント)をベンチマークすると、重要なスクリーニングボトルネックが明らかになる。
現在のLLMは、同等のトピック関連性のあるプールにおけるPI/ECO欠損障害障害研究を確実に分離することができない。
ステージアトリビュートなメトリクスは、システムが成功して失敗する場所をキャプチャします。
関連論文リスト
- MedMeta: A Benchmark for LLMs in Synthesizing Meta-Analysis Conclusion from Medical Studies [0.8322112116381115]
大規模言語モデル(LLM)は、実際のリコールをテストする飽和標準医療ベンチマークを持つ。
MedMetaはLLMが医療メタ分析から結論を出す能力を評価するために設計された最初のベンチマークである。
論文 参考訳(メタデータ) (2026-05-10T17:20:39Z) - Eligibility-Aware Evidence Synthesis: An Agentic Framework for Clinical Trial Meta-Analysis [49.83108591873481]
EligMetaはエージェントフレームワークで、自動トライアル発見と、資格を意識したメタ分析を統合する。
フレームワークは、目標トライアル間の人口アライメントを反映した類似性に基づく研究重量を計算し、適性基準を構造化する。
論文 参考訳(メタデータ) (2026-04-03T03:18:50Z) - Diagnosing Structural Failures in LLM-Based Evidence Extraction for Meta-Analysis [0.8193467416247519]
レビューとメタ分析は、物語を構造化され、数値化された研究記録に変換することに頼っている。
大規模言語モデル(LLM)の急速な進歩にもかかわらず、このプロセスの構造的要件を満たすことができるかどうかは不明だ。
本稿では,LLMに基づくエビデンス抽出をスキーマ制約クエリの進行として評価する構造的診断フレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-11T14:09:43Z) - DeepSynth-Eval: Objectively Evaluating Information Consolidation in Deep Survey Writing [53.85037373860246]
本稿では,情報統合能力を客観的に評価するためのベンチマークであるDeep Synth-Evalを紹介する。
一般チェックリスト(実例)と制約チェックリスト(構造体)を用いたきめ細かい評価プロトコルを提案する。
その結果,エージェント型プラン・アンド・ライトは単ターン生成よりも大幅に優れていた。
論文 参考訳(メタデータ) (2026-01-07T03:07:52Z) - Beyond Memorization: Reasoning-Driven Synthesis as a Mitigation Strategy Against Benchmark Contamination [77.69093448529455]
本稿では,arXiv論文から直接研究レベルのQAを合成するために,無限にスケーラブルなフレームワークを用いて実証的研究を行う。
各種サイズ,開発者,リリース日といったモデルについて,知識カットオフ日に近い性能劣化の欠如を評価した。
合成パイプラインで要求される多段階の推論は、浅い記憶よりも深い複雑さをもたらしたと仮定する。
論文 参考訳(メタデータ) (2025-08-26T16:41:37Z) - HySemRAG: A Hybrid Semantic Retrieval-Augmented Generation Framework for Automated Literature Synthesis and Methodological Gap Analysis [55.2480439325792]
HySemRAGは、Extract, Transform, Load (ETL)パイプラインとRetrieval-Augmented Generation (RAG)を組み合わせたフレームワークである。
システムは、マルチ層アプローチを通じて既存のRAGアーキテクチャの制限に対処する。
論文 参考訳(メタデータ) (2025-08-01T20:30:42Z) - Manalyzer: End-to-end Automated Meta-analysis with Multi-agent System [48.093356587573666]
メタアナリシス(Meta-analysis)は、複数の既存の研究からデータを合成し、包括的な結論を導き出す体系的な研究手法である。
伝統的なメタ分析は、文献検索、紙のスクリーニング、データ抽出を含む複雑な多段階パイプラインを含む。
本稿では,ツールコールによるエンドツーエンドの自動メタ分析を実現するマルチエージェントシステムManalyzerを提案する。
論文 参考訳(メタデータ) (2025-05-22T07:25:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。