Fugu-MT 論文翻訳(概要): LLM-Based Scientific Peer Review: Methods, Benchmarks, and Reliability Challenges

論文の概要: LLM-Based Scientific Peer Review: Methods, Benchmarks, and Reliability Challenges

arxiv url: http://arxiv.org/abs/2606.25057v1
Date: Tue, 23 Jun 2026 18:12:39 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-25 17:05:30.112541
Title: LLM-Based Scientific Peer Review: Methods, Benchmarks, and Reliability Challenges
Title（参考訳）: LLMに基づく科学的ピアレビュー:方法,ベンチマーク,信頼性の課題
Authors: Thi Huyen Nguyen, Zahra Ahmadi,
Abstract要約: この調査は,大規模言語モデル(LLM)に基づく科学的ピアレビューのシステムレベル分析を提供する。批判生成とスコア予測という2つの中心的評価関数に注目した。プロンプトインジェクション、データ中毒、検索脆弱性、報酬ハッキングなど、新興のリスクを特定します。
参考スコア（独自算出の注目度）: 4.655159257282136
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: The rapid growth of scientific submissions has pushed traditional peer review toward its scalability limits, motivating the exploration of large language models (LLMs) as intelligent automated evaluation assistants. Although recent studies show that LLMs can generate fluent critiques and approximate reviewer scores, their reliability, robustness, and security as decision-support systems remain insufficiently understood. This survey offers a systems-level analysis of LLM-based scientific peer review, focusing on two core evaluative functions: critique generation and score prediction. We present a structured taxonomy of modeling approaches (including prompt-based, supervised, retrieval-augmented, and alignment-optimized approaches), and synthesize empirical findings across existing benchmarks. We analyze dataset constraints, evaluation shortcomings, and domain concentration biases that limit current assessment practices. Beyond performance metrics, we identify emerging robustness risks, including prompt injection, data poisoning, retrieval vulnerabilities, and reward hacking, which expose automated review pipelines to strategic manipulation. From a data mining perspective, we outline key open challenges in modeling subjective disagreement and cross-domain generalization. By reframing automated peer review as a high-stakes, multi-objective decision problem, this survey provides a roadmap for developing robust, transparent, and trustworthy AI-assisted scientific evaluation systems.
Abstract（参考訳）: 科学論文の急速な増加は、従来のピアレビューをスケーラビリティの限界まで押し上げ、インテリジェントな自動評価アシスタントとしての大規模言語モデル(LLM)の探索を動機付けている。近年の研究では、LCMは流動的な批評と近似的なレビュアースコアを生成することができるが、信頼性、堅牢性、セキュリティは意思決定支援システムとして十分に理解されていない。本調査は、LCMに基づく科学的ピアレビューのシステムレベルでの分析を行い、批判生成とスコア予測という2つの中核的な評価機能に焦点を当てた。本稿では,モデルアプローチの構造化された分類法(プロンプトベース,教師付き,検索拡張,アライメント最適化を含む)を提案し,既存のベンチマークにまたがって経験的知見を合成する。我々は、現在の評価慣行を制限するデータセットの制約、評価の欠点、およびドメイン集中バイアスを分析します。パフォーマンス指標以外にも、プロンプトインジェクション、データ中毒、検索脆弱性、報酬ハックなど、新たなロバストネスリスクを特定し、自動レビューパイプラインを戦略的操作に公開しています。データマイニングの観点から、主観的不一致とドメイン間の一般化をモデル化する上で重要な課題を概説する。この調査は、自動化されたピアレビューをハイテイクで多目的な意思決定問題として再定義することで、堅牢で透明で信頼性の高いAI支援科学評価システムを開発するためのロードマップを提供する。

関連論文リスト

Beyond Rating: A Comprehensive Evaluation and Benchmark for AI Reviews [69.66583722746904]
私たちは、AIレビュアーを5次元にわたって評価する総合的な評価フレームワークであるBeyond Ratingを紹介します。本稿では,専門家の不一致に対応するためのMax-Recall戦略を提案する。提案したテキスト中心の指標は、特に弱みの議論のリコールであり、評価精度と強く相関している。
論文参考訳（メタデータ） (2026-04-21T14:21:15Z)
DREAM: Deep Research Evaluation with Agentic Metrics [21.555357444628044]
本稿では,DREAM(Deep Research Evaluation with Agentic Metrics)を提案する。 DREAM構造評価は、クエリ非依存のメトリクスとツール呼び出しエージェントが生成する適応的なメトリクスを組み合わせた評価プロトコルを用いて行われる。制御された評価は、DREAMが既存のベンチマークよりも事実や時間的劣化にかなり敏感であることを示している。
論文参考訳（メタデータ） (2026-02-21T19:14:31Z)
The Story is Not the Science: Execution-Grounded Evaluation of Mechanistic Interpretability Research [56.80927148740585]
我々は、動的に進化し、研究評価者としてAIエージェントを開発することで、スケーラビリティと厳密さの課題に対処する。我々は,機械的解釈可能性の研究をテストベッドとして使用し,標準化された研究成果を構築し,MechEvalAgentを開発した。我々の研究は、AIエージェントが研究評価を変革し、厳格な科学的実践の道を開く可能性を実証している。
論文参考訳（メタデータ） (2026-02-05T19:00:02Z)
When AIs Judge AIs: The Rise of Agent-as-a-Judge Evaluation for LLMs [8.575522204707958]
大規模言語モデル(LLM)は能力と自律性が向上し、特にオープンで複雑なタスクにおいて、アウトプットの評価が重要なボトルネックとなっている。新たなパラダイムが生まれつつある。AIエージェントを評価対象として使用することだ。本稿では,エージェント・アズ・ア・ジャッジの概念を定義し,単一モデル審査員から動的マルチエージェント・ディスカッション・フレームワークへの進化を辿り,その強みと欠点を批判的に検証する。
論文参考訳（メタデータ） (2025-08-05T01:42:25Z)
Survey on Evaluation of LLM-based Agents [28.91672694491855]
LLMベースのエージェントの出現は、AIのパラダイムシフトを表している。本稿では,これらのエージェントに対する評価手法に関する総合的な調査を初めて実施する。
論文参考訳（メタデータ） (2025-03-20T17:59:23Z)
LLM-Safety Evaluations Lack Robustness [58.334290876531036]
我々は、大規模言語モデルに対する現在の安全アライメント研究は、多くのノイズ源によって妨げられていると論じる。本研究では,将来の攻撃・防衛用紙の評価において,ノイズやバイアスを低減させる一連のガイドラインを提案する。
論文参考訳（メタデータ） (2025-03-04T12:55:07Z)
ReviewEval: An Evaluation Framework for AI-Generated Reviews [9.35023998408983]
学術研究の増大は、資格のあるレビュアーの不足と相まって、ピアレビューに対する革新的なアプローチを必要としている。本稿では,AIによるレビューを総合的に評価するフレームワークであるReviewEvalを提案する。本稿では、AIに基づくピアレビューに不可欠な指標を確立し、学術研究におけるAI生成レビューの信頼性と影響を大幅に向上させる。
論文参考訳（メタデータ） (2025-02-17T12:22:11Z)
MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文参考訳（メタデータ） (2024-06-20T03:50:23Z)
A Literature Review of Literature Reviews in Pattern Analysis and Machine Intelligence [51.26815896167173]
本稿では,3つの相補的な側面からPAMIレビューを総合的に分析する。我々の分析は、現在のレビューの実践において、独特の組織パターンと永続的なギャップを明らかにします。最後に、最先端のAI生成レビューの評価は、コヒーレンスと組織の進歩を奨励していることを示している。
論文参考訳（メタデータ） (2024-02-20T11:28:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。