論文の概要: Benchmarking Agentic Review Systems
- arxiv url: http://arxiv.org/abs/2606.19749v1
- Date: Thu, 18 Jun 2026 03:30:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-19 18:23:39.631394
- Title: Benchmarking Agentic Review Systems
- Title(参考訳): ベンチマークエージェントレビューシステム
- Authors: Dang Nguyen, Wanqing Hao, Yanai Elazar, Chenhao Tan,
- Abstract要約: エージェントレビューシステムの新たなクラスは、AI支援研究によるピアレビューシステムに対するプレッシャーの緩和として現れている。
2つのオープンソースシステム(OpenAIReviewと粗い)と1つのプロプライエタリシステム(Reviewer3)、ゼロショットベースライン(ゼロショットベースライン)を評価した。
AIレビューには改善の余地があるものの、人間の品質判断を十分に追跡し、重要なエラーをキャッチし、実際のユーザから肯定的なフィードバックを得ることができます。
- 参考スコア(独自算出の注目度): 25.437512824197736
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A new class of agentic review systems are emerging as a remedy to the pressure placed on peer review systems by AI-assisted research, but it is unclear how they should be evaluated. We evaluate two open-source systems (OpenAIReview and coarse), one proprietary system (Reviewer3), and a zero-shot baseline, across six LLMs spanning frontier and efficient models. First, we study whether AI reviews on ICLR/NeurIPS papers track with papers' quality as approximated by external signals such as citations and acceptance decisions. Every system performs above chance in pairwise accuracy, and the best is OpenAIReview + GPT-5.5 at 83.0%. Second, to test whether systems can catch errors with known ground truth, we construct a perturbation benchmark that injects four categories of errors into papers across eight arXiv subject classes and measure detection recall. The strongest configuration (OpenAIReview + GPT-5.5) catches 71.6% of injected errors, leaving substantial room for improvement. The union of detections across six models reaches 83.3% recall, suggesting different models detect different errors and better harness design can potentially increase performance. Beyond these benchmarks, we study a public deployment of OpenAIReview with real users. Votes on its comments skew positive at 1.44 to 1, and the most common complaints are about false positives and minor nitpicks. Together, by evaluating full review systems backed by state-of-the-art models on real research papers, we show that while AI reviews still have room for improvement, they can already track human quality judgments well, catch important errors, and earn positive feedback from real users.
- Abstract(参考訳): エージェントレビューシステムの新たなクラスは、AI支援研究によるピアレビューシステムに対するプレッシャーの緩和として浮上しているが、どのように評価されるべきかは定かではない。
2つのオープンソースシステム (OpenAIReview and coarse) と1つのプロプライエタリシステム (Reviewer3) と、フロンティアと効率的なモデルにまたがる6つのLCMのゼロショットベースラインを評価した。
まず、ICLR/NeurIPS論文におけるAIレビューが、引用や受理決定などの外部信号によって近似された論文の品質を追跡できるかどうかを検討する。
各システムは2対の精度で高い確率で実行し、最高は83.0%のOpenAIReview + GPT-5.5である。
次に,8つのarXiv科目の論文に4つのカテゴリの誤りを注入し,検出リコールを計測する摂動ベンチマークを構築した。
最も強い構成(OpenAIReview + GPT-5.5)は、注入エラーの71.6%をキャッチし、改善の余地を残している。
6つのモデルにまたがる検出の結合は83.3%のリコールに達し、異なるモデルが異なるエラーを検知し、より良いハーネス設計により性能が向上する可能性があることを示唆している。
これらのベンチマーク以外にも、実際のユーザによるOpenAIReviewの公開デプロイについて研究しています。
コメントの投票は1.44対1で肯定的であり、最も一般的な苦情は偽陽性と軽微なニッチに関するものである。
実際の研究論文で最先端のモデルによって裏付けられた完全なレビューシステムを評価することで、AIレビューには改善の余地があるものの、人間の品質判断を十分に追跡し、重要なエラーをキャッチし、実際のユーザから肯定的なフィードバックを得ることができることを示した。
関連論文リスト
- Intelligence Is Not the Bottleneck: Validating an LLM First-Pass Manuscript Score Against Peer-Review Outcomes [0.0]
大規模言語モデル(LLM)システムは、ピアレビューを支援するためにますます提案されている。
ほとんどの評価は、システムが割り当てる数値スコアの妥当性ではなく、機械生成レビューテキストの散文を判断する。
提案した原稿を読み取って5つの0-100品質ディメンションと重み付き総合スコアを出力するAIPRを検証する。
論文 参考訳(メタデータ) (2026-06-14T16:13:15Z) - Gaming AI-Assisted Peer Reviews Poses New Risks to the Scientific Community [33.39468805524881]
AIによるピアレビューは、単純で低コストな操作に対して脆弱であることを示す。
これは、人書きとAI生成の両方の論文のために、規律と出版の場にまたがって見られます。
以上の結果から,AIツールを中性評価対象として扱うべきではないことが示唆された。
論文 参考訳(メタデータ) (2026-06-08T20:38:06Z) - SoundnessBench: Can Your AI Scientist Really Tell Good Research Ideas from Bad Ones? [51.154921661608675]
我々は、ICLRの投稿から再構成された1,099の機械学習研究提案のキュレートされたベンチマークであるSoundnessBenchを紹介する。
SoundnessBenchは、完全なレビュー結果の正確な予測よりも、復元可能な提案段階の音質のベンチマークとして解釈されるべきである。
論文 参考訳(メタデータ) (2026-05-28T17:57:37Z) - On the limits and opportunities of AI reviewers: Reviewing the reviews of Nature-family papers with 45 expert scientists [113.03797263688519]
多くの科学者は、AIレビュアーを研究を評価する専門知識のない確率的システムと見なしている。
既存のAIレビュアーの評価では、評決が人間の評決に合致するかどうかに焦点が当てられている。
論文 参考訳(メタデータ) (2026-05-20T03:33:55Z) - Stop Automating Peer Review Without Rigorous Evaluation [51.53099943385505]
このポジションペーパーは、今日のAIシステムは、論文レビューの作成に使用すべきではない、と論じている。
1)AIレビュアーは、視点の多様性を低下させる論文内および新聞内における過剰な合意の隠れた効果を示す。
ピアレビューの危機に対処するには、ピアレビューの自動化の科学が必要です。
論文 参考訳(メタデータ) (2026-05-04T22:41:04Z) - To Err Is Human: Systematic Quantification of Errors in Published AI Papers via LLM Analysis [47.124493265404595]
我々の分析は客観的な誤り(例えば、公式の誤り、導出、計算、数値、表など)に焦点を当てており、それは明らかに検証可能な基礎的な真実である。
論文は、未確認の客観的な誤り数を含み、NeurIPS 2021の3.8からNeurIPS 2025の5.9(55.3%)まで、紙1枚あたりの誤り数の平均が時間とともに増加したことが判明した。
我々は、AIチェッカーが特定ミスの75.8%の修正を提案できることを示す。
論文 参考訳(メタデータ) (2025-12-05T18:04:10Z) - BadScientist: Can a Research Agent Write Convincing but Unsound Papers that Fool LLM Reviewers? [21.78901120638025]
製造指向の紙生成エージェントがマルチモデルLCMレビューシステムを欺くことができるかどうかを考察する。
我々のジェネレータは、実際の実験を必要としないプレゼンテーション操作戦略を採用している。
健全な集約数学にもかかわらず、整合性検査は体系的に失敗する。
論文 参考訳(メタデータ) (2025-10-20T18:37:11Z) - ReviewGuard: Enhancing Deficient Peer Review Detection via LLM-Driven Data Augmentation [3.9199635838637072]
ReviewGuardは、欠陥レビューを検出して分類する自動化システムである。
最終コーパスは6,634枚、実際のレビュー24,657枚、合成レビュー46,438枚である。
不十分なレビューでは、評価スコアの低下、自己報告の信頼性の向上、構造的な複雑さの低減、ネガティブな感情の比率の向上が示されています。
論文 参考訳(メタデータ) (2025-10-18T15:45:26Z) - Automatic Reviewers Fail to Detect Faulty Reasoning in Research Papers: A New Counterfactual Evaluation Framework [55.078301794183496]
我々は、高品質なピアレビューを支えるコアレビュースキル、すなわち欠陥のある研究ロジックの検出に注力する。
これは、論文の結果、解釈、クレームの間の内部の一貫性を評価することを含む。
本稿では,このスキルを制御条件下で分離し,テストする,完全自動対物評価フレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-29T08:48:00Z) - Reviewing Scientific Papers for Critical Problems With Reasoning LLMs: Baseline Approaches and Automatic Evaluation [0.552480439325792]
本稿では,いくつかのベースラインアプローチと,トップ推論 LLM を判断として用いた拡張可能な自動評価フレームワークを提案する。
O3は、全てのモデルで最低限のコストで、最高の問題識別性能を示した。
本稿では,文書に基づく科学的理解・推論に関する知見を提供し,今後の応用の基盤となる。
論文 参考訳(メタデータ) (2025-05-28T06:14:30Z) - Evaluation Toolkit For Robustness Testing Of Automatic Essay Scoring
Systems [64.4896118325552]
モデル逆算評価スキームと関連するメトリクスを用いて、現状のAESモデルを評価する。
AESモデルは非常に過大評価されていることがわかった。質問の話題に関係のない内容の重い修正(25%まで)でさえ、モデルが生み出すスコアを低下させることはない。
論文 参考訳(メタデータ) (2020-07-14T03:49:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。