論文の概要: From Passive Generation to Investigation: A Proactive Scientific Peer Review Agent
- arxiv url: http://arxiv.org/abs/2606.13349v1
- Date: Thu, 11 Jun 2026 13:38:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-12 15:55:27.823788
- Title: From Passive Generation to Investigation: A Proactive Scientific Peer Review Agent
- Title(参考訳): パッシブ・ジェネレーションから調査へ:プロアクティブ・サイエント・ピア・レビュー・エージェント
- Authors: Haishuo Fang, Yue Feng, Iryna Gurevych,
- Abstract要約: 我々は、紙の不審な部分を積極的に調査する柔軟性の欠如が、重要な制限であると主張している。
本稿では,保守的かつ構造化されたレビューログによってガイドされた論文を積極的にレビューする,科学的ピアレビューエージェントであるProReviewerを提案する。
実験の結果,8Bバックボーンを持つProReviewerは教師付き微調整によって訓練され,強化学習によって最適化され,5つの品質次元で最高の平均スコアが得られることがわかった。
- 参考スコア(独自算出の注目度): 52.42081442204093
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have shown promise in automating scientific peer review. However, existing approaches often struggle to generate in-depth reviews supported by concrete evidence. We argue that a key limitation is the lack of flexibility to proactively investigate suspicious parts of a paper based on accumulated evidence, as human reviewers do. In this paper, we explore how to enable an LLM-based review agent to perform such proactive investigation. We find that this can be naturally formulated as a Markov Decision Process (MDP), and propose ProReviewer, a scientific peer review agent that proactively reviews a paper guided by a maintained, structured review log. The structured review log serves as a workspace for the agent to track evidence and intermediate findings collected during review. Experiments show that ProReviewer with an 8B backbone, trained by supervised fine-tuning and optimized by reinforcement learning, achieves the highest average score across five quality dimensions, outperforming prompt-based methods with much larger frontier LLMs by up to 39% and the strongest fine-tuned baseline by 16% relatively. It also attains the highest win rates against baselines in human evaluation.
- Abstract(参考訳): 大規模言語モデル(LLM)は、科学的ピアレビューの自動化を約束している。
しかし、既存のアプローチは、具体的な証拠によって支持される詳細なレビューを生成するのに苦労することが多い。
重要な制限は、人間のレビュアーが行っているように、蓄積された証拠に基づいて、論文の疑わしい部分を積極的に調査する柔軟性の欠如である、と我々は主張する。
本稿では,LSMをベースとしたレビューエージェントが積極的に調査を行う方法について検討する。
マルコフ決定過程 (MDP) として自然に定式化でき, 保守的かつ構造化されたレビューログによってガイドされた論文を積極的にレビューする科学的査読エージェントであるProReviewerを提案する。
構造化されたレビューログは、エージェントがレビュー中に収集したエビデンスと中間的な発見を追跡するためのワークスペースとして機能する。
実験の結果,8BバックボーンのProReviewerは教師付き微調整により訓練され,5次元の平均スコアを達成し,より大きなフロンティアLSMを39%,最強の微調整ベースラインを16%向上した。
また、人的評価において、ベースラインに対する勝利率が最も高い。
関連論文リスト
- EGTR-Review: Efficient Evidence-Grounded Scientific Peer Review Generation via Multi-Agent Teacher Distillation [5.917645474179334]
EGTR-ReviewはEvidence-Grounded and Traceable Review Generationフレームワークである。
私たちのコード、プロンプト、設定、サンプルデータはGitHubで入手可能です。
論文 参考訳(メタデータ) (2026-06-04T11:17:40Z) - PRAIB: Peer Review AI Benchmark of Behaviour of LLM-Assisted Reviewing [0.0]
Peer Review AI Benchmark (PRAIB)は、レビューの具体性、スタイル、エンゲージメントの振る舞いを測定する、徹底的に定義されたメトリクスで構成されるフレームワークである。
我々は、1000 ICLRおよびNeurIPSの論文に対して、5つのプロプライエタリおよびオープンソースモデルによって生成される11,000のレビューのデータセットを活用する大規模な実証的研究を行う。
分析の結果,人的レビュアーのフィードバックから生成したレビューが著しく逸脱していることが判明した。
論文 参考訳(メタデータ) (2026-05-28T11:59:54Z) - ReviewGrounder: Improving Review Substantiveness with Rubric-Guided, Tool-Integrated Agents [50.27474750319121]
公式ガイドライン、論文の内容、人間によるレビューから派生した、紙固有のルーリックに従ってテキストをレビューする。
本稿では、公式ガイドライン、論文の内容、人手によるレビューに基づいて、レビューテキストを評価するベンチマークであるREVIEWBENCHを紹介する。
本稿では,レビューを起草段階と接地段階に分解するルーリック誘導ツール統合マルチエージェントフレームワークであるREVIEWGROUNDERを提案する。
論文 参考訳(メタデータ) (2026-04-15T16:33:04Z) - Beyond "Not Novel Enough": Enriching Scholarly Critique with LLM-Assisted Feedback [81.0031690510116]
本稿では,3段階を通して専門家レビューアの動作をモデル化する,自動ノベルティ評価のための構造化アプローチを提案する。
本手法は,人文のノベルティレビューを大規模に分析した結果から得られたものである。
182 ICLR 2025 の提出で評価されたこの手法は、人間の推論と86.5%の一致と、新規性の結論に関する75.3%の合意を達成している。
論文 参考訳(メタデータ) (2025-08-14T16:18:37Z) - ReviewAgents: Bridging the Gap Between Human and AI-Generated Paper Reviews [24.566487721847597]
学術論文レビュー(Academic paper review)は、研究コミュニティにおける批判的だが時間を要する課題である。
学術出版物の増加に伴い、レビュープロセスの自動化が大きな課題となっている。
大規模言語モデル(LLM)を利用して学術論文レビューを生成するフレームワークであるReviewAgentsを提案する。
論文 参考訳(メタデータ) (2025-03-11T14:56:58Z) - Are We There Yet? Revealing the Risks of Utilizing Large Language Models in Scholarly Peer Review [66.73247554182376]
大規模言語モデル(LLM)がピアレビューに統合された。
未確認のLLMの採用は、ピアレビューシステムの完全性に重大なリスクをもたらす。
5%のレビューを操作すれば、論文の12%が上位30%のランキングでその地位を失う可能性がある。
論文 参考訳(メタデータ) (2024-12-02T16:55:03Z) - Ranking Scientific Papers Using Preference Learning [48.78161994501516]
我々はこれをピアレビューテキストとレビュアースコアに基づく論文ランキング問題とみなした。
ピアレビューに基づいて最終決定を行うための,新しい多面的総合評価フレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-02T19:41:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。