Fugu-MT 論文翻訳(概要): FirstPass: Grounding AI Scientific Judgment in Multi-Round Editorial Outcomes

論文の概要: FirstPass: Grounding AI Scientific Judgment in Multi-Round Editorial Outcomes

arxiv url: http://arxiv.org/abs/2606.20769v1
Date: Thu, 18 Jun 2026 15:06:36 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-26 13:01:30.019425
Title: FirstPass: Grounding AI Scientific Judgment in Multi-Round Editorial Outcomes
Title（参考訳）: FirstPass: 複数ルートの編集結果にAIの科学的判断を基礎づける
Authors: Prabhjot Singh, Somnath Luitel, Manmeet Singh, Josh Durkee,
Abstract要約: 我々は、ピアレビューのためにAIの3つの側面すべてに対処するデータセットの微調整モデルであるFirstPassを紹介した。我々は、強制的透明なピアレビュー(2022年11月設置)を活用し、自動監査により100%のコンテンツ完全性を検証する。 FirstPassは生成時に平均1,187ワードのレビューを生成し、ベースラインよりも人間の参照(2,155ワード)に近い。
参考スコア（独自算出の注目度）: 0.27998963147546146
License: http://creativecommons.org/licenses/by/4.0/
Abstract: AI systems for peer review fail on three fronts: they train on Computer Science and Machine Learning venues alone, ignore the iterative dialogue that validates science, and evaluate on stylistic mimicry rather than real editorial judgment. We introduce FirstPass, a dataset and fine-tuned model that addresses all three. Curating 3,668 complete multi-round peer-review dialogues from Nature Communications across five scientific domains (biology, chemistry, neuroscience, physics, and earth science), we exploit mandatory transparent peer review (instituted November 2022) and verify 100% content integrity by automated audit. We fine-tune Qwen2.5-7B-Instruct via Low-Rank Adaptation (LoRA) on three tasks: review generation, reviewer updating, and revision-cycle prediction. Our key finding is that response-only loss masking is a prerequisite, not an optimization: without it, accuracy is 62.0%, below the majority baseline; with it, FirstPass achieves 80.5% accuracy and F1-macro 78.2% on predicting editorial outcomes (Standard vs. Extended revision cycles), outperforming Gemini-3.1-flash-lite-preview zero-shot by 10.4 percentage points and all baselines with statistical significance (McNemar p < 0.001). On generation, FirstPass produces reviews averaging 1,187 words, substantially closer to human references (2,155 words) than any baseline, achieving ROUGE-L 0.154 with significant gains over Qwen and DeepSeek zero-shot (p < 0.001). Deployed in the pre-submission loop as an anticipatory scientific co-author, FirstPass simulates expert critique and predicts revision cycle outcomes before submission, giving authors the judgment a trusted colleague would provide, with consistent cross-domain performance across five disciplines.
Abstract（参考訳）: ピアレビューのためのAIシステムは、3つの面で失敗する。コンピュータサイエンスと機械学習の会場だけでトレーニングし、科学を検証する反復的な対話を無視し、実際の編集判断よりも様式的な模倣を評価する。 FirstPassは3つすべてに対処するデータセットで微調整されたモデルです。バイオロジー, 化学, 神経科学, 物理, 地球科学の5分野にわたるNature Communicationsによる3,668の完全なピアレビュー対話を計算し, 強制的なピアレビュー(2022年11月設置)を活用し, 自動監査により100%のコンテンツ完全性を検証する。レビュー生成,レビュア更新,リビジョンサイクル予測の3つのタスクに対して,ローランド適応(LoRA)によるQwen2.5-7B命令を微調整する。 FirstPassは80.5%の精度とF1-macro 78.2%の精度を達成し(Standard vs. Extended revision cycles)、Gemini-3.1-flash-lite-preview 0-shotを10.4ポイント上回り、統計学的意義を持つすべてのベースライン(McNemar p < 0.001)を上回ります。 FirstPassは、平均1,187ワードのレビューを、どのベースラインよりも人間からの参照(2,155ワード)に近い形で生成し、QwenとDeepSeekのゼロショット(p < 0.001)に対して大きな利益を得たROUGE-L 0.154を達成している。予想される科学的共著者として事前提出ループに配置されたFirstPassは、専門家の批評をシミュレートし、提出前に修正サイクルの結果を予測する。

関連論文リスト

Benchmarking Agentic Review Systems [25.437512824197736]
エージェントレビューシステムの新たなクラスは、AI支援研究によるピアレビューシステムに対するプレッシャーの緩和として現れている。 2つのオープンソースシステム(OpenAIReviewと粗い)と1つのプロプライエタリシステム(Reviewer3)、ゼロショットベースライン(ゼロショットベースライン)を評価した。 AIレビューには改善の余地があるものの、人間の品質判断を十分に追跡し、重要なエラーをキャッチし、実際のユーザから肯定的なフィードバックを得ることができます。
論文参考訳（メタデータ） (2026-06-18T03:30:06Z)
Intelligence Is Not the Bottleneck: Validating an LLM First-Pass Manuscript Score Against Peer-Review Outcomes [0.0]
大規模言語モデル(LLM)システムは、ピアレビューを支援するためにますます提案されている。ほとんどの評価は、システムが割り当てる数値スコアの妥当性ではなく、機械生成レビューテキストの散文を判断する。提案した原稿を読み取って5つの0-100品質ディメンションと重み付き総合スコアを出力するAIPRを検証する。
論文参考訳（メタデータ） (2026-06-14T16:13:15Z)
On the limits and opportunities of AI reviewers: Reviewing the reviews of Nature-family papers with 45 expert scientists [113.03797263688519]
多くの科学者は、AIレビュアーを研究を評価する専門知識のない確率的システムと見なしている。既存のAIレビュアーの評価では、評決が人間の評決に合致するかどうかに焦点が当てられている。
論文参考訳（メタデータ） (2026-05-20T03:33:55Z)
The Compliance Gap: Why AI Systems Promise to Follow Process Instructions but Don't [0.0]
私たちはこれを、コンプライアンスギャップ(Compliance Gap)と呼んでいる: 事実の真理性と修辞的な物質とは異なる、AIの第3の軸である。約75のベンチマークは結果の忠実度を測定している。 BS-Benchは、プロセスコンプライアンスのための最初のオープンベンチマークで、7つのツールコールログ監査メトリクスと公開リーダボードがあります。
論文参考訳（メタデータ） (2026-05-03T08:11:15Z)
ImplicitMemBench: Measuring Unconscious Behavioral Adaptation in Large Language Models [60.14219417402433]
LLMエージェントの既存のメモリベンチマークは、事実の明示的なリコールを評価するが、意識的な検索なしに、経験が自動的な振る舞いになる暗黙の記憶を見落としている。 IndicitMemBenchは、非宣言的メモリの標準的な認知科学のアカウントから引き出された3つの構造を通して暗黙的メモリを評価する最初の体系的なベンチマークである。当社の300イテムスイートでは,初動採点を備えたLearning/Priming-Interfere-Testプロトコルを統一しています。
論文参考訳（メタデータ） (2026-04-09T10:26:32Z)
QEDBENCH: Quantifying the Alignment Gap in Automated Evaluation of University-Level Mathematical Proofs [29.26861081722613]
我々は, 標準の「LLM-as-a-Judge」プロトコルが, 上学部から初期大学院レベルの数学に適用された場合, 体系的なアライメントギャップに悩まされることを実証した。 QEDBenchは、大学レベルの数学における人間の専門家とのアライメントを測定するための、最初の大規模デュアルルーブリックアライメントベンチマークである。我々は,Claude Opus 4.5,DeepSeek-V3,Qwen 2.5 Max,Llama 4 Maverickなどのフロンティア評価が有意な正のバイアスを示すことを明らかにした。
論文参考訳（メタデータ） (2026-02-24T07:23:28Z)
RefineBench: Evaluating Refinement Capability of Language Models via Checklists [71.02281792867531]
本研究は,2つの改良モード(ガイドリファインメントと自己リファインメント)を評価する。ガイド付き改良では、プロプライエタリなLMと大きなオープンウェイトLMの両方が目標フィードバックを利用して、5ターン以内のほぼ完全なレベルへの応答を洗練できる。これらの結果は、フロンティアLMは誤った反応を自己調整するためにブレークスルーを必要とすることを示唆している。
論文参考訳（メタデータ） (2025-11-27T07:20:52Z)
DS@GT at CheckThat! 2025: Evaluating Context and Tokenization Strategies for Numerical Fact Verification [49.1574468325115]
数値的クレーム、量、比較、時間的参照を含むステートメントは、自動化された事実チェックシステムに固有の課題をもたらす。我々は,QuanTempデータセットを用いて,これらのクレームの精度予測のためのモデリング戦略を評価し,エビデンス検索パイプラインを構築した。当社のベストパフォーマンスシステムは,競争力のあるマクロ平均F1スコア0.57を達成し,2025年のCheckThatのタスク3におけるトップ4のサブミッションに私たちを配置する。
論文参考訳（メタデータ） (2025-07-08T17:22:22Z)
News Summarization and Evaluation in the Era of GPT-3 [73.48220043216087]
GPT-3は,大規模な要約データセット上で訓練された微調整モデルと比較する。我々は,GPT-3サマリーが圧倒的に好まれるだけでなく,タスク記述のみを用いることで,現実性に乏しいようなデータセット固有の問題に悩まされることも示している。
論文参考訳（メタデータ） (2022-09-26T01:04:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。