論文の概要: Rebuttals Move Peer-Review Scores, but Initial-Review Structure Bounds the Movement
- arxiv url: http://arxiv.org/abs/2606.22166v1
- Date: Sat, 20 Jun 2026 17:55:48 GMT
- ステータス: 情報取得中
- システム内更新日: 2026-06-23 14:59:24.191488
- Title: Rebuttals Move Peer-Review Scores, but Initial-Review Structure Bounds the Movement
- Title(参考訳): Rebuttals Move Peer-Review Scores, but initial-Review Structures bounds the Movement
- Authors: Mathieu Louis, Tibo Vanleke, Vincent Ginis, Andres Algaba,
- Abstract要約: 著者の反論はピアレビューの主要な投稿後ウィンドウであるが、レビュアーのスコアに対する影響は測定が難しいままである。
ICLR 2024-2025 は 73,000 個のレビュア・トラジェクトリを用いて,外部にアーカイブされた前・後スコアを用いて検討した。
- 参考スコア(独自算出の注目度): 4.413510318562841
- License:
- Abstract: Author rebuttals are the main post-submission window in peer review, but their effect on reviewer scores remains hard to measure because score updates mix rebuttal content with initial score position, paper-level consensus, reviewer confidence, and discussion dynamics. We study ICLR 2024-2025 using 73,000 reviewer trajectories with externally archived pre- and post-rebuttal scores, and use LLMs only as measurement instruments. Gemini Flash 3.0 predicts implied pre-rebuttal scores from score-stripped review text. The resulting text-score offset predicts later movement, with score-increase rates rising from 8.3% when text reads below the assigned score to 31.9% when it reads above. Claude Opus 4.6 induces, and outcome-blinded Gemini Flash 3.0 validates, a 44-feature taxonomy of resolved reviewer-author exchanges, where 23 features replicate across model and held-out year under Bonferroni correction. In the rebuttal-engaged benchmark (n=6,705), initial-review structure already predicts much score movement (AUC=0.747, minimal AUC=0.696), while adding the resolved exchange raises AUC to 0.804. Rebuttals can move scores, but measurable movement is bounded by initial-review structure, and robust exchange signals are mostly rebuttal failure modes.
- Abstract(参考訳): 著者の反論はピアレビューにおける主要なポストサブミッションウィンドウであるが、スコア更新が最初のスコアポジション、論文レベルのコンセンサス、レビュアーの信頼度、議論のダイナミクスを混合しているため、レビュアースコアへの影響は測ることが難しい。
ICLR 2024-2025 は 73,000 個のレビュア・トラジェクトリを外部にアーカイブした前・後スコアを用いて検討し,LLM を計測機器としてのみ使用した。
Gemini Flash 3.0は、スコアストラップされたレビューテキストからインプリビュータル前のスコアを予測する。
結果のテキストスコアオフセットは後の動きを予測し、テキストが割り当てられたスコアを下回るとスコアが8.3%から31.9%に上昇する。
Claude Opus 4.6 は、解決されたレビュアー-著者交換の44の分類である Gemini Flash 3.0 を推論し、ボンフェロニ補正の下で、23の機能がモデルと保留年に複製される。
再帰型ベンチマーク(n=6,705)では、初期レビュー構造はすでに多くのスコアの動き(AUC=0.747、最小AUC=0.696)を予測しており、解決された交換はAUCを0.804に引き上げている。
属性はスコアを移動することができるが、測定可能な動きは初期レビュー構造によって制限され、ロバストな交換信号は、主にリビュー障害モードである。
関連論文リスト
- FirstPass: Grounding AI Scientific Judgment in Multi-Round Editorial Outcomes [0.27998963147546146]
我々は、ピアレビューのためにAIの3つの側面すべてに対処するデータセットの微調整モデルであるFirstPassを紹介した。
我々は、強制的透明なピアレビュー(2022年11月設置)を活用し、自動監査により100%のコンテンツ完全性を検証する。
FirstPassは生成時に平均1,187ワードのレビューを生成し、ベースラインよりも人間の参照(2,155ワード)に近い。
論文 参考訳(メタデータ) (2026-06-18T15:06:36Z) - Intelligence Is Not the Bottleneck: Validating an LLM First-Pass Manuscript Score Against Peer-Review Outcomes [0.0]
大規模言語モデル(LLM)システムは、ピアレビューを支援するためにますます提案されている。
ほとんどの評価は、システムが割り当てる数値スコアの妥当性ではなく、機械生成レビューテキストの散文を判断する。
提案した原稿を読み取って5つの0-100品質ディメンションと重み付き総合スコアを出力するAIPRを検証する。
論文 参考訳(メタデータ) (2026-06-14T16:13:15Z) - Hierarchical Online Prompt Mutation with Dual-Loop Feedback for Guardrailed Evidence Document Generation: A Production-Evaluation Case Study [0.0]
HOPMは階層的なオンラインプロンプト突然変異フレームワークである。
本論文は、制御設定、サンプルサイズ、信頼区間、ペアテスト、プロンプトトークンカテゴリ、擬似コード、スキーマ、ルーリック、ガードレール分類、構築された例を含む。
論文 参考訳(メタデータ) (2026-05-31T22:17:44Z) - Amplifying, Not Learning: Fine-Tuned AI Text Detectors Amplify a Pretrained Direction [51.56484100374058]
テキスト検出器は、事前訓練された典型軸を増幅する。
タスク監督前の生エンコーダでは、3つのアーキテクチャでNYT-vs-HC3 AUROC 0.806/0.944/0.834を達成する。
RoBERTaベースでは、生のプロジェクションは微調整を超えるが、RoBERTaベースでは、フル微調整は、試験された流線型人口の双方で生よりも識別を小さくする。
論文 参考訳(メタデータ) (2026-05-20T19:08:38Z) - Step-wise Rubric Rewards for LLM Reasoning [72.17879367869503]
RLVR(Reinforcement Learning with Verifiable Rewards)は、大規模言語モデルの推論を改善するために広く使われている。
正しい回答の18.2%は間違っているが、肯定的な報酬がある。
6つの数学的推論ベンチマークで、SRaRはRaRの平均精度を3.57ポイント改善した。
論文 参考訳(メタデータ) (2026-05-17T07:08:14Z) - Decoupling Scores and Text: The Politeness Principle in Peer Review [0.0]
著者はしばしばピアレビューのフィードバックを解釈するのに苦労し、丁寧なコメントから誤った希望を導き、特定の低いスコアで混乱していると感じている。
我々は,3万件以上のICLR 2021-2025のデータセットを構築し,数値スコアを用いた受入予測性能とテキストレビューを比較した。
スコアベースモデルでは91%,テキストベースモデルでは81%,大規模言語モデルでは81%であった。
論文 参考訳(メタデータ) (2026-03-23T11:58:48Z) - TrustJudge: Inconsistencies of LLM-as-a-Judge and How to Alleviate Them [58.04324690859212]
自動評価器(LLM-as-a-judge)としての大規模言語モデル(LLM)は、現在の評価フレームワークにおいて重大な矛盾を明らかにしている。
スコア比較不整合とペアワイズ・トランジティビティ不整合という2つの基本的不整合を同定する。
我々は2つの重要なイノベーションを通じてこれらの制限に対処する確率的フレームワークであるTrustJudgeを提案する。
論文 参考訳(メタデータ) (2025-09-25T13:04:29Z) - Re$^2$: A Consistency-ensured Dataset for Full-stage Peer Review and Multi-turn Rebuttal Discussions [2.5226834810382113]
一貫性に保証された最大のピアレビューと、Re2というリビューデータセットを紹介します。
このデータセットは、最初の投稿19,926件、レビューコメント70,668件、OpenReviewに関する24のカンファレンスと21のワークショップからの53,818件からなる。
論文 参考訳(メタデータ) (2025-05-12T16:02:52Z) - Benchmarking Reasoning Robustness in Large Language Models [76.79744000300363]
新規データや不完全データでは,性能が著しく低下することがわかった。
これらの結果は、厳密な論理的推論に対するリコールへの依存を浮き彫りにした。
本稿では,情報不足によって引き起こされる幻覚を利用して推論ギャップを明らかにする,Math-RoBと呼ばれる新しいベンチマークを提案する。
論文 参考訳(メタデータ) (2025-03-06T15:36:06Z) - The ICML 2023 Ranking Experiment: Examining Author Self-Assessment in ML/AI Peer Review [49.43514488610211]
著者が提供するランキングは、機械学習カンファレンスでのピアレビュープロセスを改善するために利用することができる。
著者が提示したランキングを用いて生のレビュースコアを校正するイソトニックメカニズムに注目した。
本稿では,アイソトニック機構の慎重かつリスクの低いいくつかの応用と著者が提案する格付けをピアレビューで提案する。
論文 参考訳(メタデータ) (2024-08-24T01:51:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。