Fugu-MT 論文翻訳(概要): MADRAG: Multi-Agent Debate with Retrieval-Augmented Generation for Training-Free Analytic Essay Scoring

論文の概要: MADRAG: Multi-Agent Debate with Retrieval-Augmented Generation for Training-Free Analytic Essay Scoring

arxiv url: http://arxiv.org/abs/2606.06754v1
Date: Thu, 04 Jun 2026 22:32:47 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-08 14:33:29.469335
Title: MADRAG: Multi-Agent Debate with Retrieval-Augmented Generation for Training-Free Analytic Essay Scoring
Title（参考訳）: MADRAG: 学習・分析・評価のための検索・拡張ジェネレーションを併用したマルチエージェントディベート
Authors: Ali Keramati, Shiyuan Zhou, Sharad Mehrotra, Mark Warschauer,
Abstract要約: 分析エッセイ評価のためのトレーニングフリーフレームワークであるMADRAGについて述べる。支持者は強み、懐疑的な弱みを識別し、裁判官は彼らの議論を最終スコアに集約する。
参考スコア（独自算出の注目度）: 6.092300706830162
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We present MADRAG, a training-free framework for analytic essay scoring that combines multi-agent reasoning with retrieval-augmented grounding. Unlike standard LLM-as-judge approaches, which are prone to bias and unstable scoring, MADRAG decomposes evaluation into an interactive process: an Advocate identifies strengths, a Skeptic critiques weaknesses, and a Judge aggregates their arguments into a final score. Crucially, the Judge is augmented with rubric-aligned exemplar retrieval, enabling calibration through comparison with scored examples. Our results show that MADRAG significantly outperforms prompt-based baselines while approaching the performance of supervised systems without requiring task-specific training. Ablation studies demonstrate that retrieval drives calibration gains, while debate improves reasoning on higher-level traits. Our findings highlight the complementary roles of structured interaction and external memory in reliable LLM-based evaluation.
Abstract（参考訳）: 我々は,マルチエージェント推論と検索強化グラウンドニングを組み合わせた分析エッセイ評価のための学習自由フレームワークMADRAGを提案する。標準的なLCM-as-judgeアプローチとは違い、バイアスや不安定なスコアリングが難しいため、MADRAGは評価をインタラクティブなプロセスに分解する。重要な点として、審査員はルーリック整列した模範検索で強化され、採点された例と比較して校正が可能である。その結果,MADRAGはタスク固有の訓練を必要とせず,教師付きシステムの性能にアプローチしながら,プロンプトベースベースラインを著しく上回っていることがわかった。アブレーション研究は、検索がキャリブレーションゲインを駆動し、議論はより高いレベルの特性の推論を改善することを示した。本研究は,LCMに基づく信頼性評価において,構造化相互作用と外部記憶の相補的役割を強調した。

関連論文リスト

Mitigating Perceptual Judgment Bias in Multimodal LLM-as-a-Judge via Perceptual Perturbation and Reward Modeling [35.945096782147864]
MLLMの裁判官は、視覚的証拠がテキストの手がかりと矛盾する場合、知覚的に正しい答えに対して、もっともらしい物語に報いる傾向がある。本稿では,最小限に編集された反事実応答を構成するPerceptually Perturbed Judgmentデータセットを提案する。我々は、構造化GRPOベースの報酬とバッチレベルの目標を組み合わせた統一的なトレーニングフレームワークを開発し、明示的なペアワイドラベルを使わずにコヒーレントなグローバルオーダを実現する。
論文参考訳（メタデータ） (2026-06-01T17:59:46Z)
Time to REFLECT: Can We Trust LLM Judges for Evidence-based Research Agents? [61.49434544687523]
本稿では,エージェント環境におけるきめ細かい故障検出を目的としたメタ評価ベンチマークREFLECTを紹介する。 REFLECTはプロセスレベルの障害モードと結果レベルの障害モードの詳細な分類を定義し、制御および局所的な介入を実行することでインスタンス化する。私たちの実験では、最高のパフォーマンスモデルでさえ、推論、ツール使用、レポート品質の失敗に対して、全体的なアキュラシーを55%以下に達成しています。
論文参考訳（メタデータ） (2026-05-18T23:55:08Z)
Gaming the Judge: Unfaithful Chain-of-Thought Can Undermine Agent Evaluation [76.5533899503582]
大規模言語モデル(LLM)は、エージェントのパフォーマンスを評価するために、ますます裁判官として使われている。このパラダイムは、エージェントのチェーン・オブ・シークレット(CoT)推論が内部の推論と環境状態の両方を忠実に反映していることを暗黙的に仮定している。我々は、操作された推論だけで、様々なWebタスクにまたがる800の軌跡に対して、最先端のVLM審査員の偽陽性率を最大90%向上させることができることを実証した。
論文参考訳（メタデータ） (2026-01-21T06:07:43Z)
JudgeBoard: Benchmarking and Enhancing Small Language Models for Reasoning Evaluation [13.831735556002426]
小型言語モデル(SLM)は様々な推論タスクを約束している。解答の正しさを判断する能力は、大言語モデル(LLM)と比較しても明らかでない。
論文参考訳（メタデータ） (2025-11-20T01:14:39Z)
LLM4SCREENLIT: Recommendations on Assessing the Performance of Large Language Models for Screening Literature in Systematic Reviews [2.2175470459999636]
我々は、系統的なレビューにおいて、関連する文献を特定するために、Gen-AIツールのパフォーマンスを評価するために伝統的なメトリクスを使用する際の問題を特定する。主な弱点は、不均衡なデータに対して堅牢で、結果が偶然よりも優れているかどうかを直接示さないメトリクスを使用できないことであった。ポジティブな面では、研究者や実践者や政策立案者に対する勧告が構築される優れた(評価)プラクティスを抽出する。
論文参考訳（メタデータ） (2025-11-16T15:04:50Z)
RAG-Zeval: Towards Robust and Interpretable Evaluation on RAG Responses through End-to-End Rule-Guided Reasoning [64.46921169261852]
RAG-Zevalは、ルール誘導推論タスクとして忠実さと正しさの評価を定式化する、新しいエンドツーエンドフレームワークである。提案手法は、強化学習による評価者を訓練し、コンパクトなモデルにより包括的および音質評価を生成する。実験では、RAG-Zevalの優れた性能を示し、人間の判断と最も強い相関性を達成した。
論文参考訳（メタデータ） (2025-05-28T14:55:33Z)
Judge as A Judge: Improving the Evaluation of Retrieval-Augmented Generation through the Judge-Consistency of Large Language Models [68.92020689188887]
Retrieval-Augmented Generation (RAG) は、Large Language Models (LLM) に対する幻覚を緩和する効果を証明している。既存の自動評価メトリクスは、トレーニングと評価の間にRAGモデルによって生成されたアウトプットを正確に評価することはできない。本稿では,RAGモデルのより正確な評価を実現するため,LCMの強化を目的とした判断一貫性(ConsJudge)手法を提案する。
論文参考訳（メタデータ） (2025-02-26T04:50:43Z)
JudgeRank: Leveraging Large Language Models for Reasoning-Intensive Reranking [81.88787401178378]
本稿では,文書関連性を評価する際に,人間の認知過程をエミュレートする新しいエージェント・リランカであるJiceRankを紹介する。我々は,推論集約型BRIGHTベンチマークを用いて判定Rankを評価し,第1段階の検索手法よりも性能が大幅に向上したことを示す。さらに、JiceRankは、人気の高いBEIRベンチマークの細調整された最先端リランカと同等に動作し、ゼロショットの一般化能力を検証している。
論文参考訳（メタデータ） (2024-10-31T18:43:12Z)
Emphasising Structured Information: Integrating Abstract Meaning Representation into LLMs for Enhanced Open-Domain Dialogue Evaluation [31.633351104278194]
本フレームワークは,意味表現学習の強化を目的としたゲーティング機構を通じて,AMRグラフ情報を統合する。本フレームワークは,複数のデータセットにまたがる人間の判断と強い相関関係を達成し,対話評価のための新たなベンチマークを確立する。
論文参考訳（メタデータ） (2024-04-01T14:11:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。