Fugu-MT 論文翻訳(概要): Let LLMs Judge Each Other: Multi-Agent Peer-Reviewed Reasoning for Medical Question Answering

論文の概要: Let LLMs Judge Each Other: Multi-Agent Peer-Reviewed Reasoning for Medical Question Answering

arxiv url: http://arxiv.org/abs/2606.15419v1
Date: Sat, 13 Jun 2026 18:09:44 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-16 16:21:33.558774
Title: Let LLMs Judge Each Other: Multi-Agent Peer-Reviewed Reasoning for Medical Question Answering
Title（参考訳）: LLMを相互に判断する: 医療質問応答のためのマルチエージェントピアレビュー推論
Authors: Zaifu Zhan, Shuang Zhou, Rui Zhang,
Abstract要約: 医学質問応答(MedQA)における大規模言語モデル(LLM)の精度、解釈可能性、堅牢性を高めることを目的とする。我々は、複数のLLMエージェントが独立して、候補解の連鎖推論を生成するマルチエージェントピアレビュー推論法を設計した。最上位の推論チェーンが選択され、最終回答が生成される。
参考スコア（独自算出の注目度）: 7.55821284331926
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Objective: To enhance the accuracy, interpretability, and robustness of large language models (LLMs) in medical question answering (MedQA). Method: We designed a multi-agent peer-reviewed reasoning method in which multiple LLM agents independently generate chain-of-thought reasoning with candidate answers, then act as peer reviewers to evaluate each other's reasoning for factual correctness and logical soundness. The highest-rated reasoning chain is selected to produce the final answer. Experiments were conducted with five state-of-the-art LLMs (Llama-3.1-8B, Qwen2.5-7B, Phi-4, DeepSeek-LLM-7B, GPT-oss-20B) on three benchmark datasets: HeadQA, MedQA-USMLE, and PubMedQA. Performance was compared against single-model chain-of-thought reasoning and chain-of-thought-based majority voting. Results: Peer-reviewed reasoning consistently outperformed both baselines. The best model combination achieved an average accuracy of 0.820 across datasets, exceeding the strongest single model (0.777) and majority voting ensembles (up to 0.789). The method also scaled effectively with more participating models, while peer assessments reliably distinguished high- from low-quality reasoning chains. Conclusion: The proposed multi-agent peer-reviewed reasoning method enables LLMs to act as both solvers and evaluators, yielding superior performance in MedQA. By emphasizing reasoning quality rather than answer agreement alone, this approach improves accuracy, interpretability, and robustness, offering a promising direction for trustworthy biomedical AI systems.
Abstract（参考訳）: 目的:医学質問応答(MedQA)における大規模言語モデル(LLM)の精度,解釈可能性,堅牢性を高めること。提案手法は,複数のLLMエージェントが個別に仮説の連鎖的推論を生成できるマルチエージェントピアレビュー推論法を設計し,その上でピアレビュアとして機能し,事実の正しさと論理的健全性を評価する。最上位の推論チェーンが選択され、最終回答が生成される。実験は、HeadQA、MedQA-USMLE、PubMedQAの3つのベンチマークデータセット上で、5つの最先端LCM(Llama-3.1-8B、Qwen2.5-7B、Phi-4、DeepSeek-LLM-7B、GPT-oss-20B)を用いて行われた。シングルモデル・チェーン・オブ・シークリングやチェーン・オブ・シークレット・オブ・シークレットの多数投票と比較された。結果: ピアレビューによる推論は両ベースラインを一貫して上回る結果となった。最高のモデルの組み合わせはデータセットの平均0.820の精度を達成し、最強のシングルモデル(0.777)と多数決アンサンブル(0.789まで)を上回った。この手法は、より多くの参加モデルで効果的にスケールし、ピアアセスメントは高品質な推論チェーンと低品質な推論チェーンを確実に区別した。結論: 提案手法により, LLM は解法と評価器の両方として機能し, MedQA において優れた性能が得られる。回答合意のみではなく推論品質を強調することで、このアプローチは正確性、解釈可能性、堅牢性を改善し、信頼できるバイオメディカルAIシステムのための有望な方向性を提供する。

関連論文リスト

Learning When to Sample: Confidence-Aware Self-Consistency for Efficient LLM Chain-of-Thought Reasoning [7.8668388431725695]
大規模言語モデル(LLM)は、チェーン・オブ・ソート(CoT)推論によって強い推論性能を達成する。最近の自己整合性に基づくアプローチは、精度をさらに向上するが、複数の推論軌道のサンプリングと集約が必要である。本稿では,単一経路と複数経路の推論を適応的に選択するための単一経路推論軌道を解析する信頼度対応決定フレームワークを提案する。
論文参考訳（メタデータ） (2026-03-09T22:34:06Z)
MentorCollab: Selective Large-to-Small Inference-Time Guidance for Efficient Reasoning [85.05204262206296]
大きな推論モデル(LRM)は、長い思考の連鎖を生成することによって、強い性能を達成するが、その推論コストは高い。小型言語モデル(SLM)はより効率的であるが、多段階推論タスクでは困難である。本研究では, LRM が SLM を選択的かつ簡潔にガイドする推論時協調手法である MentorCollab を提案する。
論文参考訳（メタデータ） (2026-02-05T04:58:16Z)
Scoring, Reasoning, and Selecting the Best! Ensembling Large Language Models via a Peer-Review Process [58.265053900416895]
LLM-PeerReviewは、ピアレビューに触発された新しいフレームワークの上に構築されている。スコアリングには、新たなLCM-as-a-Judgeテクニックを使用します。推論にはグラフィカルモデルに基づく真理推論アルゴリズムを適用する。最後に、最高スコア応答をベストアンサンブル出力として選択する。
論文参考訳（メタデータ） (2025-12-29T05:25:49Z)
Beyond Majority Voting: LLM Aggregation by Leveraging Higher-Order Information [57.397381631496906]
最適重み(OW)と逆サプライシング人気度(ISP)という2つの新しいアグリゲーションアルゴリズムを開発した。我々の理論的分析は、これらの手法が軽微な仮定の下での多数決の本質的な制限を確実に緩和することを示している。我々は,我々のアルゴリズムを人工データセット,UltraFeedbackやMMLUなどのLLMファインチューニングベンチマーク,実世界の医療環境ARMMAN上で実証的に検証した。
論文参考訳（メタデータ） (2025-10-01T22:21:50Z)
Internalizing Self-Consistency in Language Models: Multi-Agent Consensus Alignment [22.305033366660187]
言語モデル(LM)は矛盾する推論子であり、しばしば同じプロンプトに対する矛盾した応答を生成する。適切に整合した推論モデルの本質的な性質として自己整合性を定式化し、MACA(Multi-Agent Consensus Alignment)を導入する。 MACAは、エージェントが自分自身をより決定的かつ簡潔に教えることを可能にし、外部の監督なしにマルチエージェント設定におけるピアインサイトをより活用する。
論文参考訳（メタデータ） (2025-09-18T17:27:28Z)
ReasonMed: A 370K Multi-Agent Generated Dataset for Advancing Medical Reasoning [54.30630356786752]
ReasonMedは、これまでで最大の医療推論データセットで、370万の高品質な例がある。マルチエージェント生成、検証、改善プロセスを通じて構築される。 ReasonMedを用いて、簡潔な答えの要約と詳細なCoT推論を統合することで、最も堅牢な微調整結果が得られる。
論文参考訳（メタデータ） (2025-06-11T08:36:55Z)
Language Model Preference Evaluation with Multiple Weak Evaluators [89.90733463933431]
PGEDは,複数のモデルに基づく評価器を用いて嗜好グラフを構築し,非循環的非競合性評価結果に対してこれらのグラフをアンサンブルし,デノテーズする手法である。 1)評価のためのモデルランキング、2)テスト時間スケーリングのための応答選択、3)モデル微調整のためのデータ選択である。
論文参考訳（メタデータ） (2024-10-14T01:57:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。