論文の概要: PoQ-Judge: A Multi-Architecture Evaluation Framework for Cost-Aware Proof-of-Quality in Decentralized LLM Inference
- arxiv url: http://arxiv.org/abs/2606.11196v1
- Date: Mon, 20 Apr 2026 02:29:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-15 07:09:36.820606
- Title: PoQ-Judge: A Multi-Architecture Evaluation Framework for Cost-Aware Proof-of-Quality in Decentralized LLM Inference
- Title(参考訳): PoQ-Judge:分散LLM推論におけるコスト意識による品質保証のためのマルチアーキテクチャ評価フレームワーク
- Authors: Arther Tian, Alex Ding, Frank Chen, Simon Wu, Aaron Chan,
- Abstract要約: PoQ-Judgeは、厳格な参照なしでクエリとアウトプットのペアをスコアする専用の判断モデルを訓練するフレームワークである。
本研究では,テキストCNNジャッジ,MiniLMクロスエンコーダ,DeBERTaジャッジの3つのアーキテクチャについて検討する。
- 参考スコア(独自算出の注目度): 2.621929201001929
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Decentralized LLM inference networks need lightweight, reference-free quality evaluation for Proof of Quality (PoQ). We present PoQ-Judge, a framework that trains dedicated judge models to score query-output pairs without ground-truth references. We study three architectures across the quality-cost tradeoff: a TextCNN judge, a MiniLM cross-encoder, and a DeBERTa judge. Using two-stage training on UltraFeedback plus GPT-labeled in-domain data, the best model reaches 0.747 Pearson correlation with the ground-truth proxy on a held-out test set, outperforming reference-based evaluators from prior work. As a reference-free component in composite scoring, it achieves 0.645 Pearson correlation, matching the best single reference-based evaluator while removing the need for reference answers. We also show that online calibration identifies semantic quality as the dominant dimension and that cascade evaluation reduces cost by 72.7 percent with only modest quality loss. Results are much stronger on QA than summarization, pointing to proxy quality as the main remaining limitation.
- Abstract(参考訳): 分散LLM推論ネットワークは、Proof of Quality (PoQ)の軽量で参照不要な品質評価を必要とする。
提案するPoQ-Judgeは,厳密な参照を伴わずに,専用判断モデルを用いてクエリと出力のペアをスコアするフレームワークである。
本研究では,テキストCNNジャッジ,MiniLMクロスエンコーダ,DeBERTaジャッジの3つのアーキテクチャについて検討する。
UltraFeedbackとGPT-labeledのドメイン内データに対する2段階のトレーニングを用いて、最良のモデルがPearsonの0.747Pearson相関に達する。
合成スコアリングにおける基準自由成分として、0.645ピアソン相関を達成し、参照応答の必要性を除去しつつ、最高の単一参照ベース評価器をマッチングする。
また,オンラインキャリブレーションによってセマンティックな品質が支配的な次元として認識され,カスケード評価により,わずかに品質が低下しただけで,72.7%のコスト削減が達成された。
結果は要約よりもQAの方がはるかに強く、プロキシの品質を主要な制限として示しています。
関連論文リスト
- A Multi-Dimensional Quality Scoring Framework for Decentralized LLM Inference with Proof of Quality [2.621929201001929]
出力品質をモジュラー次元に分解する多次元品質評価フレームワークを提案する。
一見合理的な次元はタスク依存であり、校正なしで基準品質と負の相関があることを示す。
論文 参考訳(メタデータ) (2026-03-04T13:05:46Z) - CARE: Confounder-Aware Aggregation for Reliable LLM Evaluation [21.96013518286442]
CAREは、判定スコアのための共同設立者対応アグリゲーションフレームワークである。
共有共同設立者の下で、識別可能性と有限サンプル回復に関する理論的保証を提供する。
CAREはアグリゲーションの精度を改善し、エラーを最大26.8%削減する。
論文 参考訳(メタデータ) (2026-02-09T03:17:55Z) - Design and Evaluation of Cost-Aware PoQ for Decentralized LLM Inference [4.254924788681319]
本稿では,分散型大規模言語モデル (LLM) 推論のためのコストアウェアな品質証明 (PoQ) フレームワークを提案する。
この設計は、基底真理トークンレベルF1、軽量学習評価器、GPTに基づく判定を統一評価パイプライン内で組み合わせる。
モンテカルロの5000回以上のPoQラウンドのシミュレーションでは、コスト認識報酬スキームは高品質の低コスト推論モデルに常に高い平均報酬を割り当てることを示した。
論文 参考訳(メタデータ) (2025-12-18T08:57:17Z) - TrustJudge: Inconsistencies of LLM-as-a-Judge and How to Alleviate Them [58.04324690859212]
自動評価器(LLM-as-a-judge)としての大規模言語モデル(LLM)は、現在の評価フレームワークにおいて重大な矛盾を明らかにしている。
スコア比較不整合とペアワイズ・トランジティビティ不整合という2つの基本的不整合を同定する。
我々は2つの重要なイノベーションを通じてこれらの制限に対処する確率的フレームワークであるTrustJudgeを提案する。
論文 参考訳(メタデータ) (2025-09-25T13:04:29Z) - Pairwise or Pointwise? Evaluating Feedback Protocols for Bias in LLM-Based Evaluation [57.380464382910375]
評価のためのフィードバックプロトコルの選択は,評価信頼性に大きく影響し,系統的なバイアスを生じさせることを示す。
ジェネレータモデルは、気を散らす機能を埋め込むことで好みをひっくり返すことができる。
我々は,データセットの特徴と評価目標に基づくフィードバックプロトコルの選択を推奨する。
論文 参考訳(メタデータ) (2025-04-20T19:05:59Z) - MQM-APE: Toward High-Quality Error Annotation Predictors with Automatic Post-Editing in LLM Translation Evaluators [53.91199933655421]
大規模言語モデル(LLM)は、機械翻訳(MT)の品質評価の裁判官として大きな可能性を秘めている。
非インパクト的なエラーをフィルタリングするアイデアに基づいて、ユニバーサルでトレーニング不要なフレームワークである$textbfMQM-APEを紹介します。
実験の結果,GEMBA-MQMに対する誤差の信頼性と品質の両方が一貫して改善されていることがわかった。
論文 参考訳(メタデータ) (2024-09-22T06:43:40Z) - Adaptive Image Quality Assessment via Teaching Large Multimodal Model to Compare [99.57567498494448]
我々はLMMに基づくノン参照IQAモデルであるCompare2Scoreを紹介する。
トレーニング中、同じIQAデータセットの画像を比較することで、スケールアップ比較命令を生成する。
9つのIQAデータセットの実験により、Compare2Scoreは、トレーニング中にテキスト定義の比較レベルを効果的にブリッジすることを確認した。
論文 参考訳(メタデータ) (2024-05-29T17:26:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。