論文の概要: Rubric-as-Experts: Case-Specific MQM Rubrics for Translation Quality Evaluation
- arxiv url: http://arxiv.org/abs/2606.21559v1
- Date: Fri, 19 Jun 2026 15:56:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-25 12:43:44.631841
- Title: Rubric-as-Experts: Case-Specific MQM Rubrics for Translation Quality Evaluation
- Title(参考訳): Rubric-as-Experts:Case-Specific MQM Rubrics for Translation Quality Evaluation
- Authors: Weilu Xu, Yunzhi Shen, Xinye Wang, Ranfei Dang, Shujian Huang,
- Abstract要約: 大規模言語モデル(LLM)は、細粒度翻訳品質評価(QE)において強い可能性を示している。
既存のMQMベースのアプローチは通常、すべての翻訳サンプル間で共有される固定されたルーブリック構成に依存します。
本稿では,個別翻訳インスタンスに対するMQM評価空間を適応的に構築するケース固有動的ルーリックフレームワークを提案する。
- 参考スコア(独自算出の注目度): 25.962832706506457
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have shown strong potential in fine-grained translation quality evaluation (QE), yet existing MQM-based approaches typically rely on fixed rubric configurations shared across all translation samples. However, translation instances often differ substantially in error complexity, ambiguity, and required evaluation granularity, making static rubric allocation suboptimal for span-level error detection. We find that larger MQM subtype spaces improve error coverage but also introduce more false positives, while different translation instances prefer different rubric granularities, suggesting that evaluation spaces should be allocated dynamically for each case. Motivated by these observations, we propose a case-specific dynamic rubric framework that adaptively constructs MQM evaluation spaces for individual translation instances. Unlike fully free-form rubric generation methods, our framework remains grounded in the predefined MQM taxonomy while dynamically selecting suitable subtype spaces and evaluation granularity for different cases. Experiments on WMT span-level QE benchmarks across multiple model scales demonstrate that the proposed framework consistently improves MCC and produces cleaner span-level error localization compared with static rubric settings. Our results suggest that combining structured MQM rubrics with case-specific adaptive allocation is an effective strategy for fine-grained LLM-based translation evaluation.
- Abstract(参考訳): 大規模言語モデル(LLM)は、細粒度翻訳品質評価(QE)において強力な可能性を示しているが、既存のMQMベースのアプローチは通常、すべての翻訳サンプル間で共有される固定されたルーリック構成に依存している。
しかし、翻訳インスタンスは、しばしばエラーの複雑さ、曖昧さ、必要な評価粒度で大きく異なり、スパンレベルのエラー検出に静的なルーリック割当を最適化する。
より大きいMQMサブタイプ空間はエラーカバレッジを改善するが、より偽陽性をもたらすのに対し、異なる翻訳インスタンスは異なるルーリックな粒度を好んでおり、各ケースに対して評価空間を動的に割り当てるべきである。
これらの観測により,各翻訳インスタンスに対するMQM評価空間を適応的に構築するケース固有動的ルーブリックフレームワークを提案する。
完全に自由なルーブリック生成法とは異なり、我々のフレームワークは、適切なサブタイプ空間を動的に選択し、異なるケースに対する評価粒度を評価しながら、予め定義されたMQM分類に基礎を置いている。
複数のモデルスケールにわたるWMTスパンレベルQEベンチマークの実験により、提案フレームワークはMCCを一貫して改善し、静的なルーリック設定に比べてよりクリーンなスパンレベルエラーローカライゼーションを生成することが示された。
この結果から, 構造化MQMルーブリックとケース固有適応アロケーションを組み合わせることは, LLMを用いた翻訳評価に有効な方法であることが示唆された。
関連論文リスト
- Multilingual Fine-Tuning via Localized Gradient Conflict Resolution [20.41455787951831]
我々は、勾配に基づくMOOアルゴリズムを局所的に適用するスケーラブルな分散フレームワークであるBucket-Level MOOを紹介した。
実証的に、Bucket-Level MOOは大きな言語モデルを駆動することで干渉を緩和し、異なる言語固有の次元を構築する。
提案手法は,従来の微調整パラダイムよりも多言語性能を著しく向上させる。
論文 参考訳(メタデータ) (2026-06-04T02:36:30Z) - XQ-MEval: A Dataset with Cross-lingual Parallel Quality for Benchmarking Translation Metrics [64.77152900881724]
9つの翻訳方向をカバーする半自動構築データセットであるXQ-MEvalを提案する。
MQMで定義されたエラーを金の翻訳に自動的に注入し、信頼性のためにネイティブスピーカーによってフィルタリングし、エラーをマージして、制御可能な品質で擬似翻訳を生成する。
XQ-MEvalを用いて, 平均的判断と人的判断の矛盾を明らかにする。
論文 参考訳(メタデータ) (2026-04-16T12:27:10Z) - Domain-Specific Quality Estimation for Machine Translation in Low-Resource Scenarios [10.17317882426833]
本研究は,4つの領域(医療,法,観光,一般)と5つの言語対にわたる英語とインデックスの機械翻訳における文レベルQEについて検討する。
クローズドウェイトモデルが単独で強力なパフォーマンスを達成する一方で、プロンプトのみのアプローチはオープンウェイトモデルには脆弱なままである。
論文 参考訳(メタデータ) (2026-03-07T22:55:25Z) - Beyond Literal Mapping: Benchmarking and Improving Non-Literal Translation Evaluation [57.11989521509119]
本稿では,特殊なサブエージェントを起動するリフレクティブコアエージェントを中心に,エージェント翻訳評価フレームワークを提案する。
実験の結果、RATEの有効性が示され、現在の測定値と比較して少なくとも3.2メタスコアの改善が達成された。
論文 参考訳(メタデータ) (2026-01-12T09:03:42Z) - Towards Fine-Grained Vision-Language Alignment for Few-Shot Anomaly Detection [65.29550320117526]
我々はFinGrainedADという新しいフレームワークを提案し、異常なローカライゼーション性能を改善する。
実験により、提案されたFinGrainedADは、数ショット設定で全体的なパフォーマンスが優れていることが示された。
論文 参考訳(メタデータ) (2025-10-30T13:09:00Z) - Fluid Language Model Benchmarking [126.92394365620525]
我々は,複数の次元にわたるLMベンチマークを進展させる新しい評価手法であるFluid Benchmarkingを紹介する。
サイコメトリックスにインスパイアされたFluid Benchmarkingは、ベンチマーク項目の相対値がLMの能力レベルに依存するという洞察に基づいている。
効率性,妥当性,分散性,飽和性の4つの次元を検証した結果,Fluid Benchmarkingがすべてにおいて優れた性能を発揮することがわかった。
論文 参考訳(メタデータ) (2025-09-14T05:49:42Z) - HiMATE: A Hierarchical Multi-Agent Framework for Machine Translation Evaluation [39.7293877954587]
HiMATEは機械翻訳評価のための階層型マルチエージェントフレームワークである。
MQMエラー型に基づく階層型マルチエージェントシステムを構築し,サブタイプエラーの詳細な評価を可能にする。
経験的に、HiMATEは、人間によるアライメント評価の実行において、さまざまなデータセット間の競争ベースラインよりも優れています。
論文 参考訳(メタデータ) (2025-05-22T06:24:08Z) - MQM-APE: Toward High-Quality Error Annotation Predictors with Automatic Post-Editing in LLM Translation Evaluators [53.91199933655421]
大規模言語モデル(LLM)は、機械翻訳(MT)の品質評価の裁判官として大きな可能性を秘めている。
非インパクト的なエラーをフィルタリングするアイデアに基づいて、ユニバーサルでトレーニング不要なフレームワークである$textbfMQM-APEを紹介します。
実験の結果,GEMBA-MQMに対する誤差の信頼性と品質の両方が一貫して改善されていることがわかった。
論文 参考訳(メタデータ) (2024-09-22T06:43:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。