論文の概要: When Languages Disagree: Self-Evolving Multilingual LLM Judges
- arxiv url: http://arxiv.org/abs/2606.08092v1
- Date: Sat, 06 Jun 2026 10:36:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:05.773299
- Title: When Languages Disagree: Self-Evolving Multilingual LLM Judges
- Title(参考訳): 言語が混乱する時: 自己進化型多言語LLM審査員
- Authors: Xiyan Fu, Wei Lu,
- Abstract要約: 多言語不整合が相補的な評価信号を提供することを示す。
SEMJは,反復的洗練のために言語間不整合を利用する自己進化型多言語判断器である。
- 参考スコア(独自算出の注目度): 12.308063172324003
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multilingual LLM-as-a-judge is widely used to evaluate model outputs across languages, but suffers from cross-lingual inconsistency (Fu and Liu, 2025). Existing methods typically treat this inconsistency as noise and mitigate it through voting or aggregation. In this work, we instead show that multilingual inconsistency can provide complementary evaluation signals. Our oracle analysis finds that sampling judgments across languages yields a higher performance upper bound than single-language judging, indicating that different languages potentially include complementary judgments. Motivated by this finding, we propose SEMJ, a self-evolving multilingual judge that leverages cross-lingual inconsistency for iterative refinement. SEMJ constructs multilingual variants of each input, collects independent judgments and rationales, and feeds inconsistent outputs back for self-reflection and re-evaluation. Experiments on multiple benchmarks show that SEMJ consistently outperforms voting and reflection baselines in both accuracy and cross-lingual consistency. Further analysis shows that inconsistency triggers useful re-evaluation, which improves judgment quality.
- Abstract(参考訳): 多言語 LLM-as-a-judge は言語間のモデル出力を評価するために広く用いられているが、言語間不整合に悩まされている(Fu and Liu, 2025)。
既存の手法では、この矛盾をノイズとして扱い、投票や集計を通じて緩和するのが一般的である。
そこで本研究では,多言語不整合が相補的な評価信号を提供できることを示す。
我々のオラクル分析では、言語をまたいだ判断をサンプリングすると、単言語による判断よりも高い性能の上限が得られ、異なる言語が相補的な判断を含む可能性が示唆されている。
この発見に触発されたSEMJは,反復的洗練のために言語間不整合を利用する自己進化型多言語判断器である。
SEMJは各入力の多言語変種を構築し、独立した判断と合理性を収集し、自己回帰と再評価のために一貫性のない出力をフィードバックする。
複数のベンチマークの実験では、SEMJは精度と言語間の整合性の両方において、投票基準と反射基準を一貫して上回っている。
さらに分析した結果,不整合が有用再評価の引き金となり,判定精度が向上した。
関連論文リスト
- All Languages Matter: Understanding and Mitigating Language Bias in Multilingual RAG [87.74635133954975]
現在のマルチ言語検索・拡張生成システム(mRAG)は,再ランク付け時に言語バイアスに悩まされていることを示す。
textittextbfLanguage-textbfAgnostic textbfUtility-driven textbfReranker textbfAlignment (LAURA)を提案する。
論文 参考訳(メタデータ) (2026-04-22T05:33:06Z) - Lost in Translation: Do LVLM Judges Generalize Across Languages? [46.119587015038746]
MM-JudgeBenchは,マルチリンガルおよびマルチモーダルの判断モデル評価のための,最初の大規模ベンチマークである。
MM-JudgeBenchには、25のタイプ的多種多様な言語にまたがる60万以上のペアの好みインスタンスが含まれている。
LVLMを22個評価することにより,提案するベンチマークにおいて,言語間性能のかなりのばらつきを明らかにした。
論文 参考訳(メタデータ) (2026-04-21T12:29:10Z) - Cross-Lingual LLM-Judge Transfer via Evaluation Decomposition [13.066970846043576]
我々は,Universal Criteria Set (UCS) を中心に構築された分解に基づく評価フレームワークを提案する。
UCSは言語に依存しない評価次元の集合で構成され、解釈可能な中間表現を生成する。
言語やモデルバックボーンにまたがる複数の忠実度タスクの実験では、ターゲット言語アノテーションを必要とせずに一貫した改善が示されている。
論文 参考訳(メタデータ) (2026-03-19T07:11:31Z) - Fairness or Fluency? An Investigation into Language Bias of Pairwise LLM-as-a-Judge [9.062065949101001]
LLM-as-a-judgeの2種類の言語バイアスについて検討した。
同言語の判断では、言語家族間で大きなパフォーマンス格差があり、ヨーロッパ語はアフリカ語を一貫して上回っている。
言語間判断において、ほとんどのモデルは英語の解答を好んでおり、この選好は質問言語よりも解答言語によって影響される。
論文 参考訳(メタデータ) (2026-01-20T06:33:33Z) - A Comprehensive Evaluation of Multilingual Chain-of-Thought Reasoning: Performance, Consistency, and Faithfulness Across Languages [48.68444770923683]
マルチリンガル・チェーン・オブ・ソート(CoT)推論の最初の包括的研究について述べる。
LRMがターゲット言語ですぐに考えることができる場合、言語コンプライアンス、解答精度、解答一貫性を計測する。
思考の痕跡の質と有効性は、素早い言語によって大きく異なることがわかった。
論文 参考訳(メタデータ) (2025-10-10T17:06:50Z) - Found in Translation: Measuring Multilingual LLM Consistency as Simple as Translate then Evaluate [36.641755706551336]
大規模言語モデル(LLM)は、英語のクエリに対して詳細で印象的な応答を提供する。
しかし、彼らは他の言語で同じクエリに対応することに本当に一貫性がありますか?
本稿では,LLMの言語間整合性を評価するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-28T06:00:21Z) - How Reliable is Multilingual LLM-as-a-Judge? [11.639184489330368]
25言語を含む5つの多種多様なタスクにおいて、異なるモデルファミリーから5つのモデルを評価する。
一貫性は言語によって大きく異なり、低リソース言語では特にパフォーマンスが劣っていることが分かりました。
実世界のアプリケーションにおける多言語判断の整合性を改善するアンサンブル戦略を提案する。
論文 参考訳(メタデータ) (2025-05-18T02:32:35Z) - Understanding and Mitigating Language Confusion in LLMs [76.96033035093204]
我々は,既存の英語および多言語プロンプトを用いた15の型的多様言語の評価を行った。
Llama Instruct と Mistral のモデルでは,言語的混乱の度合いが高いことがわかった。
言語混乱は,数発のプロンプト,多言語SFT,選好調整によって部分的に緩和できることがわかった。
論文 参考訳(メタデータ) (2024-06-28T17:03:51Z) - On Cross-Lingual Retrieval with Multilingual Text Encoders [51.60862829942932]
言語間文書・文検索タスクにおける最先端多言語エンコーダの適合性について検討する。
教師なしのアドホック文と文書レベルのCLIR実験でそれらの性能をベンチマークする。
我々は、ゼロショット言語とドメイン転送CLIR実験のシリーズにおける英語関連データに基づいて、教師付き方式で微調整された多言語エンコーダの評価を行った。
論文 参考訳(メタデータ) (2021-12-21T08:10:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。