Fugu-MT 論文翻訳(概要): LLM-Based Multi-Reference Evaluation for Efficient and Robust Assessment of Phrase Break Annotations

論文の概要: LLM-Based Multi-Reference Evaluation for Efficient and Robust Assessment of Phrase Break Annotations

arxiv url: http://arxiv.org/abs/2606.21098v1
Date: Fri, 19 Jun 2026 04:56:35 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-26 08:19:42.320673
Title: LLM-Based Multi-Reference Evaluation for Efficient and Robust Assessment of Phrase Break Annotations
Title（参考訳）: フレーズブレークアノテーションの効率的かつロバストな評価のためのLLMに基づくマルチ参照評価
Authors: Younghan Park, Hoyeon Lee, Hawon Jeong, Jong-Hwan Kim,
Abstract要約: フレーズブレークアノテーションのためのマルチ参照評価(LMRE)を提案する。 5つの戦略をカバーする1,356のアノテーションからなる韓国のテストベッドでは、LMREは単一参照評価よりも人的判断との整合性を強く示している。
参考スコア（独自算出の注目度）: 4.002101794902377
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Reliable evaluation of phrase break annotations is crucial, as subtle variations in prosodic boundaries directly affect the clarity and naturalness of speech. However, existing approaches exhibit major limitations: single-reference evaluation assumes a unique gold phrasing for an utterance despite multiple valid phrasings, while human judgment, though flexible, is labor-intensive and unscalable. To address these, we propose LLM-based Multi-Reference Evaluation (LMRE) for phrase break annotations that models the one-to-many nature of prosodic phrasing and generates multiple valid phrasings from minimal demonstrations. On a Korean testbed of 1,356 annotations covering five strategies, LMRE shows stronger alignment with human judgment than single-reference evaluation in both acceptance behavior and score correlation. Our findings demonstrate that LMRE effectively achieves both scalability and multi-reference support, highlighting the potential of LLMs for evaluation in the speech domain.
Abstract（参考訳）: 韻律境界の微妙な変化が、音声の明瞭さと自然性に直接影響するため、フレーズブレークアノテーションの信頼性評価が重要である。しかし、既存のアプローチには大きな制限がある: 単一参照評価は、複数の有効な言い回しにもかかわらず、発話に固有の金のフレーズを仮定するが、人間の判断は柔軟だが、労働集約的で計算不可能である。これらの問題に対処するために, 韻律表現の1対多の性質をモデル化し, 最小限の実演から複数の有効なフレーズを生成する, LLM-based Multi-Reference Evaluation (LMRE) を提案する。 5つの戦略をカバーする1,356のアノテーションの朝鮮語テストベッドでは、LMREは受容行動とスコア相関の双方において、単参照評価よりも人間の判断との整合性を示す。その結果,LMREはスケーラビリティとマルチ参照サポートの両方を効果的に実現し,音声認識領域におけるLLMの有効性を強調した。

関連論文リスト

Evaluating LLM Personalization via Semantic Constraint Verification [25.539904066738288]
自然言語推論制約検証(NLICV)を導入する。 NLICVは文の意味を真理条件集合にマッピングし、自然言語推論(NLI)モデルを介してパーソナライズ制約を検証する。実験によると、NLICVは人間のアノテーションと密接に一致し、LLMの審査員によるレイテンシとトークンコストを大幅に削減している。
論文参考訳（メタデータ） (2026-06-15T08:04:56Z)
Is my model perplexed for the right reason? Contrasting LLMs' Benchmark Behavior with Token-Level Perplexity [6.285055089721361]
モデルが言語学的に関係のある手がかりに依存しているかどうかをテストするために,トークンレベルの難易度に基づく基本的解釈可能性フレームワークを導入する。本手法は,不安定な特徴帰属技術に頼ることなく,正確な仮説駆動解析を可能にする。
論文参考訳（メタデータ） (2026-03-31T08:00:55Z)
CogBench: A Large Language Model Benchmark for Multilingual Speech-Based Cognitive Impairment Assessment [23.1730341293796]
音声に基づく認知障害評価のための大規模言語モデルの言語間およびサイト間一般化性を評価するための最初のベンチマークであるCagBenchを提案する。以上の結果から,従来のディープラーニングモデルはドメイン間で変換されると大幅に劣化することがわかった。本研究は,臨床的に有用で言語学的に堅牢な音声に基づく認知評価ツールを構築するための重要なステップを提供する。
論文参考訳（メタデータ） (2025-08-05T12:06:16Z)
Estimating Commonsense Plausibility through Semantic Shifts [66.06254418551737]
セマンティックシフトを測定することでコモンセンスの妥当性を定量化する新しい識別フレームワークであるComPaSSを提案する。 2種類の細粒度コモンセンス可視性評価タスクの評価は,ComPaSSが一貫してベースラインを上回っていることを示している。
論文参考訳（メタデータ） (2025-02-19T06:31:06Z)
Is LLM an Overconfident Judge? Unveiling the Capabilities of LLMs in Detecting Offensive Language with Annotation Disagreement [22.992484902761994]
本研究では,攻撃言語検出における多言語モデル(LLM)の性能を系統的に評価する。本研究では,二項分類の精度を分析し,モデル信頼度と人的不一致度の関係を検証し,不一致サンプルがモデル決定にどう影響するかを考察する。
論文参考訳（メタデータ） (2025-02-10T07:14:26Z)
DnA-Eval: Enhancing Large Language Model Evaluation through Decomposition and Aggregation [75.81096662788254]
大規模言語モデル(LLM)はスケーラブルで経済的な評価指標である。これらの評価者がどの程度信頼できるかという問題は、重要な研究課題として浮上している。本稿では,デコンプリートとアグリゲートを提案し,その評価プロセスを教育実践に基づいて異なる段階に分解する。
論文参考訳（メタデータ） (2024-05-24T08:12:30Z)
Large Language Models are Inconsistent and Biased Evaluators [2.136983452580014]
我々は,Large Language Models (LLMs) が親しみの偏りを示し,評価の歪んだ分布を示すため,評価値の偏りを示すことを示した。また, LLM は不整合性評価器であり, テキスト品質の人間の理解に欠かせない相違を誘発する「サンプル間合意」が低く, 感度が高いことがわかった。
論文参考訳（メタデータ） (2024-05-02T20:42:28Z)
FENICE: Factuality Evaluation of summarization based on Natural language Inference and Claim Extraction [85.26780391682894]
自然言語推論とクレーム抽出(FENICE)に基づく要約のファクチュアリティ評価を提案する。 FENICEは、ソース文書内の情報と、要約から抽出されたクレームと呼ばれる一連の原子的事実との間のNLIベースのアライメントを利用する。我々の測定基準は、事実性評価のためのデファクトベンチマークであるAGGREFACTに関する新しい技術状況を設定する。
論文参考訳（メタデータ） (2024-03-04T17:57:18Z)
Benchmarking Large Language Models for News Summarization [79.37850439866938]
大規模言語モデル(LLM)は自動要約を約束しているが、その成功の背景にある理由はよく分かっていない。 LLMのゼロショット要約能力の鍵は、モデルサイズではなく、命令チューニングにある。
論文参考訳（メタデータ） (2023-01-31T18:46:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。