論文の概要: HydraQE: OSU's Submission for the IWSLT 2026 Speech Translation Metrics Shared Task
- arxiv url: http://arxiv.org/abs/2606.08748v1
- Date: Sun, 07 Jun 2026 17:38:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:06.429088
- Title: HydraQE: OSU's Submission for the IWSLT 2026 Speech Translation Metrics Shared Task
- Title(参考訳): HydraQE: OSU's Submission for the IWSLT 2026 Speech Translation Metrics Shared Task
- Authors: Kevin Krahn, Eric Fosler-Lussier,
- Abstract要約: HydraQEは、音声翻訳のためのエンドツーエンドで参照不要な品質評価システムである。
3つの独立した予測ヘッドは、補完的な監視信号に基づいて訓練される。
我々は、合成劣化例と銀の擬似ラベル機械翻訳出力の組み合わせを訓練する。
- 参考スコア(独自算出の注目度): 8.485281058504421
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present HydraQE, our contribution to the IWSLT 2026 Speech Translation Metrics shared task. HydraQE is an end-to-end, reference-free quality estimation (QE) system for speech translation built on a Qwen3-ASR backbone, which accepts source audio and a translation hypothesis as joint input. Hidden states from all backbone layers are combined via a learnable sparsemax scalar mix, then re-encoded by a lightweight bidirectional Transformer to enable full cross-modal interaction prior to pooling into a shared embedding. Three independent prediction heads are trained on complementary supervision signals: human direct assessment (DA) annotations, MetricX-24 pseudo-labels, and xCOMET pseudo-labels. To address the scarcity of human-annotated data, we train on a combination of synthetically corrupted examples and silver pseudo-labeled machine translation outputs, using a curriculum that begins on synthetic and silver data and gradually shifts toward human-annotated examples. HydraQE outperforms cascaded text-based baselines and prior direct speech QE systems, demonstrating that end-to-end speech translation QE is competitive with cascaded approaches.
- Abstract(参考訳): We present HydraQE, we contribute to the IWSLT 2026 Speech Translation Metrics shared task。
HydraQEは、Qwen3-ASRのバックボーン上に構築された音声翻訳のためのエンドツーエンドで参照不要な品質評価システムである。
すべてのバックボーン層からの隠蔽状態は、学習可能なスパースマックススカラーミックスを介して結合され、軽量な双方向トランスフォーマーによって再符号化され、共有埋め込みにプーリングする前に、完全なクロスモーダルインタラクションを可能にする。
3つの独立した予測ヘッドは、ヒューマンダイレクトアセスメント(DA)アノテーション、MetricX-24擬似ラベル、xCOMET擬似ラベルという補完的な監視信号に基づいて訓練されている。
人手による注釈データの不足に対処するため, 合成・銀データから始まり, 徐々に人手による注釈データへと移行するカリキュラムを用いて, 合成劣化例と銀偽ラベル機械翻訳出力の組み合わせを訓練する。
HydraQEは、ケースドテキストベースのベースラインと事前直接音声QEシステムより優れており、エンドツーエンド音声翻訳QEがケースドアプローチと競合することを示す。
関連論文リスト
- HATS: An Open data set Integrating Human Perception Applied to the Evaluation of Automatic Speech Recognition Metrics [11.326630899294004]
本稿では,ASRシステムによって生成される転写誤りの人間の知覚の観点から,フランス語で手動で注釈付きデータセットを提示する。
本研究では,ヒトの嗜好とASR評価指標との関係について検討した。
論文 参考訳(メタデータ) (2026-04-30T07:48:20Z) - Lexicon-Enriched Graph Modeling for Arabic Document Readability Prediction [0.2333246928962179]
アラビア語における文書レベルの可読性を予測するために,レキシコンに富んだグラフベースの手法を提案する。
我々のシステムは各文書を文レベルグラフとしてモデル化し、ノードは文と補題を表す。
文書レベルの予測には、最大プーリングを用いて文レベルの出力を集約し、最も難しい文を反映する。
論文 参考訳(メタデータ) (2025-09-26T19:29:32Z) - Alleviating Distribution Shift in Synthetic Data for Machine Translation Quality Estimation [55.73341401764367]
合成QEデータの分散シフトを緩和する新しいフレームワークであるDCSQEを紹介する。
DCSQEは、参照、すなわち翻訳監督信号を使用して、生成プロセスとアノテーションプロセスの両方をガイドする。
実験により、DCSQEは教師なし設定と教師なし設定の両方でSOTAベースラインを上回っていることが示された。
論文 参考訳(メタデータ) (2025-02-27T10:11:53Z) - Unify word-level and span-level tasks: NJUNLP's Participation for the
WMT2023 Quality Estimation Shared Task [59.46906545506715]
我々は、WMT 2023 Quality Estimation (QE)共有タスクにNJUNLPチームを紹介する。
私たちのチームは2つのサブタスクすべてで英語とドイツ語のペアの予測を提出しました。
我々のモデルは、単語レベルと細粒度エラースパン検出サブタスクの両方において、英語とドイツ語で最高の結果を得た。
論文 参考訳(メタデータ) (2023-09-23T01:52:14Z) - Ensemble Fine-tuned mBERT for Translation Quality Estimation [0.0]
本稿では,WMT 2021 QE共有タスクの提出について論じる。
提案システムは多言語BERT(mBERT)に基づく回帰モデルのアンサンブルである。
ピアソンの相関に匹敵する性能を示し、いくつかの言語対に対してMAE/RMSEのベースラインシステムを破る。
論文 参考訳(メタデータ) (2021-09-08T20:13:06Z) - Source and Target Bidirectional Knowledge Distillation for End-to-end
Speech Translation [88.78138830698173]
外部テキストベースNMTモデルからのシーケンスレベルの知識蒸留(SeqKD)に注目した。
E2E-STモデルを訓練し、パラフレーズ転写を1つのデコーダで補助タスクとして予測する。
論文 参考訳(メタデータ) (2021-04-13T19:00:51Z) - Syntactic representation learning for neural network based TTS with
syntactic parse tree traversal [49.05471750563229]
本稿では,構文解析木に基づく構文表現学習手法を提案し,構文構造情報を自動的に活用する。
実験の結果,提案手法の有効性が示された。
複数の構文解析木を持つ文では、合成音声から韻律的差異が明確に認識される。
論文 参考訳(メタデータ) (2020-12-13T05:52:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。