論文の概要: MLLP-VRAIN UPV system for the IWSLT 2026 Simultaneous Speech Translation task
- arxiv url: http://arxiv.org/abs/2606.17255v1
- Date: Mon, 15 Jun 2026 19:57:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-17 17:15:32.12694
- Title: MLLP-VRAIN UPV system for the IWSLT 2026 Simultaneous Speech Translation task
- Title(参考訳): IWSLT 2026同時音声翻訳タスクのためのMLLP-VRAIN UPVシステム
- Authors: Jorge Iranzo-Sánchez, Gerard Mas-Mollà, Adrià Giménez, Jorge Civera, Albert Sanchis, Alfons Juan,
- Abstract要約: 本研究は,IWSLT 2026 同時音声翻訳トラックの共有作業におけるMLLP-VRAIN研究グループの参加について述べる。
我々の提案では、最近リリースされたParakeetとQwen 3.5モデルを利用して、長期型SimulSTのための堅牢でケースドされたソリューションを作成します。
MCIF En$rightarrow$De テストセットの結果は、+5.82 XCOMET-XL の大幅な品質改善を示している。
- 参考スコア(独自算出の注目度): 4.016543889636714
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This work describes the participation of the MLLP-VRAIN research group in the shared task of the IWSLT 2026 Simultaneous Speech Translation track. Our submission utilizes the recently released Parakeet and Qwen 3.5 models to create a robust, cascaded solution for long-form SimulST through the use of adaptive "black-box" policies. We explore relaxations of these policies to achieve better quality-latency trade-offs. Compared to last year, we participate on all language directions. In addition to this, for the En$\rightarrow${De, It, Zh} directions we also participate in this year's new context track employing a combination of ASR word-boosting and a RAG mechanism of offline pre-translated exemplars to guide generation and enrich our system with domain-specific context. Finally, we provide a detailed latency analysis of our system. Compared to last year, results on the MCIF En$\rightarrow$De test set shows a substantial quality improvement of +5.82 XCOMET-XL. Our context track processing further improves performance by +1.03.
- Abstract(参考訳): 本研究は,IWSLT 2026 同時音声翻訳トラックの共有作業におけるMLLP-VRAIN研究グループの参加について述べる。
我々の提案では、最近リリースされたParakeetとQwen 3.5モデルを利用して、適応的な"ブラックボックス"ポリシーを用いることで、長期型SimulSTのための堅牢でカスケードされたソリューションを作成します。
より優れた品質とレイテンシのトレードオフを達成するために、これらのポリシーの緩和を検討します。
昨年と比較して、私たちはすべての言語の方向性に参加します。
これに加えて、En$\rightarrow${De, It, Zh} の方向性については、ASRワードブーイングとオフラインで変換された例題のRAGメカニズムを組み合わせて、ドメイン固有のコンテキストでシステムを構築し、強化する、今年の新しいコンテキストトラックにも参加しています。
最後に,システムの詳細なレイテンシ解析を行う。
昨年と比較して、MCIF En$\rightarrow$Deテストセットの結果は、+5.82 XCOMET-XLの大幅な品質改善を示している。
我々のコンテキストトラック処理は、+1.03の性能をさらに向上させる。
関連論文リスト
- "Don't Teach Minerva": Guiding LLMs Through Complex Syntax for Faithful Latin Translation with RAG [0.5076419064097734]
本稿では,オープンソースのLarge Language Modelsを上位レベルのプロプライエタリシステムに統計的に匹敵する性能レベルに引き上げる,再現可能なドラフトベース改良パイプラインを提案する。
標準的なドメイン内テストセット(Rosenthal, 2023)と12世紀のラテン文字(2025)からなる新しいドメイン外テストセット(OOD)である。
論文 参考訳(メタデータ) (2025-11-03T11:11:27Z) - MLLP-VRAIN UPV system for the IWSLT 2025 Simultaneous Speech Translation Translation task [7.247809853198223]
本研究は,IWSLT 2025 同時音声翻訳トラックの共有作業におけるMLLP-VRAIN研究グループの参加について述べる。
本論文は, 長期音声のリアルタイム翻訳における特異な課題を, モジュラーカスケードシステムの構築によって解決するものである。
論文 参考訳(メタデータ) (2025-06-23T16:44:01Z) - Simultaneous Translation with Offline Speech and LLM Models in CUNI Submission to IWSLT 2025 [0.0]
本稿では,チャールズ大学におけるIWSLT 2025の同時音声翻訳課題について述べる。
直接またはカスケードアプローチで、4つの言語ペアをすべてカバーしています。
私たちのシステムのバックボーンはオフラインのWhisper音声モデルで、最先端のAlignAttと同時処理モードで翻訳と転写の両方に使用しています。
論文 参考訳(メタデータ) (2025-06-20T15:27:44Z) - KIT's Offline Speech Translation and Instruction Following Submission for IWSLT 2025 [56.61209412965054]
本稿では、カールスルーエ工科大学のオフラインSTとインストラクションフォロー(IF)トラックへの提出について紹介する。
文書レベルの文脈を持つLLMを用いて出力を融合した複数の自動音声認識システムを用いたパイプラインを提案する。
IFトラックでは,音声エンコーダとLLMを統合し,幅広い命令追従タスクを実行するエンド・ツー・エンド・モデルを開発した。
論文 参考訳(メタデータ) (2025-05-19T12:21:29Z) - Blending LLMs into Cascaded Speech Translation: KIT's Offline Speech Translation System for IWSLT 2024 [61.189875635090225]
大規模言語モデル (LLM) は現在,自動音声認識 (ASR) や機械翻訳 (MT) ,さらにはエンドツーエンド音声翻訳 (ST) など,さまざまなタスクを探索中である。
論文 参考訳(メタデータ) (2024-06-24T16:38:17Z) - Tencent AI Lab - Shanghai Jiao Tong University Low-Resource Translation
System for the WMT22 Translation Task [49.916963624249355]
本稿では, Tencent AI Lab - Shanghai Jiao Tong University (TAL-SJTU) Low-Resource Translation system for the WMT22 shared taskについて述べる。
我々は、英語$Leftrightarrow$Livonianの一般的な翻訳作業に参加する。
本システムは,M2M100を対象言語に適応させる新しい手法を用いて構築した。
論文 参考訳(メタデータ) (2022-10-17T04:34:09Z) - The YiTrans End-to-End Speech Translation System for IWSLT 2022 Offline
Shared Task [92.5087402621697]
本稿では,IWSLT 2022オフラインタスクに対するエンドツーエンドYiTrans音声翻訳システムの提案について述べる。
YiTransシステムは、大規模な訓練済みエンコーダデコーダモデル上に構築されている。
最終提出は自動評価基準でまず英語・ドイツ語・英語・中国語のエンド・ツー・エンド・システムにランク付けする。
論文 参考訳(メタデータ) (2022-06-12T16:13:01Z) - The USYD-JD Speech Translation System for IWSLT 2021 [85.64797317290349]
本稿では,シドニー大学とJDが共同でIWSLT 2021低リソース音声翻訳タスクを提出したことを述べる。
私たちは、公式に提供されたASRとMTデータセットでモデルをトレーニングしました。
翻訳性能の向上を目的として, バック翻訳, 知識蒸留, 多機能再構成, トランスダクティブファインタニングなど, 最新の効果的な手法について検討した。
論文 参考訳(メタデータ) (2021-07-24T09:53:34Z) - The Volctrans Neural Speech Translation System for IWSLT 2021 [26.058205594318405]
本稿では,Volctrans チームが IWSLT 2021 に提出したシステムについて述べる。
オフライン音声翻訳では,ベンチマークよりも8.1 BLEUの改善を実現している。
テキスト間同時翻訳では,wait-kモデルを最適化する最善の方法を検討する。
論文 参考訳(メタデータ) (2021-05-16T00:11:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。