Fugu-MT 論文翻訳(概要): How Far Can Machine Translation Quality Take You? Extrinsic Discourse Evaluation in Goal-Oriented Setups

論文の概要: How Far Can Machine Translation Quality Take You? Extrinsic Discourse Evaluation in Goal-Oriented Setups

arxiv url: http://arxiv.org/abs/2606.16596v1
Date: Mon, 15 Jun 2026 11:44:02 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-16 16:21:34.491266
Title: How Far Can Machine Translation Quality Take You? Extrinsic Discourse Evaluation in Goal-Oriented Setups
Title（参考訳）: 機械翻訳の質はどこまでかかるか? ゴール指向のセットにおける外的談話の評価
Authors: Wafaa Mohammed, Kata Naszadi, Vlad Niculae,
Abstract要約: 本研究では,静的・インタラクティブな2つの条件下での機械翻訳の非本質的な言論評価に焦点を当てた。静的な状態下では、談話における参照整合性の探索としてエンティティカウントタスクを提案する。対話型体制においては,長期コミュニケーションと協調の探究として,目標指向の多エージェント福祉外交ゲームについて検討する。
参考スコア（独自算出の注目度）: 8.64753386599377
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Existing machine translation (MT) metrics and discourse-focused evaluations primarily assess translation quality intrinsically, without measuring the downstream consequences of translation errors. In this work, we focus on extrinsic discourse evaluation of machine translation under two distinct regimes: static and interactive. Under the static regime, we propose an entity counting task as a probe of referential consistency in discourse. We show that high intrinsic MT quality does not reliably predict downstream discourse success and strong MT systems still produce referential inconsistencies. For the interactive regime, we study the goal-oriented multi-agent Welfare Diplomacy game as a probe of long-horizon communication and coordination. We find that interaction-specific translation failures impact downstream coordination. Our results highlight goal-oriented environments as a viable framework for discourse-sensitive extrinsic MT evaluation.
Abstract（参考訳）: 既存の機械翻訳(MT)メトリクスと談話中心の評価は、主に翻訳エラーの下流結果を測定することなく、翻訳品質を本質的に評価する。本研究では,静的・インタラクティブな2つの条件下での機械翻訳の非本質的な言論評価に焦点を当てた。静的な状態下では、談話における参照整合性の探索としてエンティティカウントタスクを提案する。本研究は,高内在性MTの品質が下流の談話の成功を確実に予測できないことを示し,強いMTシステムは依然として参照不整合を生じさせることを示した。対話型体制においては,長期コミュニケーションと協調の探究として,目標指向型多エージェント福祉外交ゲームについて検討する。インタラクション固有の翻訳障害が下流のコーディネートに影響を及ぼすことがわかりました。本研究は,言論に敏感なMT評価のためのフレームワークとして,目標志向の環境を強調した。

関連論文リスト

Do LLMs Understand Your Translations? Evaluating Paragraph-level MT with Question Answering [68.3400058037817]
本稿では,TREQA(Translation Evaluation via Question-Answering)について紹介する。我々は,TREQAが最先端のニューラルネットワークとLLMベースのメトリクスより優れていることを示し,代用段落レベルの翻訳をランク付けする。
論文参考訳（メタデータ） (2025-04-10T09:24:54Z)
Discourse Centric Evaluation of Machine Translation with a Densely Annotated Parallel Corpus [82.07304301996562]
本稿では,江らが導入した大規模並列コーパスBWBに基づいて,リッチな談話アノテーションを用いた新しいデータセットを提案する。ソース言語とターゲット言語の談話構造と類似点と相違点について検討する。我々はMT出力が人間の翻訳と基本的に異なることを発見した。
論文参考訳（メタデータ） (2023-05-18T17:36:41Z)
Extrinsic Evaluation of Machine Translation Metrics [78.75776477562087]
文レベルでの翻訳と翻訳の良さを区別する上で,自動尺度が信頼性が高いかどうかは不明である。我々は,3つの下流言語タスクにおいて,最も広く使用されているMTメトリクス(chrF,COMET,BERTScoreなど)のセグメントレベル性能を評価する。実験の結果,各指標は下流結果の外部評価と負の相関を示すことがわかった。
論文参考訳（メタデータ） (2022-12-20T14:39:58Z)
Sentiment-Aware Measure (SAM) for Evaluating Sentiment Transfer by Machine Translation Systems [0.0]
感情が主メッセージであるテキストの翻訳において、人間の翻訳者は感情を伝達する単語に特に注意を向ける。 MTシステムによるテキスト中の感情メッセージの翻訳精度を評価するのに適した数値的感情閉鎖性尺度を提案する。
論文参考訳（メタデータ） (2021-09-30T07:35:56Z)
When Does Translation Require Context? A Data-driven, Multilingual Exploration [71.43817945875433]
談話の適切な処理は機械翻訳(MT)の品質に大きく貢献する文脈認識型MTにおける最近の研究は、評価中に少量の談話現象を標的にしようとしている。談話現象のモデル性能を識別・評価するタグの集合である,多言語談話認識ベンチマークを開発した。
論文参考訳（メタデータ） (2021-09-15T17:29:30Z)
On the Limitations of Cross-lingual Encoders as Exposed by Reference-Free Machine Translation Evaluation [55.02832094101173]
クロスランガルエンコーダの評価は通常、教師付き下流タスクにおけるゼロショットのクロスランガル転送または教師なしのクロスランガル類似性によって行われる。本稿では、ソーステキストと(低品質な)システム翻訳を直接比較するMT(Reference-free Machine Translation)の評価について述べる。事前学習したM-BERTとLASERで得られた最先端の言語間セマンティック表現に基づいて,様々なメトリクスを体系的に検討する。参照なしMT評価において,セマンティックエンコーダとしての性能は低く,その2つの重要な限界を同定する。
論文参考訳（メタデータ） (2020-05-03T22:10:23Z)
Can Your Context-Aware MT System Pass the DiP Benchmark Tests? : Evaluation Benchmarks for Discourse Phenomena in Machine Translation [7.993547048820065]
本稿では,4つの主要な談話現象の追跡と改善を目的としたMTベンチマークデータセットについて紹介する。驚くべきことに、既存の文脈認識モデルでは、言語や現象間の会話関連翻訳が一貫して改善されない。
論文参考訳（メタデータ） (2020-04-30T07:15:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。