論文の概要: Rewrite to Translate, Translate to Reward: Reinforcement Learning for Source Rewriting in Machine Translation
- arxiv url: http://arxiv.org/abs/2606.08011v2
- Date: Wed, 10 Jun 2026 14:48:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-11 14:23:44.346081
- Title: Rewrite to Translate, Translate to Reward: Reinforcement Learning for Source Rewriting in Machine Translation
- Title(参考訳): Rewrite to Translate, Translate to Reward: Reinforcement Learning for Source Rewriting in Machine Translation
- Authors: Boxuan Lyu, Haiyue Song, Zhi Qu, Hidetaka Kamigaito, Kotaro Funakoshi, Manabu Okumura,
- Abstract要約: 翻訳の前に大きな言語モデルでソースコードを書き換えることにより、機械翻訳の品質が向上することが示されている。
RLSR(Reinforcement Learning for Source Rewriting)は,各書き直しによって生成された下流翻訳品質の改善に基づいて,書き直しモデルに報酬を付与する強化学習フレームワークである。
- 参考スコア(独自算出の注目度): 43.662995515707735
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Rewriting source text with large language models (LLMs) before translation has been shown to improve machine translation (MT) quality. However, we find that prompt-based rewriting can degrade translation quality rather than improve it, particularly when smaller LLMs, such as 4B-parameter models, are used. We argue that this limitation stems from the difficulty of controlling rewriting behavior through natural-language prompts alone: a rewrite is useful only if it improves downstream translation, yet existing prompt-based methods do not explicitly optimize for this signal. To address this issue, we propose RLSR (Reinforcement Learning for Source Rewriting), a reinforcement learning framework that trains the rewriting model with a reward based on the downstream translation-quality improvement produced by each rewrite. Experiments across six MT systems and 16 language pairs show that our 4B RLSR-trained rewriting models significantly outperform both the no-rewriting baseline and prompt-based rewriting baselines at the same model scale, while remaining competitive with baselines that use a 235B LLM.
- Abstract(参考訳): 翻訳の前に大きな言語モデル(LLM)でソースコードを書き換えることにより、機械翻訳(MT)の品質が向上することが示されている。
しかし、特に4Bパラメータモデルのような小さいLCMを使用する場合、高速な書き直しは翻訳品質を劣化させる可能性がある。
書き直しは、下流の翻訳を改善する場合にのみ有用であるが、既存のプロンプトベースの手法は、この信号に対して明示的に最適化していない。
この問題に対処するため,各書き直しによって生成された下流翻訳品質の改善に基づいて,書き直しモデルに報酬を与える強化学習フレームワークであるRLSR(Reinforcement Learning for Source Rewriting)を提案する。
6つのMTシステムと16の言語ペアによる実験により、我々の4B RLSRで訓練された書き換えモデルは、235B LLMを使用するベースラインと競合しながら、ノーリライトベースラインとプロンプトベースベースラインの両方を同じモデルスケールで大幅に上回った。
関連論文リスト
- Aligning Neural Machine Translation Models: Human Feedback in Training and Inference [27.84975767573212]
RLHF(Reinforcement Learning from Human feedback)は、言語モデルによって生成されたテキストの品質を向上させる技術である。
人間のアノテーションからトレーニングされたメトリクスを報酬モデルとして容易に利用できる機械翻訳(MT)では、最小ベイズリスクデコーディングと再ランクを用いた手法が最終品質の向上に成功している。
論文 参考訳(メタデータ) (2023-11-15T17:21:58Z) - Reinforced Self-Training (ReST) for Language Modeling [56.75447441157628]
人間からのフィードバック(RLHF)からの強化学習は、人間の好みに合わせることで、大きな言語モデル(LLM)の出力の品質を向上させることができる。
強化自己学習(Reinforced Self-Training, ReST)と呼ばれる, バッチ強化学習(RL)の成長にインスパイアされたLLMを人間の好みに合わせるための簡単なアルゴリズムを提案する。
この結果から,ReSTは自動測定値と機械翻訳ベンチマークの人的評価によって,計算とサンプル効率で翻訳品質を大幅に向上させることができることがわかった。
論文 参考訳(メタデータ) (2023-08-17T14:12:48Z) - Improving Non-autoregressive Translation Quality with Pretrained Language Model, Embedding Distillation and Upsampling Strategy for CTC [51.34222224728979]
本稿では,非自己回帰翻訳(NAT)モデルの翻訳品質を向上させるための一連の革新的な技術を紹介する。
我々は,NATモデルを効果的に訓練するために,CTCの損失を抑えたPMLM(Pretrained Multilingual Language Models)を提案する。
自動回帰モデルと比較して16.35倍の速度向上を示した。
論文 参考訳(メタデータ) (2023-06-10T05:24:29Z) - The USYD-JD Speech Translation System for IWSLT 2021 [85.64797317290349]
本稿では,シドニー大学とJDが共同でIWSLT 2021低リソース音声翻訳タスクを提出したことを述べる。
私たちは、公式に提供されたASRとMTデータセットでモデルをトレーニングしました。
翻訳性能の向上を目的として, バック翻訳, 知識蒸留, 多機能再構成, トランスダクティブファインタニングなど, 最新の効果的な手法について検討した。
論文 参考訳(メタデータ) (2021-07-24T09:53:34Z) - Enhanced back-translation for low resource neural machine translation
using self-training [0.0]
本研究は,後進モデルの出力を用いて前方翻訳手法を用いてモデル自体を改善する自己学習戦略を提案する。
この技術は、ベースラインの低リソースであるIWSLT'14とIWSLT'15をそれぞれ11.06と1.5BLEUに改良することを示した。
改良された英語-ドイツ語の後方モデルによって生成された合成データを用いて前方モデルを訓練し、2.7BLEUで標準の後方翻訳を用いて訓練された別の前方モデルより優れていた。
論文 参考訳(メタデータ) (2020-06-04T14:19:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。