論文の概要: Translate-R1: Cost-Aware Translation Tool Use via Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2606.06835v1
- Date: Fri, 05 Jun 2026 02:21:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-08 14:33:29.522309
- Title: Translate-R1: Cost-Aware Translation Tool Use via Reinforcement Learning
- Title(参考訳): Translate-R1:強化学習によるコスト認識翻訳ツール
- Authors: Pratik Jayarao, Chaitanya Dwivedi, Himanshu Gupta, Neeraj Varshney, Adithya M Devraj, Meet Vadera, Priyanka Nigam, Bing Yin,
- Abstract要約: 我々は、報酬のみから翻訳する時期を決定する政策を学習し、言語とドメイン適応のイントロスペクションを開発する。
私たちは、トレーニング、言語、ドメインごとのツールの使用方法を分析します。
- 参考スコア(独自算出の注目度): 25.323183334678195
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The performance gap across languages in LLMs is well documented, and closing it natively requires pretraining or fine-tuning on corpora that, for most languages, do not exist. Translation offers an alternative: converting an input into the model's dominant language unlocks its full capabilities at once. Applying translation to every input, however, is wasteful for languages the model already handles, while leaving the choice to the model fails in the opposite way, as LLMs are overconfident and skip the tool even when they cannot understand the input. Prior work resolves this with language-specific rules, domain heuristics, language identifiers, or external routers, each requiring manual engineering. We instead learn a single policy that decides when to translate from reward alone, developing language- and domain-adaptive introspection that assesses its own comprehension and invokes translation only when it cannot solve a task natively. Using data built by our answer-preserving translation pipeline, we continue RL on the post-trained Qwen3-4B across 22 languages in 3 resource tiers (High, Low, XLow) and 5 domains, and introduce confidence-gated GSPO for cost-sensitive tool use. The gated policy lifts reward over the baseline by +4.6 on High, +23.5 on Low, and +17.5 on XLow. Against an unconstrained policy that almost always translates, it preserves full reward at 63% of the cost and is Pareto-optimal across 87% of the cost-sensitivity range. Additionally, to simulate behavior on a completely unseen language, we create 2 synthetic languages, where our gated policy improves +18.7 over the overconfident baseline that underutilizes the tool even on these incomprehensible inputs. The policy transfers zero-shot to 9 held-out languages, and we analyze how tool use emerges over training, per language and per domain.
- Abstract(参考訳): LLMにおける言語間のパフォーマンスギャップは十分に文書化されており、それをネイティブに閉じるには、ほとんどの言語では存在しないコーパスの事前訓練や微調整が必要である。
入力をモデルの支配的な言語に変換することは、その完全な能力を一度に解放する。
しかし、全ての入力に翻訳を適用することは、モデルがすでに処理している言語には不都合であると同時に、LCMが過度に信頼され、入力が理解できない場合でもツールをスキップしているため、モデルへの選択は反対の方法で失敗する。
以前の作業では、これらを言語固有のルール、ドメインヒューリスティック、言語識別子、あるいは外部ルータで解決する。
代わりに、報酬のみから翻訳する時期を決定する単一のポリシーを学習し、言語とドメイン適応のイントロスペクションを開発し、自身の理解を評価し、タスクをネイティブに解決できない場合にのみ翻訳を実行する。
回答保存翻訳パイプラインによって構築されたデータを用いて、22の言語(High, Low, XLow)と5のドメインの3つのリソース層(High, Low, XLow)にまたがって、トレーニング後のQwen3-4BでRLを継続し、コストに敏感なツール使用のために、自信に満ちたGSPOを導入します。
ゲートポリシーはベースライン上の報酬を、Highでは+4.6、Lowでは+23.5、XLowでは+17.5に引き上げる。
ほぼ常に翻訳される制約のない政策に対して、コストの63%で完全な報酬を保ち、コスト感受性の範囲の87%でパレート最適である。
さらに、完全に見えない言語上での振る舞いをシミュレートするために、2つの合成言語を作成します。
このポリシーはゼロショットを9つの保留言語に転送し、トレーニングや言語ごと、ドメインごとのツールの使用方法を分析する。
関連論文リスト
- Syntax Without Semantics: Teaching Large Language Models to Code in an Unseen Language [9.529147118376464]
Pythonはすべての構成でPyLangを最大19%上回っている。
モデルは言語に依存しない理解を持っているが、馴染みのない言語では表現できない。
論文 参考訳(メタデータ) (2026-05-15T04:37:31Z) - LinguaMap: Which Layers of LLMs Speak Your Language and How to Tune Them? [3.809788214307542]
多言語転送ボトルネックと言語一貫性ボトルネックという,2つの重要な障害モードを特定し,特徴付ける。
我々はロジットレンズ解析を拡張し、言語確率層を層単位で追跡し、隠れ状態の言語間セマンティックな類似性を計算する。
これは、効率的な多言語適応のために言語制御の層局所化を利用する最初のアプローチである。
論文 参考訳(メタデータ) (2026-01-27T19:38:12Z) - LLM-Driven Multi-step Translation from C to Rust using Static Analysis [27.122409727034192]
レガシー言語で書かれたソフトウェアをCからRustなどのモダン言語に翻訳することは、メモリ安全性を改善する上で大きなメリットがある。
LLM駆動型C-to-Rustゼロショット変換ツールであるSACTORを2段階の翻訳手法を用いて提案する。
SACTORは、既存の方法と比較して、より自然でRustに準拠した翻訳を生成する。
論文 参考訳(メタデータ) (2025-03-16T14:05:26Z) - Breaking the Script Barrier in Multilingual Pre-Trained Language Models with Transliteration-Based Post-Training Alignment [50.27950279695363]
転送性能は、低リソースのターゲット言語が高リソースのソース言語とは異なるスクリプトで書かれている場合、しばしば妨げられる。
本論文は,この問題に対処するために翻訳を用いた最近の研究に触発されて,翻訳に基づくポストプレトレーニングアライメント(PPA)手法を提案する。
論文 参考訳(メタデータ) (2024-06-28T08:59:24Z) - ZGUL: Zero-shot Generalization to Unseen Languages using Multi-source
Ensembling of Language Adapters [29.211715245603234]
我々は、言語アダプタ(LA)を用いて、NLPタスクにおけるゼロショット言語間移動の問題に取り組む。
トレーニング対象のLAはラベルのないデータを必要とするが、リソースの低い言語では簡単には利用できない。
ZGULを(1)ラベルのないデータか(2)ターゲット言語で使用可能な数ショットのトレーニング例のどちらかに拡張します。
論文 参考訳(メタデータ) (2023-10-25T06:22:29Z) - Self-Augmentation Improves Zero-Shot Cross-Lingual Transfer [92.80671770992572]
言語間移動は多言語NLPにおける中心的なタスクである。
このタスクの以前の作業では、並列コーパス、バイリンガル辞書、その他の注釈付きアライメントデータを使用していた。
ゼロショットの言語間移動を改善するため, 単純で効果的なSALT法を提案する。
論文 参考訳(メタデータ) (2023-09-19T19:30:56Z) - Translate to Disambiguate: Zero-shot Multilingual Word Sense
Disambiguation with Pretrained Language Models [67.19567060894563]
事前訓練された言語モデル(PLM)は、豊富な言語間知識を学習し、多様なタスクでうまく機能するように微調整することができる。
C-WLT(Contextual Word-Level Translation)を用いた言語間単語感覚の捉え方の検討を行った。
モデルのサイズが大きくなるにつれて、PLMはより言語間単語認識の知識をエンコードし、WLT性能を改善するためのコンテキストを良くする。
論文 参考訳(メタデータ) (2023-04-26T19:55:52Z) - Reusing a Pretrained Language Model on Languages with Limited Corpora
for Unsupervised NMT [129.99918589405675]
本稿では,オープンソース言語上でのみ事前訓練されたLMを再利用する効果的な手法を提案する。
モノリンガルLMは両言語で微調整され、UNMTモデルの初期化に使用される。
我々のアプローチであるRE-LMは、英語・マケドニア語(En-Mk)と英語・アルバニア語(En-Sq)の競合言語間事前学習モデル(XLM)より優れています。
論文 参考訳(メタデータ) (2020-09-16T11:37:10Z) - Inducing Language-Agnostic Multilingual Representations [61.97381112847459]
言語間の表現は、世界中のほとんどの言語でNLP技術が利用可能になる可能性がある。
i) 対象言語のベクトル空間をピボットソース言語に再配置すること、(ii) 言語固有の手段と分散を取り除くこと、(ii) 副産物としての埋め込みの識別性を向上すること、(iii) 形態的制約や文の並べ替えを除去することによって言語間の入力類似性を高めること、の3つのアプローチを検討する。
論文 参考訳(メタデータ) (2020-08-20T17:58:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。