論文の概要: AdaMame: A Training Recipe for Adaptive Multilingual Reasoning
- arxiv url: http://arxiv.org/abs/2606.15080v1
- Date: Sat, 13 Jun 2026 03:22:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-16 16:21:32.770942
- Title: AdaMame: A Training Recipe for Adaptive Multilingual Reasoning
- Title(参考訳): AdaMame: 適応型多言語推論のためのトレーニングレシピ
- Authors: Dayeon Ki, Kevin Duh, Marine Carpuat,
- Abstract要約: 大規模推論モデル(LRM)は、クエリの言語ではしばしば推論に失敗する。
AdaMameは多言語数学的推論のための2段階のトレーニングレシピである。
- 参考スコア(独自算出の注目度): 32.31269959716733
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While Large Reasoning Models (LRMs) show strong performance in English, they often fail to reason in the language of the query, a phenomenon known as language collapse. Existing RL-based fixes typically add a binary language fidelity reward to the accuracy objective, yet still incur trade-off in accuracy, mid-trace code-switching, and excessive token usage. In this work, we propose AdaMame, a two-stage training recipe for multilingual mathematical reasoning that addresses these limitations by adaptively aligning the reasoning language to the query language without compromising accuracy. The first SFT stage fine-tunes on naturally occurring reasoning traces across five languages to establish multilingual reasoning capability. In the subsequent RL stage, we introduce AdaMame-GRPO, an adaptation of Group Relative Policy Optimization (GRPO) in which a query-conditioned alignment factor grows progressively during training, guiding the model to first explore diverse reasoning languages before exploiting reasoning in the query language. Evaluated across two benchmarks, two LRMs, and 12 languages, AdaMame-GRPO achieves Pareto-optimal performance across reasoning accuracy, language fidelity, and token efficiency over all baselines, with the strongest gains on out-of-domain, lower-resource languages.
- Abstract(参考訳): LRM(Large Reasoning Models)は、英語では高い性能を示すが、クエリの言語ではしばしば推論に失敗する。
既存のRLベースの修正は、通常、精度の目標にバイナリ言語の忠実さの報酬を与えるが、それでも正確性、中途半端なコードスイッチング、過剰なトークンの使用でトレードオフをもたらす。
本研究では,これらの制約に対処する多言語数学的推論のための2段階学習手法であるAdaMameを提案する。
自然発生推論に関する最初のSFTステージは、多言語推論能力を確立するために5言語にわたってトレースされる。
続くRL段階において、AdaMame-GRPOは、クエリ条件付きアライメント係数が訓練中に徐々に増大するグループ相対ポリシー最適化(GRPO)の適応である。
2つのベンチマーク、2つのLRM、12の言語で評価され、AdaMame-GRPOは推論精度、言語忠実度、全てのベースライン上でのトークン効率でパレート最適性能を達成し、ドメイン外、低リソース言語で最大の利益を上げている。
関連論文リスト
- Align to the Pivot: Dual Alignment with Self-Feedback for Multilingual Math Reasoning [71.4175109189942]
Pivot-Aligned Self-Feedback Multilingual Reasoning (PASMR)を提案する。
このアプローチは、モデルの第一言語をピボット言語として指定する。
外部の正しい回答や報酬モデルに頼ることなく、言語横断的な自己フィードバック機構を確立する。
論文 参考訳(メタデータ) (2026-01-25T03:20:00Z) - Think Natively: Unlocking Multilingual Reasoning with Consistency-Enhanced Reinforcement Learning [85.7304930030649]
本稿では,言語一貫性報酬と言語間思考アライメント報酬によって訓練されたM-Thinkerを提案する。
M-Thinkerは2つのマルチ言語ベンチマークで100%近い言語一貫性と優れたパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-10-08T17:55:02Z) - Cross-lingual Collapse: How Language-Centric Foundation Models Shape Reasoning in Large Language Models [44.94287386776289]
textbfCross-lingual Collapseは、多言語言語モデルが支配的な事前学習言語に回帰する体系的なドリフトである。
実験の結果, (i)GRPOは事前学習言語の不均衡を急速に増幅し, わずか数百回の更新で低リソース言語が侵食され, (ii) 言語整合性報酬はこのドリフトを緩和するが, ほぼ5~10ppの精度の低下を犠牲にしていることがわかった。
論文 参考訳(メタデータ) (2025-06-06T08:08:48Z) - Language Matters: How Do Multilingual Input and Reasoning Paths Affect Large Reasoning Models? [59.970391602080205]
多言語トレーニングにも拘わらず、LRMはテスト時に高リソース言語での推論をデフォルトとする傾向にある。
文化的推論は、推論タスクのパフォーマンスを低下させるが、文化的なタスクに恩恵を与える一方、安全性評価は言語固有の振る舞いを示す。
論文 参考訳(メタデータ) (2025-05-23T02:46:18Z) - AdaMCoT: Rethinking Cross-Lingual Factual Reasoning through Adaptive Multilingual Chain-of-Thought [40.16140566668239]
AdaMCOTは多言語の事実推論を強化するフレームワークである。
AdaMCOTは、ターゲット言語応答を生成する前に、中間言語における思考プロセスを動的にルーティングする。
本評価は, 事実推論品質と言語間整合性の両方において, 大幅な改善を示すものである。
論文 参考訳(メタデータ) (2025-01-27T15:48:57Z) - The Power of Question Translation Training in Multilingual Reasoning: Broadened Scope and Deepened Insights [108.40766216456413]
大規模言語モデルの英語と非英語のパフォーマンスのギャップを埋めるための質問アライメントフレームワークを提案する。
実験結果から、さまざまな推論シナリオ、モデルファミリー、サイズにわたって、多言語のパフォーマンスを向上できることが示された。
我々は、表現空間、生成された応答とデータスケールを分析し、質問翻訳訓練がLLM内の言語アライメントをどのように強化するかを明らかにする。
論文 参考訳(メタデータ) (2024-05-02T14:49:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。