論文の概要: Enhancing Multilingual Reasoning via Steerable Model Merging
- arxiv url: http://arxiv.org/abs/2606.19002v1
- Date: Wed, 17 Jun 2026 12:28:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-18 17:16:51.160598
- Title: Enhancing Multilingual Reasoning via Steerable Model Merging
- Title(参考訳): ステアブルモデルマージによる多言語推論の強化
- Authors: Zhuoran Li, Rui Xu, Jian Yang, Junnan Liu, Zhijun Chen, Qianren Mao, Hongcheng Guo, Jiaheng Liu, Likang Xiao, Ming Li, Xiaojie Wang,
- Abstract要約: 本稿では,各ソースモデルのコントリビューションを変調するSteerable Model Merging (ST-Merge) フレームワークを提案する。
我々は,ST-Mergeが21言語にまたがる4つの多言語推論ベンチマークにおいて,強いベースラインを一貫して上回ることを示す。
- 参考スコア(独自算出の注目度): 53.27036725623993
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Model merging is an effective technique for composing the capabilities of a multilingual model and a reasoning model. It has achieved promising generalization in multilingual reasoning tasks by aligning feature spaces of different models. However, the merged single model often fails to address the conflicts between source models, leading to suboptimal performance. In other words, the one-size-fits-all merging strategy may not align with the characteristics of different inputs which may require prioritizing certain models over others. To this end, we propose a Steerable Model Merging (ST-Merge) framework to modulate the contribution of each source model. To realize this idea, we introduce a gated cross-attention mechanism to weight or filter the two attended source models in an adaptive manner. Extensive experiments demonstrate that ST-Merge consistently outperforms multiple strong baselines on four multilingual reasoning benchmarks across 21 different languages.
- Abstract(参考訳): モデルマージは多言語モデルと推論モデルの能力を構成する効果的な手法である。
異なるモデルの特徴空間を整列させることで多言語推論タスクにおける有望な一般化を実現している。
しかし、統合された単一モデルはしばしばソースモデル間の競合に対処できず、最適以下のパフォーマンスをもたらす。
言い換えれば、一つのサイズにフィットするマージ戦略は、他のモデルよりも優先順位付けを必要とするかもしれない異なる入力の特性と一致しないかもしれない。
そこで本研究では,各ソースモデルのコントリビューションを変調するSteerable Model Merging (ST-Merge) フレームワークを提案する。
このアイデアを実現するために、我々は、2つのソースモデルを適応的に重み付けまたはフィルタリングするゲートクロスアテンション機構を導入する。
大規模な実験により、ST-Mergeは21の異なる言語にわたる4つの多言語推論ベンチマークにおいて、複数の強いベースラインを一貫して上回ることを示した。
関連論文リスト
- Unlocking the Power of Large Language Models for Multi-table Entity Matching [25.152180469437422]
マルチテーブルエンティティマッチング(MEM)は、デュアルテーブルアプローチの限界に対処する。
LLM4MEMと呼ばれるマルチテーブルエンティティマッチングのための新しいフレームワークを提案する。
ベースラインモデルと比較してF1では平均5.1%改善した。
論文 参考訳(メタデータ) (2026-04-23T03:13:44Z) - Model Merging to Maintain Language-Only Performance in Developmentally Plausible Multimodal Models [2.3193211674050516]
本稿では,この相違に対処するBabyLMチャレンジのマルチモーダルトラックへのアプローチについて述べる。
我々は,開発可能なデータセットを用いて,低リソース環境下で言語のみおよびマルチモーダルモデルを開発する。
論文 参考訳(メタデータ) (2025-10-02T09:38:25Z) - Black-box Model Merging for Language-Model-as-a-Service with Massive Model Repositories [21.899117703417517]
進化的アルゴリズム(Evo-Merging)に基づく微分自由最適化フレームワークを提案する。
提案手法は,(1) モデル間の不適切な情報や冗長な情報を識別・フィルタリングする疎結合型デノベーション,(2) 関連モデルに対する最適な組合せ重み付けを動的に計算するシグナック・アウェア・スケーリングの2つの重要な要素から構成される。
提案手法は,様々なタスクにおける最先端の成果を達成し,既存の強靭なベースラインを著しく上回っている。
論文 参考訳(メタデータ) (2025-09-16T10:55:50Z) - Dynamic Collaboration of Multi-Language Models based on Minimal Complete Semantic Units [29.79935180749153]
本稿では,トークンレベルの多モデル協調による言語モデルの推論能力の向上について検討する。
分散距離に基づく動的選択戦略(DDS)を導入し,マルチモデル協調プロセスを最適化する。
論文 参考訳(メタデータ) (2025-08-26T07:41:33Z) - OptMerge: Unifying Multimodal LLM Capabilities and Modalities via Model Merging [124.91183814854126]
モデルマージは、複数のエキスパートモデルをひとつのモデルに組み合わせようとしている。
本稿ではMLLMのトレーニングと評価のタスクを明確に分割したモデルマージ研究のベンチマークを紹介する。
モデルマージは、トレーニングデータを必要とせずに改善されたMLLMを構築するための有望な方法であることがわかった。
論文 参考訳(メタデータ) (2025-05-26T12:23:14Z) - AdaMMS: Model Merging for Heterogeneous Multimodal Large Language Models with Unsupervised Coefficient Optimization [86.8133939108057]
異種MLLMに適した新しいモデルマージ手法であるAdaMMSを提案する。
提案手法は,マッピング,マージ,検索という3段階の課題に対処する。
ラベル付きデータ無しで異種MLLMをマージできる最初のモデルマージ手法として、AdaMMSは様々なビジョンベンチマークで過去のモデルマージ手法より優れている。
論文 参考訳(メタデータ) (2025-03-31T05:13:02Z) - Exploring Model Kinship for Merging Large Language Models [73.98345036483299]
我々は, モデル進化を反復的融合を通じて研究し, 生物進化の類似性について考察した。
モデル親和性はマージによって達成された性能改善と密接に関連していることを示す。
本稿では,新しいモデル統合戦略を提案する。
論文 参考訳(メタデータ) (2024-10-16T14:29:29Z) - EMR-Merging: Tuning-Free High-Performance Model Merging [55.03509900949149]
Elect, Mask & Rescale-Merging (EMR-Merging) は既存のマージ手法と比較して優れた性能を示した。
EMR-Mergingはチューニング不要なので、データアベイラビリティや追加のトレーニングは必要ありません。
論文 参考訳(メタデータ) (2024-05-23T05:25:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。