Fugu-MT 論文翻訳(概要): Enhancing Multilingual LLM-based ASR with Mixture of Experts and Dynamic Downsampling

論文の概要: Enhancing Multilingual LLM-based ASR with Mixture of Experts and Dynamic Downsampling

arxiv url: http://arxiv.org/abs/2606.10439v1
Date: Tue, 09 Jun 2026 05:35:31 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-10 15:40:58.336277
Title: Enhancing Multilingual LLM-based ASR with Mixture of Experts and Dynamic Downsampling
Title（参考訳）: エキスパートと動的ダウンサンプリングの混合による多言語LLMベースASRの強化
Authors: Guodong Lin, Ziqi Chen, Yuxiang Fu, Ke Li, Wei-Qiang Zhang,
Abstract要約: 大規模言語モデル(LLM)が自動音声認識(ASR)のための新たなフロンティアをオープンした本研究は多言語一般化とモダリティアライメントの重要な課題を対象としたプロジェクタベースのLLM-ASRフレームワークを提案する。
参考スコア（独自算出の注目度）: 13.034743616461618
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The rapid progress of large language models (LLMs) has opened up a new frontier for automatic speech recognition (ASR), making their effective integration a critical and challenging research direction. To this end, this work proposes a projector-based LLM-ASR framework targeting the key challenges of multilingual generalization and modality alignment. Our approach incorporates a Mixture of Experts (MoE) architecture to improve cross-lingual adaptability, and a Continuous Integrate-and-Fire (CIF) mechanism for dynamic downsampling and modality alignment. Experimental results show that the combination of these components yields substantial performance improvements, surpassing strong baseline models. The proposed method represents a step toward building more accurate, robust, and generalizable LLM-based ASR systems.
Abstract（参考訳）: 大規模言語モデル(LLM)の急速な進歩により、自動音声認識(ASR)のための新たなフロンティアが開かれ、その効果的な統合が重要かつ困難な研究方向となった。そこで本研究では,多言語一般化とモダリティアライメントの重要な課題を対象としたプロジェクタベースのLLM-ASRフレームワークを提案する。このアプローチには,言語間適応性向上のためのMixture of Experts(MoE)アーキテクチャと,動的ダウンサンプリングとモダリティアライメントのためのContinuous Integrate-and-Fire(CIF)メカニズムが組み込まれています。実験結果から,これらの組み合わせにより,強力なベースラインモデルを上回る性能向上が得られた。提案手法は、より正確で堅牢で一般化可能なLSMベースのASRシステムを構築するためのステップである。

関連論文リスト

ReVEL: Multi-Turn Reflective LLM-Guided Heuristic Evolution via Structured Performance Feedback [0.0]
ReVEL: 構造化性能フィードバックによるマルチTurn反射型LLM-Huristic Evolutionを提案する。 ReVELの中核は、(i)パフォーマンスに目立ったグループ化と(ii)マルチターンフィードバック駆動リフレクションの2つのメカニズムにある。本結果は,自動設計の原則的パラダイムとして,構造化グループを用いたマルチターン推論に注目した。
論文参考訳（メタデータ） (2026-03-05T04:52:11Z)
Fun-ASR Technical Report [89.84148151617022]
本稿では,大規模データ,大規模モデル容量,LLM統合,強化学習を組み合わせた大規模ALSシステムFun-ASRを提案する。 Fun-ASRは特に実用的なデプロイメントに最適化されており、ストリーミング機能、ノイズの堅牢性、コードスイッチング、ホットワードのカスタマイズ、その他の現実世界のアプリケーション要件を満たすことができる。運用指向の最適化により、Fun-ASRは実際のアプリケーションデータセット上での最先端のパフォーマンスを実現し、実用的設定におけるその有効性と堅牢性を示す。
論文参考訳（メタデータ） (2025-09-15T23:19:36Z)
HOID-R1: Reinforcement Learning for Open-World Human-Object Interaction Detection Reasoning with Multimodal Large Language Model [13.82578761807402]
HOID-R1は,チェーン・オブ・シント(CoT)とグループ相対的ポリシー最適化のファインチューニングを統合した最初のHOI検出フレームワークである。 CoT推論における幻覚を軽減するために,CoT出力を監督するMLLM-as-a-judge機構を導入する。実験により、HOID-R1はHOI検出ベンチマークの最先端性能を達成し、新しいシナリオへのオープンワールドの一般化における既存の手法よりも優れていることが示された。
論文参考訳（メタデータ） (2025-08-15T09:28:57Z)
RLAE: Reinforcement Learning-Assisted Ensemble for LLMs [21.77261258691006]
大規模言語モデル(LLM)は、様々なモデルの多様な強みを効果的に組み合わせ、様々なタスクのパフォーマンスを高めるための有望なアプローチを提供する。マルコフ決定プロセス(MDP)のレンズを通してアンサンブルを再構成する新しいフレームワークであるLLMのための強化学習支援アンサンブルを提案する。提案手法では,入力コンテキストと中間生成状態の両方を考慮してアンサンブル重みを動的に調整するRLエージェントを提案する。
論文参考訳（メタデータ） (2025-05-31T07:38:41Z)
CALM: Co-evolution of Algorithms and Language Model for Automatic Heuristic Design [11.639825726501659]
大規模言語モデル(LLM)は、従来のコストのごく一部で自律的にハイパフォーマンスを発見できる。本稿では,言語指導と数値指導を組み合わせたハイブリッドフレームワークを提案する。本手法は,様々な最適化タスクにおいて,SOTA(State-of-the-art)ベースラインを上回っている。
論文参考訳（メタデータ） (2025-05-18T07:48:47Z)
MLE-Dojo: Interactive Environments for Empowering LLM Agents in Machine Learning Engineering [57.156093929365255]
自律型大規模言語モデル(LLM)エージェントを体系的に強化し、評価し、改善するためのガイムスタイルのフレームワーク。 MLE-Dojoは、現実的なエンジニアリングシナリオを反映した、多様でオープンなMLEタスクを慎重にキュレートする。完全に実行可能な環境は、教師付き微調整と強化学習の両方を通して包括的なエージェントトレーニングをサポートする。
論文参考訳（メタデータ） (2025-05-12T17:35:43Z)
Will Pre-Training Ever End? A First Step Toward Next-Generation Foundation MLLMs via Self-Improving Systematic Cognition [89.50068130832635]
自己改善認知 (SIcog) は、マルチモーダル知識によって次世代のMLLMを構築するための自己学習フレームワークである。ステップバイステップの視覚的理解のためのChain-of-Descriptionを提案し、詳細なマルチモーダル推論をサポートするために構造化されたChain-of-Thought(CoT)推論を統合する。実験は、マルチモーダル認知を増強したMLLMの開発におけるSIcogの有効性を示す。
論文参考訳（メタデータ） (2025-03-16T00:25:13Z)
Progressive Multimodal Reasoning via Active Retrieval [64.74746997923967]
多段階多モーダル推論タスクは、大規模言語モデル(MLLM)に重大な課題をもたらす本稿では,MLLMの推論能力の向上を目的とした汎用フレームワークAR-MCTSを提案する。我々は,AR-MCTSがサンプリングの多様性と精度を最適化し,信頼性の高いマルチモーダル推論を実現することを示す。
論文参考訳（メタデータ） (2024-12-19T13:25:39Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。