Fugu-MT 論文翻訳(概要): A Generalized Formalism of Auto-Regressive Decoding for Speech Processing

論文の概要: A Generalized Formalism of Auto-Regressive Decoding for Speech Processing

arxiv url: http://arxiv.org/abs/2606.20714v1
Date: Tue, 16 Jun 2026 13:31:39 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-26 15:49:42.525548
Title: A Generalized Formalism of Auto-Regressive Decoding for Speech Processing
Title（参考訳）: 音声処理のための自己回帰復号の一般化形式化
Authors: Julia Gachot, Philipp Allgeuer, Marie S. Bauer, Stefan Wermter,
Abstract要約: 音声処理におけるAR検索の分野での明確な包含基準を設定した。ニューラルネットワークの探索戦略を分類・報告するための一般化された理論的枠組みを導出する。復号化プロセスを中心としたベンチマークの設計を簡略化する上で,この形式化の能力を示す。
参考スコア（独自算出の注目度）: 7.7664699692700445
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In speech processing, most state-of-the-art sequence prediction models rely on auto-regressive (AR) strategies to generate output sequences based on the raw predictions of the model. Despite their crucial role in the inference process, a comprehensive overview of AR strategies as a unified field is lacking, due largely to implicit and multiple definitions of next-token decoding. This context complicates the choice, comparison, and evaluation of strategies, while creating inconsistencies in the characterization of approaches as auto-regressive or not. We begin by setting explicit inclusion criteria for the field of AR search in speech processing, and derive a generalized theoretical framework to categorize and report on search strategies for neural models. We show the capabilities of this formalism in simplifying the design of benchmarks centered around the decoding process, allowing for ablation studies that are focused on search strategies.
Abstract（参考訳）: 音声処理では、ほとんどの最先端シーケンス予測モデルは、モデルの生の予測に基づいて出力シーケンスを生成する自動回帰(AR)戦略に依存している。推論プロセスにおける彼らの重要な役割にもかかわらず、統合されたフィールドとしてのAR戦略の包括的な概要は欠如している。この文脈は戦略の選択、比較、評価を複雑にし、自動回帰的かどうかというアプローチの特徴に矛盾を生じさせる。まず、音声処理におけるAR探索の分野に対する明示的な包含基準を設定し、ニューラルネットワークの探索戦略を分類・報告するための一般的な理論的枠組みを導出する。本稿では,デコードプロセスを中心としたベンチマークの設計を簡略化し,検索戦略に焦点をあてたアブレーション研究を可能にする上で,このフォーマリズムの能力を示す。

関連論文リスト

Reasoning Palette: Modulating Reasoning via Latent Contextualization for Controllable Exploration for (V)LMs [49.66344956133349]
推論能力は、大規模な(ビジョン)言語モデルのための推論時間性能と強化学習(RL)トレーニングの両方を形作る。本稿では,戦略的文脈化のための潜在変数をモデルに付与する新しい潜在変調フレームワークであるReasoning Paletteを提案する。
論文参考訳（メタデータ） (2025-12-19T03:32:53Z)
KBQA-R1: Reinforcing Large Language Models for Knowledge Base Question Answering [64.62317305868264]
テキスト模倣から強化学習によるインタラクション最適化へパラダイムをシフトするフレームワークである textbfKBQA-R1 を提案する。 KBQAを多ターン決定プロセスとして扱うことで,行動のリストを用いて知識ベースをナビゲートすることを学ぶ。 WebQSP、GrailQA、GraphQuestionsの実験では、KBQA-R1が最先端のパフォーマンスを実現している。
論文参考訳（メタデータ） (2025-12-10T17:45:42Z)
Step-Aware Policy Optimization for Reasoning in Diffusion Large Language Models [57.42778606399764]
拡散言語モデル(dLLM)は、テキスト生成に有望で非自己回帰的なパラダイムを提供する。現在の強化学習アプローチは、しばしばスパースで結果に基づく報酬に頼っている。これは推論の自然な構造との根本的なミスマッチに由来すると我々は主張する。
論文参考訳（メタデータ） (2025-10-02T00:34:15Z)
AURORA: Augmented Understanding via Structured Reasoning and Reinforcement Learning for Reference Audio-Visual Segmentation [113.75682363364004]
AURORAは、参照音声視覚セグメント化における真の推論と言語理解を強化するために設計されたフレームワークである。 AURORAはRef-AVSベンチマークの最先端性能を達成し、非参照セグメンテーションに効果的に一般化する。
論文参考訳（メタデータ） (2025-08-04T07:47:38Z)
Speculative Decoding and Beyond: An In-Depth Survey of Techniques [9.362838127921458]
シーケンシャルな依存関係は、大規模な自己回帰モデルをデプロイする上で、根本的なボトルネックとなる。ジェネレーション・リファインメント・フレームワークの最近の進歩は、このトレードオフを著しく緩和できることを示している。
論文参考訳（メタデータ） (2025-02-27T03:53:45Z)
Chain-of-Retrieval Augmented Generation [91.02950964802454]
本稿では,o1-like RAGモデルを学習し,最終回答を生成する前に段階的に関連情報を抽出・推論する手法を提案する。提案手法であるCoRAGは,進化状態に基づいて動的にクエリを再構成する。
論文参考訳（メタデータ） (2025-01-24T09:12:52Z)
Autoregressive Structured Prediction with Language Models [73.11519625765301]
本稿では, PLM を用いた自己回帰的手法を用いて, モデル構造を行動列として記述する。我々のアプローチは、私たちが見てきた全ての構造化予測タスクにおいて、新しい最先端を実現する。
論文参考訳（メタデータ） (2022-10-26T13:27:26Z)
Symbolic Regression by Exhaustive Search: Reducing the Search Space Using Syntactical Constraints and Efficient Semantic Structure Deduplication [2.055204980188575]
シンボリック回帰は、モデル構造に関する事前の知識が得られない産業シナリオにおいて、強力なシステム識別技術である。この章では、これらの問題に対処するために特別に設計された決定論的シンボリック回帰アルゴリズムを紹介します。全ての可能なモデルの有限列挙は、構造的制約と意味論的に等価な解を検出するキャッシング機構によって保証される。
論文参考訳（メタデータ） (2021-09-28T17:47:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。