論文の概要: READ More than What You See: Reinforcement Learning for Accurate and Coherent Audio Description Generations
- arxiv url: http://arxiv.org/abs/2606.22766v1
- Date: Mon, 22 Jun 2026 02:05:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-25 04:50:05.145795
- Title: READ More than What You See: Reinforcement Learning for Accurate and Coherent Audio Description Generations
- Title(参考訳): READ(Reinforcement Learning for Accurate and Coherent Audio Description Generations)
- Authors: Bo Fang, Xinyao Zhang, Yuxin Song, Hui Zhang, Hang Zhou, Antoni B. Chan,
- Abstract要約: トレーニングベースのAD生成のための最初の強化学習フレームワークであるREADを提案する。
READは、ADを参照マッチング、長さ、フォーマット報酬によるシーケンスレベルの最適化として定式化する。
以上の結果から,RLは精度とコヒーレントなAD生成のための有望なパラダイムとして注目されている。
- 参考スコア(独自算出の注目度): 48.760748753984764
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Audio Description aims to generate concise narrations of essential visual content in audio-visual media for blind and low-vision audiences. Existing methods either rely on prompting off-the-shelf multimodal models, which often mismatch AD style, or partially optimize training-based systems with next-token prediction, which under-explores model capacity and biases generation toward generic expressions. We present READ, the first reinforcement-learning (RL) framework for training-based AD generation. READ formulates AD as sequence-level optimization with reference-matching, length, and format rewards, and further introduces a dedicated coherence reward under context-aware supervision to promote narratively coherent descriptions. Experiments on MAD-Eval, CMD-AD, and TV-AD show that READ substantially outperforms prior methods across diverse evaluation metrics. Our results highlight RL as a promising paradigm for accurate and coherent AD generation. Our codes, models, and benchmark results will be publicly available.
- Abstract(参考訳): Audio Descriptionは、視覚的メディアにおける視覚的重要な内容の簡潔なナレーションを視覚障害者向けに生成することを目的としている。
既存の手法では、ADスタイルを間違えることが多い既成のマルチモーダルモデルや、モデルのキャパシティとジェネリック表現へのバイアスを探索する次世代の予測でトレーニングベースのシステムを部分的に最適化することに依存している。
トレーニングベースのAD生成のための最初の強化学習(RL)フレームワークであるREADを提案する。
READは、ADを参照マッチング、長さ、フォーマットの報酬を伴うシーケンスレベルの最適化として定式化し、また、物語的コヒーレントな記述を促進するためにコンテキスト対応の監督の下で、専用のコヒーレンス報酬を導入する。
MAD-Eval、CMD-AD、TV-ADの実験では、READは様々な評価指標で先行手法を大幅に上回っている。
以上の結果から,RLは精度とコヒーレントなAD生成のための有望なパラダイムとして注目されている。
コード、モデル、ベンチマークの結果が公開されます。
関連論文リスト
- A Unified and Reproducible Experimentation Framework for Speech Understanding [44.73703262229875]
SUREは、予測フォーマット、正規化、スコアリングを標準化する統合実験フレームワークである。
本稿では,予測形式,正規化,スコアリングを標準化した統一実験フレームワークSUREを提案する。
論文 参考訳(メタデータ) (2026-05-29T06:33:36Z) - REC-RL: Referring expression counting via Gaussian and range-based reward optimization [28.33789155610508]
Referring Expression counting (REC)は、コンテキスト対応の視覚的推論を必要とする意図駆動型タスクである。
本稿では,視覚的推論過程を明示的に最適化する思考範囲探索パラダイムを導入した強化学習フレームワークREC-RLを提案する。
論文 参考訳(メタデータ) (2026-05-15T07:37:45Z) - More than a Moment: Towards Coherent Sequences of Audio Descriptions [88.14731697642098]
オーディオ記述(AD)は、視覚障害者が動画をフォローできるように、スクリーン上の必須情報を伝える。
ほとんどの自動手法はそれぞれのADを独立に生成し、しばしば反復的で一貫性のない記述をもたらす。
本稿では、まずAD間隔毎に複数の候補記述を生成し、次にシーケンス間で自動回帰選択を行う、トレーニング不要な方法であるCoherentADを提案する。
論文 参考訳(メタデータ) (2025-10-29T12:06:42Z) - AURORA: Augmented Understanding via Structured Reasoning and Reinforcement Learning for Reference Audio-Visual Segmentation [113.75682363364004]
AURORAは、参照音声視覚セグメント化における真の推論と言語理解を強化するために設計されたフレームワークである。
AURORAはRef-AVSベンチマークの最先端性能を達成し、非参照セグメンテーションに効果的に一般化する。
論文 参考訳(メタデータ) (2025-08-04T07:47:38Z) - Benchmarking Representations for Speech, Music, and Acoustic Events [24.92641211471113]
ARCHは、多様なオーディオ分類領域上でARLメソッドを評価するための包括的なベンチマークである。
ARCHは12のデータセットで構成されており、異なるサイズのトレーニング済みSSLモデルを徹底的に評価することができます。
現在、非音声のためのオープンソースの事前学習モデルがないことに対処するため、非音声データセット上で強力なパフォーマンスを示す新しい事前学習モデルもリリースする。
論文 参考訳(メタデータ) (2024-05-02T01:24:53Z) - Hierarchical Indexing for Retrieval-Augmented Opinion Summarization [60.5923941324953]
本稿では,抽出アプローチの帰属性と拡張性と,大規模言語モデル(LLM)の一貫性と拡散性を組み合わせた,教師なし抽象的意見要約手法を提案する。
我々の方法であるHIROは、意味的に整理された離散的な階層を通して文を経路にマッピングするインデックス構造を学習する。
推測時にインデックスを投入し、入力レビューから人気意見を含む文群を識別し、検索する。
論文 参考訳(メタデータ) (2024-03-01T10:38:07Z) - MM-Narrator: Narrating Long-form Videos with Multimodal In-Context
Learning [120.95150400119705]
GPT-4を利用した音声記述生成のためのマルチモーダルインコンテキスト学習システムMM-Narratorを提案する。
MM-Narratorは、時間を超えても、何時間も経過したビデオの正確な音声記述を自動回帰的に生成することに長けている。
逐次テキスト生成のための最初のセグメントベース評価器を提案する。
論文 参考訳(メタデータ) (2023-11-29T08:27:00Z) - Boosting Audio-visual Zero-shot Learning with Large Language Models [32.533844163120875]
我々はKDA(KnowleDge-Augmented Audio-visual Learning)というフレームワークを導入する。
提案したKDAは、一般的な3つのゼロショット学習データセットにおいて最先端の手法より優れている。
論文 参考訳(メタデータ) (2023-11-21T01:18:23Z) - An Exploration of Self-Supervised Pretrained Representations for
End-to-End Speech Recognition [98.70304981174748]
本稿では,事前訓練された音声表現の一般応用,高度なエンドツーエンド自動音声認識(E2E-ASR)モデルに焦点をあてる。
いくつかの事前訓練された音声表現を選択し、E2E-ASRのための様々なオープンソースおよび公開コーパスの実験結果を示す。
論文 参考訳(メタデータ) (2021-10-09T15:06:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。