論文の概要: Connecting Speech to Words through Images
- arxiv url: http://arxiv.org/abs/2606.16807v1
- Date: Mon, 15 Jun 2026 14:50:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-16 16:21:34.648243
- Title: Connecting Speech to Words through Images
- Title(参考訳): 画像による音声と単語の接続
- Authors: Gabriel Pirlogeanu, Dan Oneata, Horia Cucu, Herman Kamper,
- Abstract要約: 本稿では,画像と音声記述のみを用いて,単語の語彙を視覚的に構築する手法を提案する。
音声単語の検索とキーワードスポッティング実験において、提案手法はより解釈可能でありながら強力なニューラルネットワークよりも優れている。
- 参考スコア(独自算出の注目度): 23.312539472103566
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: How can we learn the mapping between written words and their spoken counterparts in the absence of explicit textual supervision? We present a visually grounded method for building a vocabulary of spoken words using only images and their spoken descriptions. First, image captioning systems are used to build a vocabulary of written words representing salient visual concepts in the images. For each word, we then find utterances whose image captions contain that word. Then we use an unsupervised word discovery technique to align these utterances to locate instances of the target word. The result is spoken word segments that are linked to written words -- all accomplished without any text supervision. In spoken word retrieval and keyword spotting experiments, the proposed approach outperforms a strong neural baseline while being more interpretable. These results demonstrate the feasibility of the approach in English and motivate future work on low-resource languages without transcripts.
- Abstract(参考訳): 明示的なテクスト・インスペクションの欠如により、文字と音声の対応関係のマッピングをどうやって学べるか?
本稿では,画像と音声記述のみを用いて,単語の語彙を視覚的に構築する手法を提案する。
まず、イメージキャプションシステムを用いて、画像内の健全な視覚概念を表す書かれた単語の語彙を構築する。
各単語に対して、画像キャプションにその単語が含まれている発話を見つける。
そして、教師なし単語発見手法を用いて、これらの発話を調整し、対象単語のインスタンスを見つける。
その結果は、書かれた単語にリンクされた音声単語セグメントで、すべてテキストの監督なしに達成されます。
音声単語の検索とキーワードスポッティング実験において、提案手法はより解釈可能でありながら強力なニューラルネットワークよりも優れている。
これらの結果は、英語におけるアプローチの実現可能性を示し、書き起こしのない低リソース言語における今後の研究を動機づけるものである。
関連論文リスト
- Text-to-Image Generation for Vocabulary Learning Using the Keyword Method [9.862827991755076]
「キーワード法」は外国語の語彙を学ぶのに有効な技法である。
単語の意味と、外国語の発音がどんなものかを記憶可能なビジュアルリンクを作成する。
我々は、記憶可能なビジュアルリンクを視覚に外部化するために、キーワードメソッドとテキスト・ツー・イメージ・ジェネレータを組み合わせるアプリケーションを開発した。
論文 参考訳(メタデータ) (2025-01-28T17:39:50Z) - Language with Vision: a Study on Grounded Word and Sentence Embeddings [6.231247903840833]
視覚における接地言語は、認知的に妥当な単語と文表現の構築を目指す研究の活発な分野である。
本研究では,事前学習した単語埋め込みのための基礎計算モデルを提案する。
本モデルは,テキスト埋め込みを視覚情報と整合させることにより,言語と視覚の相互作用を効果的にバランスさせる。
論文 参考訳(メタデータ) (2022-06-17T15:04:05Z) - Comprehending and Ordering Semantics for Image Captioning [124.48670699658649]
我々はトランスフォーマー型構造,すなわちComprehending and Ordering Semantics Networks (COS-Net) の新たなレシピを提案する。
COS-Netは、豊富なセマンティックコンプレッディングと学習可能なセマンティックオーダリングプロセスを単一のアーキテクチャに統合する。
論文 参考訳(メタデータ) (2022-06-14T15:51:14Z) - Attention-Based Keyword Localisation in Speech using Visual Grounding [32.170748231414365]
我々は,視覚的接地型音声モデルでもキーワードの局所化が可能かどうか検討する。
従来の視覚的基盤モデルよりも注目が大きなパフォーマンス向上をもたらすことを示す。
他の多くの音声画像研究と同様に、不正確な局所化の多くは意味的混乱によるものである。
論文 参考訳(メタデータ) (2021-06-16T15:29:11Z) - Accurate Word Representations with Universal Visual Guidance [55.71425503859685]
本稿では,視覚指導から従来の単語埋め込みを視覚的に強調する視覚的表現法を提案する。
各単語が多様な関連画像に対応するマルチモーダルシードデータセットから,小型の単語画像辞書を構築する。
12の自然言語理解および機械翻訳タスクの実験により,提案手法の有効性と一般化能力がさらに検証された。
論文 参考訳(メタデータ) (2020-12-30T09:11:50Z) - Contrastive Learning for Weakly Supervised Phrase Grounding [99.73968052506206]
単語領域の注目度を最適化することにより,句の接頭辞が学習可能であることを示す。
キーとなる考え方は、言語モデルに基づく単語置換を通して学習するための効果的な負のキャプションを構築することである。
COCO-Captionsでトレーニングされた弱い教師付きフレーズグラウンドモデルは、Flickr30Kベンチマークで76.7%の精度を達成するために、健全な5.7%の上昇を示している。
論文 参考訳(メタデータ) (2020-06-17T15:00:53Z) - Learning to Recognise Words using Visually Grounded Speech [15.972015648122914]
このモデルは、視覚的に接地された埋め込みを作成するために、画像と音声キャプションのペアで訓練されている。
本研究では,そのようなモデルを用いて,単語を埋め込み,それらを用いて視覚的参照者の画像を取得することによって,単語の認識が可能かどうかを検討する。
論文 参考訳(メタデータ) (2020-05-31T12:48:37Z) - On Vocabulary Reliance in Scene Text Recognition [79.21737876442253]
ボキャブラリ内の単語を持つ画像に対して、手法は良好に機能するが、ボキャブラリ外の単語を持つ画像にはあまり一般化しない。
私たちはこの現象を「語彙依存」と呼んでいる。
本研究では,2家族のモデルが協調的に学習できるようにするための,シンプルで効果的な相互学習戦略を提案する。
論文 参考訳(メタデータ) (2020-05-08T11:16:58Z) - Visual Grounding in Video for Unsupervised Word Translation [91.47607488740647]
我々は、言語間の教師なし単語マッピングを改善するために、視覚的接地を用いる。
ネイティブ言語でナレーションされた無人の教育ビデオから埋め込みを学習する。
これらの手法を英語からフランス語、韓国語、日本語への翻訳に適用する。
論文 参考訳(メタデータ) (2020-03-11T02:03:37Z) - Learning Representations by Predicting Bags of Visual Words [55.332200948110895]
自己教師付き表現学習ターゲットは、ラベルなしデータから畳み込みに基づく画像表現を学習する。
この分野におけるNLP手法の成功に触発された本研究では,空間的に高密度な画像記述に基づく自己教師型アプローチを提案する。
論文 参考訳(メタデータ) (2020-02-27T16:45:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。