論文の概要: CANVAS: Captioning Art with Narrative Visual-Audio AI Systems
- arxiv url: http://arxiv.org/abs/2606.09846v1
- Date: Thu, 30 Apr 2026 01:44:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-15 07:09:36.800189
- Title: CANVAS: Captioning Art with Narrative Visual-Audio AI Systems
- Title(参考訳): CANVAS: ナラティブなビジュアルオーディオAIシステムによるアートのキャプション
- Authors: Vignesh Nagarajan,
- Abstract要約: 本研究では,多感的アート記述と同期音声ナレーションを生成する自動解釈器を提案する。
このシステムは、アップロードされた画像を人間の介入なしにリッチな物語キャプションに変換する。
パイプラインは1枚あたり20秒未満で、0.05ドル以下でテキスト+オーディオを生成する。
- 参考スコア(独自算出の注目度): 0.9721745398149073
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Visual art remains largely inaccessible to blind and low-vision (BLV) audiences due to brief or absent alt-text, which rarely conveys the sensory, spatial, or emotional qualities of an artwork. This study presents an automated workflow that generates multi-sensory art descriptions and synchronized audio narration using large language models and text-to-speech services. The system, orchestrated through Zapier, converts uploaded images into rich narrative captions without human intervention, enabling rapid, scalable production of accessible media. Quantitative evaluation across 50 artworks shows that AI-generated descriptions contain significantly higher lexical diversity, adjective density, and narrative detail than baseline captions, while maintaining comparable readability levels. Statistical tests (t-tests, ANOVA) confirm meaningful differences in richness and length, and the full pipeline produces text-plus-audio outputs in under 20 seconds per image at a cost below $0.05. Findings demonstrate that automated captioning can bridge gaps in museum and digital-collection accessibility, with implications for broader public engagement. Future work can incorporate user studies with BLV participants to assess comprehension, preference, and optimal levels of interpretive language.
- Abstract(参考訳): 視覚芸術は、視覚的、空間的、感情的な品質をほとんど伝達しない、短い、または欠落したアルトテキストのため、視覚的芸術は、視覚的、視覚的、低視的(BLV)の聴衆にほとんどアクセスできないままである。
本研究では,大規模言語モデルと音声合成サービスを用いた多感的アート記述と同期音声ナレーションを自動生成するワークフローを提案する。
Zapierによって編成されたこのシステムは、アップロードされた画像を人間の介入なしにリッチな物語のキャプションに変換する。
50のアートワークの定量的評価では、AI生成した記述はベースラインのキャプションよりも語彙の多様性、形容詞の密度、物語のディテールが著しく高く、可読性は同等である。
統計的テスト(t-tests, ANOVA)では、豊かさと長さの有意義な違いが確認され、完全なパイプラインは0.05ドル以下のコストで、1画像あたり20秒未満でテキスト+オーディオ出力を生成する。
発見は、自動キャプションが博物館とデジタルコレクションアクセシビリティのギャップを埋める可能性を示し、より広範な公的なエンゲージメントに寄与することを示している。
今後の研究は、BLV参加者とユーザスタディを組み込んで、解釈言語の理解、嗜好、最適なレベルを評価することができる。
関連論文リスト
- Steganography Beyond Space-Time with Chain of Multimodal AI [8.095373104009868]
ステガノグラフィー(英: Steganography)は、隠蔽文学の芸術と科学である。
人工知能が進化を続けるにつれて、現実的なコンテンツを合成する能力は、サイバー犯罪の脅威として現れます。
本研究は,空間的・時間的領域を超えてメッセージが隠蔽される聴覚メディアのためのステガノグラフィーのパラダイムを提案する。
論文 参考訳(メタデータ) (2025-02-25T15:56:09Z) - Re-calibrating methodologies in social media research: Challenge the visual, work with Speech [0.0]
本稿は,ソーシャルメディア研究者が分析において,音声に基づくデータに効果的に関与する方法を考察する。
我々の方法論的レパートリーの拡大は、プラットフォーム化されたコンテンツのより豊かな解釈を可能にすると結論づける。
論文 参考訳(メタデータ) (2024-12-17T18:47:57Z) - Enriching Multimodal Sentiment Analysis through Textual Emotional Descriptions of Visual-Audio Content [56.62027582702816]
マルチモーダル・センティメント・アナリティクスは、テキスト、音声、視覚データを融合することで人間の感情を解き放つことを目指している。
しかし、音声やビデオの表現の中で微妙な感情的なニュアンスを認識することは、恐ろしい挑戦だ。
テキストの感情記述に基づくプログレッシブ・フュージョン・フレームワークであるDEVAを紹介する。
論文 参考訳(メタデータ) (2024-12-12T11:30:41Z) - ASCIIEval: Benchmarking Models' Visual Perception in Text Strings via ASCII Art [83.95594027644124]
我々は,この問題を認識タスクとみなし,新しいベンチマークASCIIEvalを構築した。
精巧な分類木を持つ3Kサンプルに加えて、さらなる拡張のためのトレーニングセットもカバーしている。
テキスト入力が与えられた言語モデルは、ASCIIアートの概念に基づいて視覚的知覚能力を示す。
画像入力において,オープンソースのMLLMは,微細なテキスト認識と集合的視覚知覚のトレードオフに悩まされていることが明らかになった。
論文 参考訳(メタデータ) (2024-10-02T16:46:01Z) - A Video Is Worth 4096 Tokens: Verbalize Videos To Understand Them In
Zero Shot [67.00455874279383]
そこで本研究では,自然言語による記述を生成するために長編動画を音声化し,生成したストーリーの映像理解タスクを実行することを提案する。
提案手法は,ゼロショットであるにもかかわらず,ビデオ理解のための教師付きベースラインよりもはるかに優れた結果が得られる。
ストーリー理解ベンチマークの欠如を緩和するため,我々は,説得戦略の識別に関する計算社会科学における重要な課題に関する最初のデータセットを公開している。
論文 参考訳(メタデータ) (2023-05-16T19:13:11Z) - Visually-augmented pretrained language models for NLP tasks without
images [77.74849855049523]
既存のソリューションはしばしば視覚的知識増強のために明示的なイメージに依存している。
我々は、新しいtextbfVisually-textbfAugmented fine-tuningアプローチを提案する。
我々のアプローチは、BERT、RoBERTa、BART、T5を異なるスケールで継続的に改善することができる。
論文 参考訳(メタデータ) (2022-12-15T16:13:25Z) - WAVPROMPT: Towards Few-Shot Spoken Language Understanding with Frozen
Language Models [57.557319372969495]
大量のテキストで事前訓練された大規模自動回帰言語モデルは、新しい自然言語タスクを実行するという印象的な能力を示している。
近年の研究では、エンコーダを訓練し、画像のエンコードを埋め込みにすることで、このような数発の学習能力をテキスト画像設定にまで拡張できることが示されている。
そこで我々は,wav2vecモデルを微調整して,言語モデルによって理解された音声埋め込みのシーケンスを生成する,新しい音声理解フレームワークWavPromptを提案する。
論文 参考訳(メタデータ) (2022-03-29T19:08:55Z) - Language Matters: A Weakly Supervised Pre-training Approach for Scene
Text Detection and Spotting [69.77701325270047]
本稿では,シーンテキストを効果的に表現できる弱教師付き事前学習手法を提案する。
本ネットワークは,画像エンコーダと文字認識型テキストエンコーダから構成され,視覚的特徴とテキスト的特徴を抽出する。
実験により、事前訓練されたモデルは、重みを他のテキスト検出やスポッティングネットワークに転送しながら、Fスコアを+2.5%、+4.8%改善することが示された。
論文 参考訳(メタデータ) (2022-03-08T08:10:45Z) - Joint Audio-Text Model for Expressive Speech-Driven 3D Facial Animation [46.8780140220063]
本稿では,表情駆動型3次元顔画像の文脈情報を取得するための共同音声テキストモデルを提案する。
我々の仮説は、音声と強く相関しない上面表現のバリエーションを曖昧にすることができるというものである。
音声と音声の同期を保ちながら現実的な表情を合成できることを示す。
論文 参考訳(メタデータ) (2021-12-04T01:37:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。