論文の概要: X+Slides: Benchmarking Audience-Conditioned Slide Generation
- arxiv url: http://arxiv.org/abs/2606.19256v1
- Date: Wed, 17 Jun 2026 16:30:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-18 17:16:51.270934
- Title: X+Slides: Benchmarking Audience-Conditioned Slide Generation
- Title(参考訳): X+Slides: Audience-Conditioned Slide Generationのベンチマーク
- Authors: Haodong Chen, Xuanhe Zhou, Wei Zhou, Xinyue Shao, Yanbing Zhu, Bo Wang, Jiawei Hong, Anya Jia, Fan Wu,
- Abstract要約: オーディエンス条件付きスライド生成用に特別に設計されたベンチマークであるX+Slidesを紹介する。
X+Slidesは113のトピックと7つのプレゼンテーションシーンにまたがる多様なコーパス上に構築されている。
X+Slidesは、オーディエンス固有のユーティリティウェイトを同じソースグラウンドのプローブに割り当てることで、4つの相補的なメトリクスを報告している。
- 参考スコア(独自算出の注目度): 15.787998217653536
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automatically generating slide decks from source documents is an important application of large language models (LLMs). Existing benchmarks primarily assess slide completeness and technical depth, while overlooking the target audience as a critical real-world factor. For instance, specialists demand rigorous proofs, whereas decision-makers prioritize actionable conclusions. To bridge this gap, we introduce X+Slides, a benchmark specifically designed for audience-conditioned slide generation. Built on a diverse corpus spanning 113 topics and seven presentation scenes, X+Slides employs a dynamic evaluation framework constructed from 8,133 deduplicated, source-grounded probes. By assigning audience-specific utility weights to the same source-grounded probes, X+Slides reports four complementary metrics: Audience Coverage measures how much audience-essential information is conveyed, Domain-wise Coverage shows which information types are covered, Efficiency measures delivered utility per unit of attention cost, and Correctness verifies whether slide claims are supported by the source. Experiments on DeepPresenter, SlideTailor, and NotebookLM show that current systems can recover a substantial but still incomplete part of audience-essential information: at $τ_A=0.7$, DeepPresenter reaches a best Audience Coverage of 0.714, SlideTailor reaches 0.594, and the NotebookLM ablation reaches 0.853 while showing clear grounding differences. These results indicate that visual quality and broad topic coverage should not be treated as evidence support without source-grounded evaluation.
- Abstract(参考訳): ソース文書からスライドデッキを自動的に生成することは、大規模言語モデル(LLM)の重要な応用である。
既存のベンチマークは、主にスライドの完全性と技術的な深さを評価し、ターゲットのオーディエンスを重要な現実世界要因と見なしている。
例えば、専門家は厳格な証明を要求するが、意思決定者は行動可能な結論を優先する。
このギャップを埋めるために、オーディエンス条件のスライド生成に特化したベンチマークであるX+Slidesを導入する。
113のトピックと7つのプレゼンテーションシーンにまたがる多種多様なコーパス上に構築されたX+Slidesは、8,133の重複したソース基底プローブで構成された動的評価フレームワークを使用している。
オーディエンスカバレッジ(Audience Coverage)は、どれだけのオーディエンス固有の情報が伝達されるか、ドメインワイドカバレッジ(Domain-wise Coverage)は、どの情報タイプがカバーされているか、注目コスト単位当たりの有効性の提供方法、そして、スライドクレームがソースによってサポートされているかどうかを検証する。
DeepPresenter、SlideTailor、NotebookLMの実験では、現在のシステムでは観衆の情報のうち、実質的ではあるが未完成な部分の復元が可能であることが示されている:$τ_A=0.7$、DeepPresenterは最高のオーディエンスカバレッジ0.714、SlideTailorは0.594、NotebookLMのアブレーションは0.853である。
これらの結果から,視覚的品質と広範囲な話題のカバレッジは,根拠的評価を伴わない証拠として扱うべきではないことが示唆された。
関連論文リスト
- DeepSlide: From Artifacts to Presentation Delivery [18.44771582564852]
提案するDeepSlideは,完全なプレゼンテーションプロセスの作成を支援するマルチエージェントシステムである。
DeepSlideは、(i)制御可能な論理チェーンプランナとノード単位の時間予算、(ii)グラウンディングのための軽量なコンテンツツリーレトリバー、(iii)スタイル継承によるマルコフスタイルのシーケンシャルレンダリング、(iv)最小限の修復によるサンドボックス実行を統合して、レンダリング性を保証する。
論文 参考訳(メタデータ) (2026-04-01T13:38:36Z) - PresentBench: A Fine-Grained Rubric-Based Benchmark for Slide Generation [9.27005978533552]
PresentBenchは、現実世界の自動スライド生成を評価するための、きめ細かいルーリックベースのベンチマークである。
これには238の評価インスタンスが含まれており、それぞれにスライド作成に必要な背景資料が補足されている。
ベンチマークの結果,NotebookLMは他のスライド生成方法よりも大幅に優れていることがわかった。
論文 参考訳(メタデータ) (2026-03-07T14:54:50Z) - DeepPresenter: Environment-Grounded Reflection for Agentic Presentation Generation [75.7505732466149]
DeepPresenterは多様なユーザ意図に適応するエージェントフレームワークである。
DeepPresenterは、中間のスライドアーティファクトを自律的に計画し、レンダリングし、修正する。
論文 参考訳(メタデータ) (2026-02-26T10:26:48Z) - A Hybrid Deterministic Framework for Named Entity Extraction in Broadcast News Video [0.2864713389096699]
本研究は,ニュースビデオから人名を自動的に検出・抽出する包括的枠組みを提案する。
現代ニュースグラフィクスの多様性を捉えた注釈付きフレームのキュレーションとバランスの取れたコーパスを導入している。
パイプラインは、生成的マルチモーダル手法の対照的なクラスに対して評価され、決定論的監査性と推論の間の明確なトレードオフを明らかにする。
論文 参考訳(メタデータ) (2026-02-09T19:58:50Z) - SlidesGen-Bench: Evaluating Slides Generation via Computational and Quantitative Metrics [49.092634600260965]
SlidesGen-Benchは、3つのコア原理のレンズを通してスライド生成を評価するために設計されたベンチマークである。
まず、視覚領域で解析を行い、端末出力をレンダリングとして扱い、基礎となる生成法に非依存なままにする。
次に,3次元のスライド(コンテンツ,美学,編集可能性)を定量的に評価する計算手法を提案する。
論文 参考訳(メタデータ) (2026-01-14T13:50:30Z) - Video-LevelGauge: Investigating Contextual Positional Bias in Large Video Language Models [51.67019924750931]
Video-LevelGaugeは、大規模ビデオ言語モデル(LVLM)における位置バイアスを評価するために設計されたベンチマークである。
我々は、標準化されたプローブとカスタマイズされたコンテキスト設定を採用し、コンテキスト長、プローブ位置、コンテキストタイプを柔軟に制御できる。
ベンチマークでは、複数のタイプにまたがる438の動画を手動でキュレートし、117の高品質なマルチチョイスの質問と120のオープンエンドの質問を得た。
論文 参考訳(メタデータ) (2025-08-27T07:58:16Z) - PASS: Presentation Automation for Slide Generation and Speech [0.0]
PASSは一般的なWord文書からスライドを生成するパイプラインである。
また、生成されたスライドのオーラル配信を自動化する。
Passはユーザ文書を分析して、AI生成音声による動的で魅力的なプレゼンテーションを生成する。
論文 参考訳(メタデータ) (2025-01-11T10:22:04Z) - Perception Test: A Diagnostic Benchmark for Multimodal Video Models [78.64546291816117]
本稿では,事前学習したマルチモーダルモデルの知覚と推論能力を評価するために,新しいマルチモーダルビデオベンチマークを提案する。
知覚テストは、スキル(記憶、抽象化、物理学、セマンティックス)と、ビデオ、オーディオ、テキストモダリティ間の推論(記述的、説明的、予測的、反ファクト的)のタイプに焦点を当てている。
このベンチマークは、ゼロショット/少数ショットまたは限定的な微調整方式で、転送機能の事前訓練されたモデルを探索する。
論文 参考訳(メタデータ) (2023-05-23T07:54:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。