論文の概要: Characterizing Narrative Content in Web-scale LLM Pretraining Data
- arxiv url: http://arxiv.org/abs/2606.19468v1
- Date: Wed, 17 Jun 2026 18:03:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-19 18:23:39.470777
- Title: Characterizing Narrative Content in Web-scale LLM Pretraining Data
- Title(参考訳): Web スケール LLM 事前学習データにおけるナラティブコンテンツの特徴付け
- Authors: Teagan Johnson, Elliott Ash, Andrew Piper, Maria Antoniak,
- Abstract要約: 本稿では,3トリルのオープンプレトレーニングコーパスであるDolmaの物語的特徴について,初めて詳細に考察する。
我々は、11の解釈可能な次元として機能する3つの中核的な物語要素(緊急性、設定、イベント)にまたがるフレームワークを設計する。
私たちはNarraBERTを3Mパスに適用し、新たなデータセットであるNarraDolmaを作成しました。
- 参考スコア(独自算出の注目度): 14.02632268506113
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The narrative composition of web-scale LLM pretraining corpora remains largely unexplored even though narrative is a fundamental mode of human communication. We present the first fine-grained study of narrative features in Dolma, a 3-trillion-token open pretraining corpus. Drawing on narrative theory, we design a framework spanning three core narrative elements (agency, setting, and events) operationalized as 11 interpretable dimensions. After sampling and annotating a diverse set of 400 passages, we finetune and validate NarraBERT, a RoBERTa-based model for fine-grained narrative prediction. We apply NarraBERT to 3M passages, resulting in a new dataset, NarraDolma. We find (i) narrative structure is measurable at scale across extremely heterogeneous data, (ii) we uncover a continuous, multidimensional narrative structure underlying web text, and (iii) narrative qualities are unequally distributed across pretraining sources and topics in ways that current curation practices neither measure nor account for. Our framework, dataset, and analyses provide a foundation for understanding how narrative qualities are distributed in LLM pretraining data and for studying how data composition affects narrative reasoning tasks. We publicly release NarraDolma and NarraBERT.
- Abstract(参考訳): ウェブスケールLLMプレトレーニングコーパスの物語構成は、物語が人間のコミュニケーションの基本的なモードであるにもかかわらず、ほとんど解明されていない。
本研究は,3トリルのオープンプレトレーニングコーパスであるDolmaにおいて,初めて詳細な物語的特徴について述べる。
物語理論に基づいて,11の解釈可能な次元として操作された3つの中核的物語要素(緊急性,設定,イベント)にまたがる枠組みを設計する。
様々な400の節を抽出・注釈した後,RoBERTaを用いた詳細な物語予測モデルであるNarraBERTを精査し,検証した。
私たちはNarraBERTを3Mパスに適用し、新たなデータセットであるNarraDolmaを作成しました。
発見
(i)物語構造は、非常に異質なデータにわたって大規模に測定可能である。
(II)ウェブテキストを基盤とした連続多次元物語構造を明らかにする。
(三)物語の質は、現行のキュレーションの慣行が測定も説明もしない方法で、未学習の資料や話題に均等に分散する。
我々のフレームワーク、データセット、分析は、LLM事前学習データに物語の質がどのように分散されているかを理解し、データ構成が物語の推論タスクにどのように影響するかを研究するための基盤を提供する。
私たちはNarraDolmaとNarraBERTを公開しています。
関連論文リスト
- Creative Convergence or Imitation? Genre-Specific Homogeneity in LLM-Generated Chinese Literature [17.985893852336865]
本稿では,Proppian narratologyとナラトロジー関数を取り入れた分析のための新しい理論フレームワークを提案する。
我々はProppの物語理論を拡張し、現代のウェブ物語構造に適した34の物語機能を定義した。
実験の結果、生成したテキストにおける特異な物語論理と厳密な同質化の主な理由は、現在のLLMが物語関数の意味を正しく理解できないことであることがわかった。
論文 参考訳(メタデータ) (2026-03-15T15:15:48Z) - Classifying Unreliable Narrators with Large Language Models [23.817691955577835]
本稿では,複数のドメインからのナラティブを人間に注釈付けしたデータセットTUNaを提案する。
ナレーション内,ナレーション間,テキスト間不確実性の分類タスクを定義する。
実世界のテキストデータに基づいて,信頼できないナレーター分類を行うために,文献からの学習を提案する。
論文 参考訳(メタデータ) (2025-06-11T23:17:12Z) - BookWorm: A Dataset for Character Description and Analysis [59.186325346763184]
本稿では,短い事実プロファイルを生成する文字記述と,詳細な解釈を提供する文字解析という2つのタスクを定義する。
本稿では,Gutenbergプロジェクトからの書籍と,人間による記述と分析のペアリングを行うBookWormデータセットを紹介する。
その結果,検索に基づくアプローチは両タスクにおいて階層的アプローチよりも優れていた。
論文 参考訳(メタデータ) (2024-10-14T10:55:58Z) - Mapping News Narratives Using LLMs and Narrative-Structured Text Embeddings [0.0]
構造主義言語理論に基づく数値的物語表現を導入する。
オープンソースLLMを用いてアクタントを抽出し,それをナラティブ構造化テキスト埋め込みに統合する。
本稿では,イスラエル・パレスチナ紛争に関するアル・ジャジーラとワシントン・ポストの新聞記事5000件を例に,本手法の分析的考察を紹介する。
論文 参考訳(メタデータ) (2024-09-10T14:15:30Z) - Are Large Language Models Capable of Generating Human-Level Narratives? [114.34140090869175]
本稿ではストーリーテリングにおけるLLMの能力について考察し,物語の展開とプロットの進行に着目した。
本稿では,3つの談話レベルの側面から物語を分析するための新しい計算フレームワークを提案する。
談話機能の明示的な統合は、ニューラルストーリーテリングの40%以上の改善によって示されるように、ストーリーテリングを促進することができることを示す。
論文 参考訳(メタデータ) (2024-07-18T08:02:49Z) - Paragraph-level Commonsense Transformers with Recurrent Memory [77.4133779538797]
物語からコヒーレントなコモンセンス推論を生成するために,段落レベルの情報を含む談話認識モデルを訓練する。
以上の結果から,PARA-COMETは文レベルのベースライン,特にコヒーレントかつ新規な推論に優れていた。
論文 参考訳(メタデータ) (2020-10-04T05:24:12Z) - Abstractive Summarization of Spoken and Written Instructions with BERT [66.14755043607776]
本稿では,BERTSumモデルの最初の対話型言語への応用について述べる。
我々は多種多様な話題にまたがるナレーションビデオの抽象要約を生成する。
我々は、これをインテリジェントな仮想アシスタントの機能として統合し、要求に応じて文字と音声の両方の指導内容の要約を可能にすることを想定する。
論文 参考訳(メタデータ) (2020-08-21T20:59:34Z) - CompRes: A Dataset for Narrative Structure in News [2.4578723416255754]
ニュースメディアにおける物語構造のための最初のデータセットであるCompResを紹介する。
アノテーション付きデータセットを使用して、複数の教師付きモデルをトレーニングし、異なる物語要素を識別します。
論文 参考訳(メタデータ) (2020-07-09T15:21:59Z) - Screenplay Summarization Using Latent Narrative Structure [78.45316339164133]
本稿では,物語の基盤となる構造を一般教師なし・教師付き抽出要約モデルに明示的に組み込むことを提案する。
重要な物語イベント(転回点)の観点で物語構造を定式化し、脚本を要約するために潜伏状態として扱う。
シーンレベルの要約ラベルを付加したテレビ画面のCSIコーパスの実験結果から,潜角点がCSIエピソードの重要な側面と相関していることが判明した。
論文 参考訳(メタデータ) (2020-04-27T11:54:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。