論文の概要: The Stanford EDGAR Filings Dataset: Reconstructing U.S. Corporate and Financial Disclosures into Layout-Faithful and Token-Efficient Pretraining Data
- arxiv url: http://arxiv.org/abs/2606.18192v2
- Date: Wed, 17 Jun 2026 17:09:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-18 13:57:35.228256
- Title: The Stanford EDGAR Filings Dataset: Reconstructing U.S. Corporate and Financial Disclosures into Layout-Faithful and Token-Efficient Pretraining Data
- Title(参考訳): Stanford EDGAR Filings Dataset:アメリカの企業および財務開示をLayout-Fithful and Token-Efficient Pretraining Dataに再構成する
- Authors: Nick Bettencourt, Xiaowei Ding, Kay Giesecke,
- Abstract要約: Stanford EDGAR Filingsデータセットは、SECの申請をレイアウトに忠実なMultiMarkdownに再構築したものである。
SEFDは、監査済みの財務声明、リスク開示、所有権報告書、会計ノート、および長期の事前訓練データとして利用可能な市場移動イベントの提出を行う。
我々は152Bの初期の公開スナップショットであるSEFD-v1をリリースし,550Bトークンと推定される18.5Mの大規模なアーカイブをコーパスレベルで解析した。
- 参考スコア(独自算出の注目度): 1.6404022072626985
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: As high-quality public web corpora become increasingly exhausted, clean long-context documents have become a scarce and expensive source of training data for large language models (LLMs). Existing long-context corpora are often proprietary and costly to acquire, synthetically generated, or concentrated in narrow domains such as programming. We introduce the Stanford EDGAR Filings Dataset (SEFD), an open reconstruction of SEC filings into layout-faithful MultiMarkdown for financial language modeling and evaluation. SEFD makes audited financial statements, risk disclosures, ownership reports, accounting notes, and market-moving event filings usable as long-context pretraining data and as a basis for financial reasoning, forecasting, compliance, and document understanding. The resulting corpus is token-efficient, model-ready, and has less than 0.1% overlap with Common Crawl-derived corpora. We release SEFD-v1, a 152B-token initial public snapshot, and provide corpus-level analyses of a larger 18.5M-filing archive estimated at 550B tokens. We further introduce two SEFD-derived benchmarks: EDGAR-Forecast, which evaluates filing-grounded numerical forecasting after model knowledge cutoffs, and EDGAR-OCR, which evaluates transcription of complex financial tables.
- Abstract(参考訳): 高品質なウェブコーパスが枯渇するにつれて、クリーンな長文文書は大規模言語モデル(LLM)のトレーニングデータの不足と高価な情報源となっている。
既存の長文コーパスは、しばしばプロプライエタリでコストがかかり、プログラミングのような狭い領域で取得、合成、集中する。
我々は、Stanford EDGAR Filings Dataset (SEFD)を導入し、SECの申請書をレイアウトに忠実なMultiMarkdownにオープンに再構築し、金融言語モデリングと評価を行う。
SEFDは、監査された財務声明、リスク開示、所有権報告書、会計ノート、市場移動イベントの提出を、長期の事前訓練データとして使用でき、財務分析、予測、コンプライアンス、文書理解の基盤として提供している。
得られたコーパスはトークン効率が高く、モデルレディであり、Common Crawl由来のコーパスと0.1%未満のオーバーラップがある。
我々は152Bの初期の公開スナップショットであるSEFD-v1をリリースし,550Bトークンと推定される18.5Mの大規模なアーカイブをコーパスレベルで解析した。
さらに、モデル知識遮断後の数値予測を行うEDGAR-Forecastと、複雑な財務表の書き起こしを評価するEDGAR-OCRの2つのSEFDベースベンチマークを紹介する。
関連論文リスト
- FinForge: Semi-Synthetic Financial Benchmark Generation [4.3298251304921775]
FinForgeは、金融特化評価ベンチマークを構築するための、スケーラブルで半合成的なパイプラインである。
我々はFinForge-5kというベンチマークを作成した。これは11のファイナンスにまたがる5000以上の質問応答対からなるベンチマークベンチマークである。
FinForge-5kは金銭的推論に大きな違いを示し、主要なモデルは80%近い精度で達成されている。
論文 参考訳(メタデータ) (2026-01-11T01:38:33Z) - Enhancing Business Analytics through Hybrid Summarization of Financial Reports [0.152292571922932]
財務報告と決算報告には大量の構造化情報と半構造化情報が含まれている。
本稿では,抽出的および抽象的手法を組み合わせて,簡潔かつ現実的に信頼性の高い要約を生成するハイブリッド要約フレームワークを提案する。
これらの知見は、長い財務文書を有効活用できるビジネスインテリジェンスに蒸留する実用的な要約システムの開発を支援するものである。
論文 参考訳(メタデータ) (2025-12-28T16:25:12Z) - FinAgentBench: A Benchmark Dataset for Agentic Retrieval in Financial Question Answering [57.18367828883773]
FinAgentBenchは、ファイナンスにおける多段階推論によるエージェント検索を評価するためのベンチマークである。
このベンチマークは、S&P-500上場企業に関する26Kのエキスパートアノテート例から成っている。
我々は,最先端モデルの集合を評価し,対象の微調整がエージェント検索性能を大幅に向上することを示す。
論文 参考訳(メタデータ) (2025-08-07T22:15:22Z) - FAITH: A Framework for Assessing Intrinsic Tabular Hallucinations in Finance [3.565466729914703]
金融に大規模言語モデル(LLM)をデプロイする上で、幻覚は依然として重要な課題である。
金融LLMにおける内因性幻覚を評価するための厳密でスケーラブルなフレームワークを開発する。
私たちの仕事は、より信頼性が高く信頼性の高い財務生成AIシステムを構築するための重要なステップとして役立ちます。
論文 参考訳(メタデータ) (2025-08-07T09:37:14Z) - FinDER: Financial Dataset for Question Answering and Evaluating Retrieval-Augmented Generation [65.04104723843264]
ファイナンスにおけるRetrieval-Augmented Generation(RAG)に適したエキスパート生成データセットであるFinDERを提案する。
FinDERは、ドメインの専門家による検索関連証拠の注釈付けに重点を置いており、5,703のクエリ・エビデンス・アンサー・トリプルを提供している。
大きなコーパスから関連する情報を取得するためにモデルに挑戦することで、FinDERはRAGシステムを評価するためのより現実的なベンチマークを提供する。
論文 参考訳(メタデータ) (2025-04-22T11:30:13Z) - FETILDA: An Effective Framework For Fin-tuned Embeddings For Long
Financial Text Documents [14.269860621624394]
本稿では,長い文書をチャンクに分割し,事前学習したLMを用いてチャンクをベクトル表現に処理・集約するディープラーニングフレームワークを提案し,実装する。
我々は、米国銀行からの10-Kの公開開示レポートの収集と、米国企業が提出した別のレポートのデータセットについて、我々の枠組みを評価した。
論文 参考訳(メタデータ) (2022-06-14T16:14:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。