Fugu-MT 論文翻訳(概要): LEDGER: A Long-Context Benchmark of Corporate Annual Reports for Grounded Financial Retrieval and Extraction

論文の概要: LEDGER: A Long-Context Benchmark of Corporate Annual Reports for Grounded Financial Retrieval and Extraction

arxiv url: http://arxiv.org/abs/2606.13100v1
Date: Thu, 11 Jun 2026 09:28:43 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-12 15:55:27.696404
Title: LEDGER: A Long-Context Benchmark of Corporate Annual Reports for Grounded Financial Retrieval and Extraction
Title（参考訳）: LEDGER: 財務検索と抽出のための企業年次報告書の長期的ベンチマーク
Authors: Charles Moslonka, Amaury de Vitry, Arthur Garnier, Hicham Randrianarivo, Emmanuel Malherbe,
Abstract要約: LEDGERは、デジタル化された企業年次レポート4,999件のコーパスである。各レポートには31の統合財務関連レポートが記載されている。難易度スペクトルにまたがる3つの評価ベンチマークを導出する。
参考スコア（独自算出の注目度）: 0.18569884696859787
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Finance reporting is a natural proving ground for large language models, and the very-long-context capabilities of recent models across all sizes make rigorous evaluation in this domain an increasingly pressing need. Yet most public financial resources reduce the task to plain-text SEC 10-K filings paired with a handful of question-answer items. We release LEDGER (Long-context Evaluation of Documents for Grounded Extraction and Retrieval), a corpus of 4,999 digitized corporate annual reports - full documents with figures, tables, and narrative, not just regulatory filings. Each report is labeled with 31 consolidated financial KPIs to be extracted and linked to the market's reaction at the earnings date. From this data we derive three evaluation benchmarks spanning the difficulty spectrum: a pure page-level KPI retrieval task with TREC-style relevance judgments over 118,048 questions in natural language, a conversational "needle-in-a-haystack" single-value lookup, and a full KPI extraction task, both from long, numerically dense reports. We additionally provide human OCR-quality annotations with inter-annotator agreement and the complete extraction, validation, and scoring toolchain. We further demonstrate the dataset's research utility with a case study linking CEO-letter rhetoric to post-publication market impact.
Abstract（参考訳）: ファイナンスレポートは大きな言語モデルの自然な証明基盤であり、あらゆるサイズにわたる最近のモデルの非常に長いコンテキスト能力は、この領域における厳密な評価をますます押し付けている。しかし、ほとんどの公的金融資源は、タスクを、いくつかの質問に答える項目と組み合わせて、平文でSEC 10-Kの申請書に還元している。 LEDGER(Long-context Evaluation of Documents for Grounded extract and Retrieval)は、デジタル化された企業年次レポート4,999件のコーパスです。各レポートには31の統合金融KPIがラベル付けされ、利益の日に市場反応と関連付けられている。このデータから, TRECスタイルの関連判断を118,048問以上持つページレベルのKPI検索タスク, 会話型の"needle-in-a-haystack"単一値検索, 長い, 数値的なレポートから完全なKPI抽出タスクの3つを抽出した。さらに、アノテーション間の合意と完全な抽出、検証、スコアリングツールチェーンを備えた人間のOCR品質アノテーションも提供します。さらに、このデータセットの研究ユーティリティを、CEO-レターレトリックとポストパブリケーション市場の影響を結びつけるケーススタディで実証する。

関連論文リスト

Enhancing Business Analytics through Hybrid Summarization of Financial Reports [0.152292571922932]
財務報告と決算報告には大量の構造化情報と半構造化情報が含まれている。本稿では,抽出的および抽象的手法を組み合わせて,簡潔かつ現実的に信頼性の高い要約を生成するハイブリッド要約フレームワークを提案する。これらの知見は、長い財務文書を有効活用できるビジネスインテリジェンスに蒸留する実用的な要約システムの開発を支援するものである。
論文参考訳（メタデータ） (2025-12-28T16:25:12Z)
How Far Are We from Genuinely Useful Deep Research Agents? [48.596990593729]
Deep Research Agents (DRA) は、反復的な情報検索と合成によってアナリストレベルのレポートを自動的に生成することを目的としている。レポート合成の現在のベンチマークは、タスクの複雑さと主観的なメトリクスに悩まされている。我々は,100個の人為的な研究タスクからなる改良されたベンチマークであるFINDER(FinDER)について述べる。
論文参考訳（メタデータ） (2025-12-01T17:58:59Z)
Evaluating Large Language Models for Stance Detection on Financial Targets from SEC Filing Reports and Earnings Call Transcripts [45.13099538394587]
我々は,債務,1株当たり利益(EPS),販売という3つの中核的財務指標に着目したスタンス検出のための文レベルのコーパスを導入する。文章は10-Kの年次報告とECTから抽出され, 高度なChatGPT-o3-proモデルを用いてスタンスにラベル付けされた。このコーパスを用いて、ゼロショット、少数ショット、およびCoT(Chain-of-Thought)の促進戦略を用いて、現代大言語モデル(LLM)の体系的評価を行う。
論文参考訳（メタデータ） (2025-10-27T16:03:20Z)
FinAgentBench: A Benchmark Dataset for Agentic Retrieval in Financial Question Answering [57.18367828883773]
FinAgentBenchは、ファイナンスにおける多段階推論によるエージェント検索を評価するためのベンチマークである。このベンチマークは、S&P-500上場企業に関する26Kのエキスパートアノテート例から成っている。我々は,最先端モデルの集合を評価し,対象の微調整がエージェント検索性能を大幅に向上することを示す。
論文参考訳（メタデータ） (2025-08-07T22:15:22Z)
FinDER: Financial Dataset for Question Answering and Evaluating Retrieval-Augmented Generation [65.04104723843264]
ファイナンスにおけるRetrieval-Augmented Generation(RAG)に適したエキスパート生成データセットであるFinDERを提案する。 FinDERは、ドメインの専門家による検索関連証拠の注釈付けに重点を置いており、5,703のクエリ・エビデンス・アンサー・トリプルを提供している。大きなコーパスから関連する情報を取得するためにモデルに挑戦することで、FinDERはRAGシステムを評価するためのより現実的なベンチマークを提供する。
論文参考訳（メタデータ） (2025-04-22T11:30:13Z)
TROVE: A Challenge for Fine-Grained Text Provenance via Source Sentence Tracing and Relationship Classification [32.958143806547234]
テキストpROVEnance(TROVE)チャレンジを導入し、ターゲットテキストの各文を特定のソース文にトレースする。 TROVEをベンチマークするために、11の多様なシナリオをカバーする3つの公開データセットを活用してデータセットを構築します。我々は、直接的プロンプトおよび検索拡張パラダイムの下で11個のLLMを評価する。
論文参考訳（メタデータ） (2025-03-19T15:09:39Z)
Evaluating Large Language Models on Financial Report Summarization: An Empirical Study [9.28042182186057]
我々は3つの最先端大言語モデル(LLM)の比較研究を行っている。我々の主な動機は、これらのモデルがどのように金融の中で活用できるかを探求することであり、正確さ、文脈的関連性、誤った情報や誤解を招く情報に対する堅牢性を要求する分野である。本稿では,定量的メトリクス(精度,リコールなど)と質的分析(コンテキスト適合性,一貫性など)を統合し,各モデルの出力品質の全体像を提供する,革新的な評価フレームワークを提案する。
論文参考訳（メタデータ） (2024-11-11T10:36:04Z)
TAT-QA: A Question Answering Benchmark on a Hybrid of Tabular and Textual Content in Finance [71.76018597965378]
TAT-QAと呼ばれるタブラデータとテクスチャデータの両方を含む新しい大規模な質問応答データセットを構築します。本稿では,テーブルとテキストの両方を推論可能な新しいQAモデルであるTAGOPを提案する。
論文参考訳（メタデータ） (2021-05-17T06:12:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。