論文の概要: IPO Finance Agent: Evaluation of LLM Financial Analysts beyond Finance Agent v2, with Automated Rubric Generation -- the Case of the SpaceX (SPCX) IPO
- arxiv url: http://arxiv.org/abs/2606.23032v1
- Date: Mon, 22 Jun 2026 08:42:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-24 16:10:15.173598
- Title: IPO Finance Agent: Evaluation of LLM Financial Analysts beyond Finance Agent v2, with Automated Rubric Generation -- the Case of the SpaceX (SPCX) IPO
- Title(参考訳): IPO Finance Agent: LLM Financial Analysts beyond Finance Agent v2, with Automated Rubric Generation -- the SpaceX (SPCX) IPO
- Authors: Mostapha Benhenda,
- Abstract要約: ファイナンスエージェント v2 (Vals AI) が Anthropic Claude と OpenAI ChatGPT 両方のフロンティア言語モデルを評価する基準ベンチマークとして登場した。
タスクドメインと検索アーキテクチャの2つの方向に沿ってファイナンスエージェントフレームワークを拡張したIPOファイナンスエージェントを紹介します。
最高のパフォーマンス評価モデルであるAlibaba Qwen 3.7 Maxは、クエリ毎に79.4%の精度で0.30ドルに達し、その結果生まれたフロンティアであるXiaomi MiMo-2.5 Proにおける最もコスト効率のよいモデルであるXiaomi MiMo-2.5 Proは、クエリ毎に0.05ドルというやや低い精度(76.8%)に達した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Finance Agent v2 (by Vals AI) has emerged as the reference benchmark for evaluating both Anthropic Claude and OpenAI ChatGPT frontier language models on financial tasks. However, it narrowly deals with periodic reporting from publicly traded companies (SEC 10-K and 10-Q filings), and its agentic harness relies on naive, unenriched chunk retrieval. Neither the task design nor the retrieval approach addresses the distinct challenges of IPO due diligence. SEC S-1 filings combine historical financial statements, governance structures, pro forma and common-control accounting treatments, capital-formation narratives, and underwriting-sensitive risk disclosures within substantially longer documents than typical periodic filings. That is why we introduce IPO Finance Agent, which extends the Finance Agent v2 framework along two directions: task domain and retrieval architecture. During our experiments, the original Finance Agent v2 harness basically failed to deliver any output related to the SpaceX S-1 filing, due to document length. We therefore had to improve the agentic harness with contextual retrieval, a more realistic and industry-standard approach for long documents. We also built a dataset of 1,000 IPO-diligence questions, and publicly release 70 questions on the SpaceX (SPCX) S-1 filing to support reproducibility, while the remainder are held private to guard against benchmark contamination. In addition, we introduce an evaluator-optimizer pipeline to automatically generate evaluation rubrics for the benchmark: candidate facts are extracted from an ensemble of independently-generated model answers to each question, consolidated into draft criteria, then automatically audited for omissions, hallucinations, mistiered items, and redundancy, with LLM feedback driving iterative repair, targeted enrichment, and deduplication. Human experts only review final rubrics before deployment. Results show that the best-performing evaluated model, Alibaba Qwen 3.7 Max, reaches 79.4% accuracy at $0.30 per query, and the most cost-efficient model on the resulting Pareto frontier, Xiaomi MiMo-2.5 Pro, reaches slightly lower accuracy (76.8%) at $0.05 per query. Both exceed the current Finance Agent v2 leaderboard ceiling-Google Gemini 3.5 Flash at 57.9% for $2.51 per querywhile undercutting even FABv2's cheapest entry (MiniMax M3: 48.3% at $0.32) on cost-efficiency. Code and data are released on GitHub: https://github.com/benstaf/ipoagent
- Abstract(参考訳): ファイナンスエージェント v2 (Vals AI) は、財務タスクにおける Anthropic Claude と OpenAI ChatGPT 両方のフロンティア言語モデルを評価する基準ベンチマークとして登場した。
しかし、公開企業(SEC 10-Kと10-Qの申請書)からの定期的な報告を狭義に扱い、そのエージェントハーネスは単純で非リッチなチャンク検索に依存している。
タスクデザインも検索アプローチも、IPOのデュー・ディリジェンス(double due Diligence)という別の課題に対処するものではない。
SEC S-1書類は、歴史的財務文書、統治構造、プロ・フォマおよび共通管理会計処理、資本形成の物語、そして典型的な定期的な文書よりもかなり長い文書内での引受に敏感なリスク開示を組み合わせている。
これは金融エージェントv2フレームワークを拡張して、タスクドメインと検索アーキテクチャという2つの方向に進むものです。
今回の実験では、もともとのファイナンスエージェント v2は、文書の長さのため、基本的にSpaceX S-1の申請に関する出力を届けられなかった。
したがって、長い文書に対してより現実的で業界標準のアプローチである文脈検索を用いてエージェントハーネスを改善する必要があった。
また、1000のIPOディリジェンス質問のデータセットを構築し、再現性をサポートするためにSpaceX(SPCX)のS-1申請書に70の質問を公開しました。
さらに,各質問に対して独立に生成したモデル回答のアンサンブルから候補事実を抽出し,ドラフト基準に集約し,排便,幻覚,過度な項目,冗長性を自動監査し,LCMフィードバックによる反復的修復,目標エンリッチメント,重複度を推定する。
人間の専門家は、配備前に最終破片のみをレビューする。
その結果、最高のパフォーマンス評価モデルであるAlibaba Qwen 3.7 Maxは、クエリ毎に79.4%の精度で0.30ドルに達し、結果のParetoフロンティアであるXiaomi MiMo-2.5 Pro上で最もコスト効率のよいモデルであるXiaomi MiMo-2.5 Proは、クエリ毎に0.05ドルというやや低い精度(76.8%)に達した。
どちらも現在のファイナンスエージェント v2 の天井版である Google Gemini 3.5 Flash を57.9%で、クエリ毎に$2.51で上回っているが、FABv2の最も安いエントリー(MiniMax M3: 48.3% at $0.32)でさえコスト効率が低い。
コードとデータはGitHubでリリースされている。
関連論文リスト
- AgentFinVQA: A Deployable Multi-Agent Pipeline for Auditable Financial Chart QA [7.135926644099901]
我々はAgentFinVQAを提案する。AgentFinVQAはマルチエージェントパイプラインで、各クエリをプランニング、OCR、レジェンドグラウンド、ビジュアルインスペクション、検証に分解する。
FinMMEでは、AgentFinVQAはプロプライエタリなバックボーンを持つゼロショットベースラインにマッチするプライマリバックボーンよりも$+7.68$ ppを改善している。
誤り分析は、疑問の誤解、伝説の混乱、抽出誤りが失敗の3分の2近くを占めていることを示している。
論文 参考訳(メタデータ) (2026-06-18T04:33:07Z) - ComplexMCP: Evaluation of LLM Agents in Dynamic, Interdependent, and Large-Scale Tool Sandbox [61.862814740220806]
$textbfComplexMCP$は厳格な条件下でエージェントを評価するために設計されたベンチマークである。
Model Context Protocol (MCP)上に構築された$textbfComplexMCP$は300以上の精巧にテストされたツールを提供する。
論文 参考訳(メタデータ) (2026-05-11T16:20:51Z) - AgenticRAG: Agentic Retrieval for Enterprise Knowledge Bases [0.7176906280023592]
本稿では,企業知識ベース上での検索と分析のためのエージェントハーネスであるAgenticRAGを提案する。
我々のアプローチは、既存のエンタープライズ検索インフラの上に軽量なハーネスを積み重ねることで、この過度さを軽減します。
本研究は,実環境における実運用環境への適合性を示すものである。
論文 参考訳(メタデータ) (2026-05-07T00:39:22Z) - Agentic Retrieval-Augmented Generation for Financial Document Question Answering [7.56842616602779]
FinAgent-RAGは、反復的な検索推論ループを自己組織化してオーケストレーションするエージェントRAGフレームワークである。
コントラシティブ・ファイナンシャル・レトリバー(Contrastive Financial Retriever)は、意味的には似ているが数値的に異なる金融パスを区別するために、厳しい負の採掘で訓練されたコントラシティブ・ファイナンシャル・レトリバーを統合している。
76.81%、78.46%、74.96%の精度で最強のベースラインを5.62-9.32ポイント上回っている。
論文 参考訳(メタデータ) (2026-05-06T19:59:51Z) - Holistic Agent Leaderboard: The Missing Infrastructure for AI Agent Evaluation [87.47155146067962]
数百のタスクで並列評価をオーケストレーションする,標準化された評価ハーネスを提供する。
モデル、足場、ベンチマークにまたがる3次元解析を行う。
私たちの分析では、ほとんどのランで精度を低下させる高い推論努力など、驚くべき洞察が示されています。
論文 参考訳(メタデータ) (2025-10-13T22:22:28Z) - FinReflectKG - MultiHop: Financial QA Benchmark for Reasoning with Knowledge Graph Evidence [0.0]
FinReflectKG - FinReflectKG上に構築されたベンチマークであるMultiHop。
我々は、KGから正確な裏付けのある財務アナリストスタイルの質問を生成する。
推論モデルと非推論モデルの両方において、KG誘導による正確な検索は実質的な利得をもたらす。
論文 参考訳(メタデータ) (2025-10-03T11:19:31Z) - FinAgentBench: A Benchmark Dataset for Agentic Retrieval in Financial Question Answering [57.18367828883773]
FinAgentBenchは、ファイナンスにおける多段階推論によるエージェント検索を評価するためのベンチマークである。
このベンチマークは、S&P-500上場企業に関する26Kのエキスパートアノテート例から成っている。
我々は,最先端モデルの集合を評価し,対象の微調整がエージェント検索性能を大幅に向上することを示す。
論文 参考訳(メタデータ) (2025-08-07T22:15:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。