論文の概要: MoCA-Agent: A Market-of-Claims Code Agent for Financial and Numerical Reasoning
- arxiv url: http://arxiv.org/abs/2606.11537v2
- Date: Wed, 17 Jun 2026 21:27:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-19 13:55:51.40572
- Title: MoCA-Agent: A Market-of-Claims Code Agent for Financial and Numerical Reasoning
- Title(参考訳): MoCA-Agent:金融・数値推論のためのマーケット・オブ・クレームコードエージェント
- Authors: Abdelrahman Abdallah, AbdelRahim A. Elmadany, Sameh Al Natour, Hasan Cavusoglu, Adam Jatowt, Muhammad Abdul-Mageed,
- Abstract要約: textscMOCA-Agentは、フリーフォームのマルチエージェントの議論をクレームレベルの検証に置き換える、有望なコードエージェントである。
このシステムは、各質問をタイプされた原子的クレームに分解し、専門家のトレーダーにそれらのクレームの売買を依頼し、信頼度の高い受け入れ/拒絶決定へと命令をクリアする。
コード認識検証器は、実行、構造整合性、一般的な金銭的推論エラーのプログラムをチェックする。
- 参考スコア(独自算出の注目度): 47.751319722749116
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Financial and tabular question answering requires more than fluent reasoning: answers must be grounded in the exact facts, formulas, units, signs, and scales that support them. A single misread cell or incorrect operation can silently produce a plausible but wrong result. We introduce \textsc{MOCA-Agent}, a market-of-claims code agent that replaces free-form multi-agent debate with claim-level verification. The system decomposes each question into typed atomic claims, asks specialist trader agents to buy or sell those claims, clears their orders into confidence-weighted accept/reject decisions, and synthesizes an executable Python program from market-supported evidence. A code-aware verifier then checks the program for execution, structural consistency, and common financial reasoning errors, with at most one market-aware repair round. Across ten public benchmarks spanning financial numerical reasoning, general tabular reasoning, ESG question answering, and multimodal chart reasoning, \textsc{MOCA-Agent} achieves strong performance using a fixed Qwen3.6-27B backbone, including $78.3\%$ on FinQA, $76.0\%$ on FinanceMath, $71.2\%$ on MultiHiertt, $86.9\%$ on ESGenius, and $85.6\%$ average on FinChart-Bench. These results show that aggregating evidence at the level of atomic claims, rather than whole answers, improves robustness in high-stakes numerical reasoning.\footnote{The code and data are available: https://github.com/UBC-NLP/MoCA-Agent.
- Abstract(参考訳): 答えは、それらをサポートする正確な事実、公式、単位、記号、スケールに基礎を置いていなければならない。
単一の誤読セルまたは誤読操作は、黙秘的に妥当だが間違った結果を生み出すことができる。
本稿では,フリーフォームなマルチエージェント議論をクレームレベルの検証に置き換える,マーケット・オブ・プレイスなコードエージェントである‘textsc{MOCA-Agent} を紹介する。
このシステムは、各質問をタイプされた原子的クレームに分解し、専門家のトレーダーにそれらのクレームの売買を依頼し、信頼度に富んだアクセプション/リジェクト決定に命令をクリアし、市場が支持する証拠から実行可能なPythonプログラムを合成する。
コード認識検証器は、実行、構造整合性、一般的な金銭的推論エラーのプログラムをチェックする。
金融数値推論、一般的な表式推論、ESG質問応答、マルチモーダルチャート推論を含む10の公開ベンチマークで、固定されたQwen3.6-27Bバックボーンを使用して、$78.3\%、$76.0\%、$76.0\%、$71.2\%、$8.9\%、$8.9\%、$8.6\%、$8.6\%、$8.6\%をFinChart-Benchで、高いパフォーマンスを達成する。
これらの結果は、全回答ではなく、原子クレームのレベルでの証拠の集約が、高い数値的推論において堅牢性を向上させることを示している。
https://github.com/UBC-NLP/MoCA-Agent
関連論文リスト
- TensorBench: Benchmarking Coding Agents on a Compiler-Based Tensor Framework [0.9012337166501982]
CohenBenchはオープンソースのコンパイラベースのフレームワーク上のタスクのベンチマークである。
エージェントのパッチを適用して、フレームワークのテストスイートを実行することで、各実行をグレードする。
3つのフロンティアモデルファミリーと1つのオープンウェイトモデルにまたがる7つの符号化エージェントを評価した。
論文 参考訳(メタデータ) (2026-06-04T01:42:40Z) - Verus-SpecGym: An Agentic Environment for Evaluating Specification Autoformalization [26.123396123145415]
LLMエージェントが非公式なプログラミング問題を忠実な形式仕様に変換することができるかどうか、仕様自動書式化について検討する。
Codeforces問題から派生した581の仕様記述タスクのベンチマークであるVerus-SpecBenchを紹介する。
フェールモードの解析は、モデル生成仕様が重要な入力仮定を受け入れ、誤った出力を受け入れ、有効な仕様を拒否できることを示している。
論文 参考訳(メタデータ) (2026-05-26T02:12:48Z) - Agentic Retrieval-Augmented Generation for Financial Document Question Answering [7.56842616602779]
FinAgent-RAGは、反復的な検索推論ループを自己組織化してオーケストレーションするエージェントRAGフレームワークである。
コントラシティブ・ファイナンシャル・レトリバー(Contrastive Financial Retriever)は、意味的には似ているが数値的に異なる金融パスを区別するために、厳しい負の採掘で訓練されたコントラシティブ・ファイナンシャル・レトリバーを統合している。
76.81%、78.46%、74.96%の精度で最強のベースラインを5.62-9.32ポイント上回っている。
論文 参考訳(メタデータ) (2026-05-06T19:59:51Z) - Time Series Augmented Generation for Financial Applications [0.10499611180329804]
本稿では,金融時系列分析のためのエージェントの推論を厳格に評価するための新しい評価手法とベンチマークを提案する。
本手法を我々のフレームワークであるTime Series Augmented Generationを用いた大規模実証研究に適用する。
その結果,幻覚を最小限に抑えることで,ほぼ完璧な道具使用精度を達成できることが示唆された。
論文 参考訳(メタデータ) (2026-04-21T16:20:59Z) - Omanic: Towards Step-wise Evaluation of Multi-hop Reasoning in Large Language Models [60.418191092851636]
OmanicはオープンドメインのマルチホップQAリソースであり、推論プロセスを分析するための構造アノテーションとして分解されたサブクエストと中間回答を提供する。
10,296個の機械によるトレーニング例(Omanic Synth)と967個の専門家による注釈付き評価例(OmanicBench)を含む。
論文 参考訳(メタデータ) (2026-03-17T15:23:37Z) - FLARE: Faithful Logic-Aided Reasoning and Exploration [47.46564769245296]
タスク分解を用いて問題空間をトラバースする新しい手法を提案する。
我々はLarge Language Modelsを使ってソリューションを計画し、クエリを事実に軟式化し、論理プログラミングコードを使って述語する。
提案手法は,生成したコードに対する推論プロセスの忠実度を計算し,外部の解法に頼らずにマルチホップ探索のステップを解析する。
論文 参考訳(メタデータ) (2024-10-14T19:39:11Z) - DCR: Divide-and-Conquer Reasoning for Multi-choice Question Answering with LLMs [9.561022942046279]
大規模言語モデル(LLM)の推論能力を高めるため,DCR(Divide and Conquer Reasoning)を提案する。
まず、信頼性スコア(mathcalCS$)に基づいて質問を2つのサブセットに分類する。
特に,質問を信頼性スコア(mathcalCS$)に基づいて2つのサブセットに分類する。
論文 参考訳(メタデータ) (2024-01-10T14:38:46Z) - FinanceBench: A New Benchmark for Financial Question Answering [28.865821741574237]
FinanceBenchは、オープンブックの財務質問応答(QA)上でのLLMのパフォーマンスを評価するための、第一級テストスイートである。
公開企業に関する10,231の質問と、それに対応する回答と証拠の文字列で構成されている。
ファイナンスベンチから150例のサンプルを用いて16のアートモデル構成を検証し,手動で回答を確認した。
論文 参考訳(メタデータ) (2023-11-20T17:28:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。