論文の概要: FinAcumen: Financial Multimodal Reasoning via Self-Evolving Experience Memory Harness
- arxiv url: http://arxiv.org/abs/2606.17642v2
- Date: Mon, 22 Jun 2026 05:24:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-24 16:10:14.567046
- Title: FinAcumen: Financial Multimodal Reasoning via Self-Evolving Experience Memory Harness
- Title(参考訳): FinAcumen: 自己進化型メモリハーネスによる金融マルチモーダル推論
- Authors: Pianran Guo, Pengcheng Zhou, Yucheng Jian, Shuhua Chen, Zhonfliang Yang, Linna Zhou,
- Abstract要約: FinAcumenは、ツール拡張マルチモーダル推論のための選択的なエクスペリエンスメモリを中心にした、金銭的推論フレームワークである。
FinAcumenは、事前の軌跡からの財政的に根ざした推論経験を蓄積し、成功した戦略を蒸留し、失敗に起因した注意ルールを永続的なメモリバンクに蓄積する。
4つの金融マルチモーダル推論ベンチマークで、FinAcumenは凍結した8Bビジョン言語モデルを改善している。
- 参考スコア(独自算出の注目度): 8.305723007493903
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Financial multimodal reasoning requires agents to coordinate numerical computation, retrieval, visual interpretation, and temporal grounding across heterogeneous evidence sources. Existing tool-augmented agents improve execution fidelity, yet remain largely stateless across episodes, repeatedly rediscovering reasoning strategies and failure patterns. In high-stakes financial settings, this leads to unreliable tool routing, noisy retrieval, and hallucination-prone reasoning. We present FinAcumen, a financial reasoning agent framework centered on selective experience memory for tool-augmented multimodal reasoning. FinAcumen accumulates financially grounded reasoning experience from prior trajectories, distilling successful strategies and failure-derived cautionary rules into a persistent memory bank. During inference, retrieved experiences condition reasoning only when semantic relevance exceeds a calibrated threshold, while irrelevant memory is explicitly suppressed through a fallback mechanism. A deterministic financial tool environment further grounds numerical computation, retrieval, visual decoding, and answer verification.Across four financial multimodal reasoning benchmarks, FinAcumen consistently improves a frozen 8B vision-language model over finance-specialized models and approaches leading proprietary general-purpose models. Further analysis shows that selective experience activation improves reasoning reliability under retrieval uncertainty. Our code is anonymously available at https://anonymous.4open.science/r/FinAcumen
- Abstract(参考訳): 金融マルチモーダル推論は、不均一な証拠源をまたいだ数値計算、検索、視覚的解釈、時間的グラウンドの調整をエージェントに要求する。
既存のツール拡張エージェントは実行の忠実さを改善するが、エピソード間でほとんどステートレスであり、推論戦略と障害パターンを再発見する。
高い財務状況下では、信頼性の低いツールルーティング、ノイズ検索、幻覚が原因で引き起こされる。
ツール強化マルチモーダル推論のための選択経験記憶に着目した金融推論エージェントFinAcumenを提案する。
FinAcumenは、事前の軌跡からの財政的に根ざした推論経験を蓄積し、成功した戦略を蒸留し、失敗に起因した注意ルールを永続的なメモリバンクに蓄積する。
推論中、検索された経験条件推論は、セマンティック関連が校正しきい値を超えた場合にのみ行われ、非関連メモリはフォールバック機構によって明示的に抑制される。
4つの財務マルチモーダル推論ベンチマークにおいて、FinAcumenは金融特化モデルとプロプライエタリな汎用モデルに先行するアプローチよりも、凍結した8B視覚言語モデルを改善する。
さらに分析したところ、選択的な経験活性化は、検索の不確実性の下で推論信頼性を向上させることが示された。
私たちのコードはhttps://anonymous.4open.science/r/FinAcumenで匿名で利用可能です。
関連論文リスト
- Early Stopping for Large Reasoning Models via Confidence Dynamics [55.67938134245981]
大きな推論モデルは複雑な問題を解決するために長い連鎖生成に依存している。
重要な課題は、いつモデルが推論を止めて最終回答を生み出すべきかを決定することです。
中間回答の信頼性のダイナミクスを利用して推論をいつ終了するかを判断する早期停止手法であるCoDE-Stopを提案する。
論文 参考訳(メタデータ) (2026-04-06T17:59:45Z) - Balancing Faithfulness and Performance in Reasoning via Multi-Listener Soft Execution [79.98699884805636]
Reasoning Execution by Multiple Listeners (REMUL) は多人数の強化学習手法である。
REMULは、推論が他の当事者に従えるかがより忠実になるという仮説に基づいている。
スピーカーは、リスナーにとって明らかな推論を生み出すことで報われます。
論文 参考訳(メタデータ) (2026-02-18T02:55:55Z) - Bridging the Arithmetic Gap: The Cognitive Complexity Benchmark and Financial-PoT for Robust Financial Reasoning [11.522192050185568]
大規模言語モデルは,「認知的幻覚」と「認知的崩壊」というシステム的失敗モードに悩まされる
実世界95の中国Aシェア年次レポートから構築したデータセットをベースとした,堅牢な評価フレームワークであるCognitive Complexity Benchmark(CCB)を紹介する。
本稿では,これらの障害に対処するための反復的デュアル・パース・ファイナンシャル・PoTフレームワークを提案する。
論文 参考訳(メタデータ) (2026-01-29T01:33:33Z) - Analyzing Reasoning Consistency in Large Multimodal Models under Cross-Modal Conflicts [74.47786985522762]
テキスト慣性(textual inertia)と呼ばれる重要な障害モードを特定し、矛盾する視覚的証拠を無視しながら、モデルは間違ったテキストに盲目的に固執する傾向がある。
本稿では,多種多様なLMMの推論連鎖に摂動を構造的に注入するLogicGraph摂動プロトコルを提案する。
その結果,10%未満の症例で自己修正が成功し,主に視覚的テキスト誤りの伝播に寄与することが判明した。
論文 参考訳(メタデータ) (2026-01-07T16:39:34Z) - ReasonBENCH: Benchmarking the (In)Stability of LLM Reasoning [2.1461777157838724]
ReasonBENCHは,大規模言語モデル(LLM)推論における基盤不安定性を定量化する最初のベンチマークである。
異なる領域からのタスク全体で、推論戦略とモデルの大部分は高い不安定性を示す。
我々はさらに、解答率と安定性のトレードオフに対するプロンプト、モデル家族、スケールの影響を解析する。
論文 参考訳(メタデータ) (2025-12-08T18:26:58Z) - FinEval-KR: A Financial Domain Evaluation Framework for Large Language Models' Knowledge and Reasoning [29.526711154687945]
FinEval-KRは、大規模言語モデルの知識と推論能力の定量化のための新しい評価フレームワークである。
認知科学に触発されて,様々な認知レベルのタスクを推論する能力を分析する認知スコアを提案する。
実験の結果,LLM推論能力と高次認知能力が推論精度に影響を与える中核的な要因であることが判明した。
論文 参考訳(メタデータ) (2025-06-18T06:21:50Z) - FinHEAR: Human Expertise and Adaptive Risk-Aware Temporal Reasoning for Financial Decision-Making [58.04602111184477]
FinHEARは、人間の専門知識と適応的リスク認識推論のためのフレームワークである。
専門のエージェントを編成し、過去の傾向を分析し、現在の出来事を解釈し、専門家にインフォームドされた前例を検索する。
金融データセットの実証的な結果から、FinHEARはトレンド予測やトレーディングタスクにおいて、一貫して強いベースラインを上回ります。
論文 参考訳(メタデータ) (2025-06-10T04:06:51Z) - FinChain: A Symbolic Benchmark for Verifiable Chain-of-Thought Financial Reasoning [82.7292329605713]
FinChainは、ファイナンスにおける検証可能なChain-of-Thought評価のために特別に設計された最初のベンチマークである。
12の金融ドメインに58のトピックがあり、それぞれがパラメータ化されたシンボリックテンプレートと実行可能なPythonトレースで表現されている。
FinChainは、多段階の財務推論における永続的な弱点を明らかにし、信頼できる、解釈可能な、検証可能な金融AIを開発するための基盤を提供する。
論文 参考訳(メタデータ) (2025-06-03T06:44:42Z) - Deriving Strategic Market Insights with Large Language Models: A Benchmark for Forward Counterfactual Generation [55.2788567621326]
本稿では,FIN-FORCE-FINancial Forward Counterfactual Evaluationを提案する。
FIN-FORCEは金融ニュースの見出しをまとめることで、LLMベースの対実生成を支援する。
これにより、将来の市場展開を探索し、予測するためのスケーラブルで自動化されたソリューションの道を開くことができる。
論文 参考訳(メタデータ) (2025-05-26T02:41:50Z) - Understanding Financial Reasoning in AI: A Multimodal Benchmark and Error Learning Approach [6.911426601915051]
本稿では、金融特化文脈におけるAIモデル、特に大規模言語とマルチモーダルモデルがどの程度の理由を持つかを評価するために設計された新しいベンチマークを紹介する。
本稿では,過去のモデル誤りやフィードバックを利用して,微調整を必要とせず,推論をガイドする誤り認識学習フレームワークを提案する。
この結果は、視覚的理解と数学的論理学における永続的な課題を強調し、金融AIシステムにおける自己反射的推論の可能性を実証している。
論文 参考訳(メタデータ) (2025-04-22T07:25:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。