論文の概要: Beyond Agent Architecture: Execution Assumptions and Reproducibility in LLM-Based Trading Systems
- arxiv url: http://arxiv.org/abs/2606.08285v1
- Date: Sat, 06 Jun 2026 18:14:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:06.018191
- Title: Beyond Agent Architecture: Execution Assumptions and Reproducibility in LLM-Based Trading Systems
- Title(参考訳): エージェントアーキテクチャを超えて: LLMベースのトレーディングシステムにおける実行可能性と再現性
- Authors: Junyi Yao, Zihao Zheng,
- Abstract要約: 本稿では,大規模言語モデル(LLM)トレーディング研究における実行リアリズムのトピックレビューと監査について述べる。
30の貿易関連一次研究をカバーする符号化されたエビデンスマトリックスは、ポイントインタイム制御、分割透明性、ホールドアウト評価、コストとターンオーバー処理、実行セマンティクス、宇宙の定義、アーティファクトリリースを評価するために使用される。
- 参考スコア(独自算出の注目度): 5.264406906731695
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large language models (LLMs) and agentic systems are increasingly proposed for financial trading, yet their reported performance remains difficult to compare because studies vary in data provenance, temporal split discipline, execution timing, turnover treatment, and transaction-cost modeling. This article presents a targeted topical review and reproducibility audit of execution realism in LLM-based trading research. A coded evidence matrix covering 30 trade-relevant primary studies is used to assess point-in-time controls, split transparency, held-out evaluation, cost and turnover treatment, execution semantics, universe definition, and artifact release. Across the audited sample, architecture reporting is generally clearer than the evaluation assumptions needed to judge whether a trading result is economically interpretable or reproducible. A 10-equity worked example is included only as a methodological scaffold to illustrate how explicit friction and timing choices can materially compress active-strategy results. The main conclusion is that the next useful step for LLM trading research is not only better agent design, but also clearer reporting standards for execution realism, reproducibility, and evaluation comparability.
- Abstract(参考訳): 大規模言語モデル (LLM) とエージェントシステム (エージェントシステム) は、金融取引においてますます提案されているが、データプロファイナンス、時間分割の規律、実行タイミング、ターンオーバー処理、トランザクションコストのモデリングなど、研究結果が異なるため、その性能の比較は困難である。
本稿では, LLMに基づくトレーディング研究における実行リアリズムのトピックレビューと再現性監査について述べる。
30の貿易関連一次研究をカバーする符号化されたエビデンスマトリックスは、ポイントインタイム制御、分割透明性、ホールドアウト評価、コストとターンオーバー処理、実行セマンティクス、宇宙の定義、アーティファクトリリースを評価するために使用される。
監査されたサンプル全体を通して、アーキテクチャレポートは、取引結果が経済的に解釈可能か再現可能であるかを判断するために必要な評価前提よりも、概して明確である。
10-equity Workingの例は、アクティブ・ストラテジーの結果がいかに明らかな摩擦とタイミングの選択によって物質的に圧縮されるかを示すための方法論的な足場としてのみ含まれる。
主な結論は、LLMトレーディング研究の次の有用なステップは、より良いエージェント設計だけでなく、実行リアリズム、再現性、評価の可視性に関する報告基準の明確化である。
関連論文リスト
- Teaching Language Models to Check Grounded Claim Factuality with Human Test-Taking Strategies [0.9867902290081937]
検索強化生成のような大規模言語モデル(LLM)アプリケーションでは,根拠付きクレームの事実性チェックが重要である。
本報告では, 根拠付き事実性チェックを真偽読解タスクとして定式化することによって, この問題に対処する。
本手法は未案内のオープンエンド推論と比較してトークン使用率を80%以上削減する。
論文 参考訳(メタデータ) (2026-05-28T10:11:42Z) - Agentic Trading: When LLM Agents Meet Financial Markets [10.275260358522809]
本稿では,Large Language Models(LLM)をエキスパートシステム決定パイプラインとして再編成する。
一次経験的部分集合は、行動出力と閉ループ評価の最小限の境界を満たす。
中心的な経験的発見はプロトコルの非互換性である。
論文 参考訳(メタデータ) (2026-05-19T04:20:07Z) - Time to REFLECT: Can We Trust LLM Judges for Evidence-based Research Agents? [61.49434544687523]
本稿では,エージェント環境におけるきめ細かい故障検出を目的としたメタ評価ベンチマークREFLECTを紹介する。
REFLECTはプロセスレベルの障害モードと結果レベルの障害モードの詳細な分類を定義し、制御および局所的な介入を実行することでインスタンス化する。
私たちの実験では、最高のパフォーマンスモデルでさえ、推論、ツール使用、レポート品質の失敗に対して、全体的なアキュラシーを55%以下に達成しています。
論文 参考訳(メタデータ) (2026-05-18T23:55:08Z) - Toward Expert Investment Teams:A Multi-Agent LLM System with Fine-Grained Trading Tasks [6.55184070677326]
投資分析を細かなタスクに分解するマルチエージェント取引フレームワークを提案する。
実験結果から,細粒度タスクの分解はリスク調整されたリターンを著しく改善することが示された。
我々は,ストックインデックスと各システムの出力のばらつきとの相関を低くして,優れた性能を実現する。
論文 参考訳(メタデータ) (2026-02-26T18:37:36Z) - Gaming the Judge: Unfaithful Chain-of-Thought Can Undermine Agent Evaluation [76.5533899503582]
大規模言語モデル(LLM)は、エージェントのパフォーマンスを評価するために、ますます裁判官として使われている。
このパラダイムは、エージェントのチェーン・オブ・シークレット(CoT)推論が内部の推論と環境状態の両方を忠実に反映していることを暗黙的に仮定している。
我々は、操作された推論だけで、様々なWebタスクにまたがる800の軌跡に対して、最先端のVLM審査員の偽陽性率を最大90%向上させることができることを実証した。
論文 参考訳(メタデータ) (2026-01-21T06:07:43Z) - StockBench: Can LLM Agents Trade Stocks Profitably In Real-world Markets? [44.10622904101254]
大規模言語モデル(LLM)は、最近、自律エージェントとして強力な能力を示した。
実時間複数ヶ月の株式トレーディング環境でLLMエージェントを評価するためのベンチマークであるStockBenchを紹介する。
我々の評価では、ほとんどのLLMエージェントは、単純な買い買い得ベースラインよりも優れているが、いくつかのモデルでは、より高いリターンをもたらし、より効果的にリスクを管理する可能性を実証している。
論文 参考訳(メタデータ) (2025-10-02T16:54:57Z) - FinAgentBench: A Benchmark Dataset for Agentic Retrieval in Financial Question Answering [57.18367828883773]
FinAgentBenchは、ファイナンスにおける多段階推論によるエージェント検索を評価するためのベンチマークである。
このベンチマークは、S&P-500上場企業に関する26Kのエキスパートアノテート例から成っている。
我々は,最先端モデルの集合を評価し,対象の微調整がエージェント検索性能を大幅に向上することを示す。
論文 参考訳(メタデータ) (2025-08-07T22:15:22Z) - Source Attribution in Retrieval-Augmented Generation [3.579940498399598]
本稿では,RAGにおける重要文書を識別するために,Shapleyに基づく属性を適応させることの有効性と有効性について検討する。
本研究の目的は,(1) 確立された帰属原則をRAG文書レベル設定に体系的に適用すること,(2) SHAP近似がどの程度正確な帰属を反映できるかを定量化すること,(3) 重要な文書を特定するための実践的説明可能性を評価することである。
論文 参考訳(メタデータ) (2025-07-06T17:36:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。