論文の概要: Trace2Policy: From Expert Behavior Traces to Self-Evolving Decision Agents
- arxiv url: http://arxiv.org/abs/2606.10457v1
- Date: Tue, 09 Jun 2026 06:05:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-10 15:40:58.344312
- Title: Trace2Policy: From Expert Behavior Traces to Self-Evolving Decision Agents
- Title(参考訳): Trace2Policy: 専門家の行動トレースから自己進化型意思決定エージェントへ
- Authors: Junli Zha, Jinbo Wang, Chao Zhou, Xiang Song,
- Abstract要約: 企業の専門家が暗黙的に適用する決定ルールは、反復的エラー分析によって体系的に回復し、改善することができる。
基本機構は textbfEISR である textbfTrace2Policy について述べる。
各ラウンドは検証セット上でルールを実行し、ルート原因によるエラーをMISSING、WRONG、CONFLICTタイプにクラスタし、ターゲットパッチを適用し、レグレッションゲートを通過するもののみをコミットする。
- 参考スコア(独自算出の注目度): 5.689042186242701
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Decision rules that enterprise experts apply tacitly -- in auditing, compliance, and contract review -- can be systematically recovered and improved through iterative error analysis. We present \textbf{Trace2Policy}, whose core mechanism -- \textbf{EISR} (\textbf{E}rror-driven \textbf{I}terative \textbf{S}kill \textbf{R}efinement) -- maintains a human-readable rule document as its optimization target: each round executes the rules on a validation set, clusters errors by root cause into MISSING, WRONG, or CONFLICT types, applies targeted patches, and commits only those that pass a regression gate. \textbf{For this class of compliance-sensitive, skewed-base-rate decision tasks, we identify rule quality -- not model capability -- as the dominant performance lever}: across five LLMs, one-shot distillation plateaus near $\sim$70\% on the deployed pool, while eight EISR rounds lift the same rules to 79.6\% when compiled into deterministic Python -- zero LLM calls at inference. \textbf{Execution form compounds the gain: in production, the same EISR-refined content runs 9.8~pp higher as compiled Python than as an LLM prompt, a form-and-engineering bundle the 22-day deployment matured together.} Deployed for 22 days at a major logistics carrier (3,349 audit cases), the compiled pipeline outperforms the pure-LLM baseline it replaced (72.7\%); on these calibrated, skewed-base-rate workloads, re-enabling LLM fallback monotonically degrades accuracy. An LLM-driven variant, \textbf{Auto-EISR}, reproduces this refinement at \$5--\$10 per cycle versus $\sim$70 expert-hours, and transfers to four public benchmarks spanning legal reasoning (LegalBench) and process-mining decisions (BPIC 2012) without re-engineering.
- Abstract(参考訳): 企業の専門家が -- 監査、コンプライアンス、契約レビューにおいて -- 積極的に適用する決定ルールは、反復的エラー分析によって体系的に回収され、改善されます。
コアメカニズム -- \textbf{E}rror-driven \textbf{I}terative \textbf{S}kill \textbf{R}efinement) -- は、その最適化ターゲットとしてヒューマン可読なルールドキュメントを保持します。
このクラスのコンプライアンスに敏感で、歪んだベースレートの決定タスクでは、ルール品質 -- モデル機能ではなく -- を、主要なパフォーマンスレバーとして識別します。5つのLLMで、デプロイされたプールの近くで1ショットの蒸留プラトーを$\sim$70\%、決定論的Pythonにコンパイルすると8回のEISRラウンドで、同じルールを79.6\%に引き上げます。
実運用環境では、EISRで精製されたコンテンツはコンパイル済みのPythonよりも9.8〜pp高い。
大規模なロジスティクスキャリア(3,349の監査ケース)で22日間デプロイされたこのコンパイルパイプラインは、置き換えた純粋なLLMベースライン(72.7\%)を上回っている。
LLM駆動の変種である \textbf{Auto-EISR} は、この改良を1サイクルあたり5ドル-10ドルと、$\sim$70のエキスパート時間で再現し、再設計なしで法的な推論(LegalBench)とプロセスマイニング決定(BPIC 2012)にまたがる4つの公開ベンチマークに転送する。
関連論文リスト
- From Attack Simulation to SIEM Rule: Deterministic Detection-as-Code Synthesis with Probe-Level Traceability [51.56484100374058]
セキュリティチームは、自身のシステムに対する攻撃をシミュレートして、監視が真の侵入者を捕まえるかどうかをチェックする。
人間はそのギャップを手でブリッジし、それぞれの発見を読み、対応するシグマルールを書きます。
ロックされたコーパスからプローブが引き出されると,この変換が部分的に自動化されることを示す。
論文 参考訳(メタデータ) (2026-06-03T14:26:25Z) - ComplexMCP: Evaluation of LLM Agents in Dynamic, Interdependent, and Large-Scale Tool Sandbox [61.862814740220806]
$textbfComplexMCP$は厳格な条件下でエージェントを評価するために設計されたベンチマークである。
Model Context Protocol (MCP)上に構築された$textbfComplexMCP$は300以上の精巧にテストされたツールを提供する。
論文 参考訳(メタデータ) (2026-05-11T16:20:51Z) - Interactive Critique-Revision Training for Reliable Structured LLM Generation [18.00222080273147]
DPA-GRPOは,構成された検証器の介入による2人プレイヤジェネレータゲームのためのペアアクショントレーニング手法である。
我々は,非正規化ゲームを分析し,厳格に低いリワード介入やリビジョン行動に対する肯定的な確率が,一側偏差を生み出すことを示す。
TaxCalc TY24の実験では、DPA-GRPOはゼロショット生成とジェネレータのみのRLベースラインよりも構造化された決定精度を向上させる。
論文 参考訳(メタデータ) (2026-05-08T17:00:38Z) - When the Ruler is Broken: Parsing-Induced Suppression in LLM-Based Security Log Evaluation [0.0]
完全に機能的なモデルが完全に非機能なカテゴリに現れる可能性のある,無音で体系的な評価誤差のクラスを実証する。
SOC-Bench v0は、標準化された13のカテゴリの脅威分類、最小統計パワー要件、ファジィフィールド抽出仕様、および将来のSOC研究における特定の精度の歪みを防ぐための公開スコアリングスクリプトからなるベンチマークフレームワークである。
論文 参考訳(メタデータ) (2026-05-08T06:03:11Z) - APEX-EM: Non-Parametric Online Learning for Autonomous Agents via Structured Procedural-Episodic Experience Replay [7.370176470430802]
LLMベースの自律エージェントは、永続的な手続き記憶を欠いている。
我々は,構造化手続き計画の蓄積,検索,再利用を行う非パラメトリックオンライン学習フレームワークであるAPEX-EMを提案する。
論文 参考訳(メタデータ) (2026-03-31T00:24:56Z) - REAL: Regression-Aware Reinforcement Learning for LLM-as-a-Judge [83.2858110368572]
回帰報酬を最適化するための原則的RLフレームワークである textbfREAL (underlineREgression-underlineAware Reinforcement underlineLThought) を提案する。
我々は,REALがレグレッション対応SFTベースラインと標準RL法の両方を一貫して上回ることを示す。
論文 参考訳(メタデータ) (2026-03-17T21:19:08Z) - Improving Search Agent with One Line of Code [68.58667107354253]
ツールベースのエージェント強化学習(TARL)は,検索エージェントが外部ツールと対話できるようにトレーニングするための,有望なパラダイムとして登場した。
textbfSearch textbfAgent textbfPolicy textbfOptimization (textbfSAPO)を提案する。
論文 参考訳(メタデータ) (2026-03-10T04:07:39Z) - ReLoop: Structured Modeling and Behavioral Verification for Reliable LLM-Based Optimization [6.572539312871392]
大規模言語モデル(LLM)は、自然言語を最適化コードに変換することができるが、サイレント障害は重大なリスクをもたらす。
2つの相補的な方向からサイレント障害に対処するReLoopを紹介します。
論文 参考訳(メタデータ) (2026-02-17T20:20:33Z) - Solver-in-the-Loop: MDP-Based Benchmarks for Self-Correction and Behavioral Rationality in Operations Research [19.31559944205485]
運用 調査実践者は反復的なプロセスを通じて、不可能なモデルを日常的にデバッグする。
評価ループにtextbfsolver を配置するベンチマークを2つ導入する。
ドメイン固有のRLVRトレーニングによって、8BモデルがフロンティアAPIを越えられることが分かりました。
論文 参考訳(メタデータ) (2026-01-28T20:02:44Z) - SOPBench: Evaluating Language Agents at Following Standard Operating Procedures and Constraints [59.645885492637845]
SOPBenchは、各サービス固有のSOPコードプログラムを実行可能な関数の有向グラフに変換する評価パイプラインである。
提案手法では,各サービス固有のSOPコードプログラムを実行可能関数の有向グラフに変換し,自然言語SOP記述に基づいてこれらの関数を呼び出しなければならない。
我々は18の先行モデルを評価し、上位モデルでさえタスクが困難であることを示す。
論文 参考訳(メタデータ) (2025-03-11T17:53:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。