論文の概要: GRACE-DS: a Guarded Reward-guided Agent Correction Environment in Data Science
- arxiv url: http://arxiv.org/abs/2606.16000v2
- Date: Tue, 16 Jun 2026 21:25:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-18 13:57:35.196446
- Title: GRACE-DS: a Guarded Reward-guided Agent Correction Environment in Data Science
- Title(参考訳): GRACE-DS:データサイエンスにおけるガード付きリワード誘導エージェント補正環境
- Authors: Aleksandr Tsymbalov, Danis Zaripov, Artem Epifanov, Anastasiya Palienko,
- Abstract要約: GRACE-DSは、LSMを用いたオートMLエージェントの事前デプロイ評価のための、データサイエンスにおけるリワード誘導エージェント補正環境である。
エージェントをリアルなワークフローステージに公開し、計画やデータインスペクションから機能エンジニアリング、モデル開発、バリデーション、コード修正まで、最終提出まで。
これらの結果から、GRACE-DSはLLMベースのAutoMLエージェントが実運用環境下で機械学習を実行する能力を評価するための堅牢なプラットフォームとして確立された。
- 参考スコア(独自算出の注目度): 39.146761527401424
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce GRACE-DS, a Guarded Reward-guided Agent Correction Environment in Data Science for pre-deployment evaluation of LLM-powered AutoML agents. GRACE-DS is a set of evaluation metrics in an isolated environment that can be applied to tabular ML tasks specific to a particular organization. It exposes agents to realistic workflow stages, from planning and data inspection through feature engineering, model development, validation, and code repair to final submission, while hidden executable validators measure not only final predictive performance but also leakage avoidance, reproducibility, protocol validity, correction behavior, and reward alignment. The strongest structured regime, flexible iterative interaction (our approach), achieves higher end-to-end normalized hidden-test quality than single-shot generation, unstructured interaction, and restart-based baselines, while also improving protocol-valid completion. Validated across more than 7,000 episodes, these results establish GRACE-DS as a robust platform for assessing the capacity of LLM-based AutoML agents to execute machine learning workflows under production-like conditions and in accordance with organization-specific requirements.
- Abstract(参考訳): LLMを用いたオートMLエージェントの事前デプロイ評価のために,データサイエンスにおけるガード付きリワード誘導エージェント補正環境であるGRACE-DSを紹介する。
GRACE-DSは、特定の組織固有の表型MLタスクに適用可能な、独立した環境における評価指標のセットである。
エージェントは、機能エンジニアリング、モデル開発、バリデーション、コード修正による計画やデータインスペクションから最終提出まで、現実的なワークフローステージに公開され、隠れた実行可能バリデータは最終的な予測性能だけでなく、リーク回避、再現性、プロトコルの妥当性、修正動作、報酬調整を計測する。
最も強力な構造化された状態、フレキシブルな反復的相互作用(我々のアプローチ)は、シングルショット生成、非構造化的相互作用、再起動ベースラインよりもエンドツーエンドの正規化された隠れテスト品質を達成すると同時に、プロトコル検証の補完も改善する。
7000回以上のエピソードで検証されたこれらの結果は、GRACE-DSを、LLMベースのAutoMLエージェントが、プロダクションのような条件下で、組織固有の要件に従って機械学習ワークフローを実行する能力を評価するための堅牢なプラットフォームとして確立する。
関連論文リスト
- Acceptance-Test-Driven Evaluation Protocols for Business-Centric LLM Systems [0.8557392136621891]
本稿では,受入テスト駆動型開発を基礎とした運用型大規模言語モデル(LLM)システムに対する評価プロトコール拡張に寄与する。
利害関係者の目標を、実行可能行動契約、リリースゲート、監視信号、エビデンスアーティファクトに翻訳し、プロンプト、モデル、検索、エージェントの変更が受け入れられる。
このコントリビューションは、ガバナンス指向のメトリックスタック、リファレンスアーキテクチャ、そして、アクセプションテスト駆動のLCM開発を、アクセプションファーストとベンチマークアフターに比較するための経験的なプロトコルである。
論文 参考訳(メタデータ) (2026-06-01T18:21:10Z) - CausalFlow: Causal Attribution and Counterfactual Repair for LLM Agent Failures [4.061481215870679]
フェールエージェントトレースを最小限の偽物修復と再利用可能な監視に変換する介入フレームワークであるCausalFlowを紹介した。
CaulFlowは、最小限の振る舞いドリフトで障害から回復するターゲットテスト時修復と、オフラインの優先度最適化や報酬モデリングに適したトレーニング時間監視の2つの補完的な使用をサポートする。
論文 参考訳(メタデータ) (2026-05-25T01:47:01Z) - LiveFMBench: Unveiling the Power and Limits of Agentic Workflows in Specification Generation [75.05397479715576]
大規模言語モデル(LLM)とエージェントは有望な進歩を示しているが、その真の能力と失敗モードは未だ不明である。
CプログラムのためのLCMおよびエージェントベースの形式仕様生成に関する、最初の体系的および汚染に配慮した研究を提案する。
論文 参考訳(メタデータ) (2026-05-02T11:31:33Z) - Rewarding the Scientific Process: Process-Level Reward Modeling for Agentic Data Analysis [68.28714988482703]
プロセス・リワード・モデル(PRM)は、LLM(Large Language Models)の推論能力を増強することに成功した。
本稿では,一般ドメインのPRMがデータ分析エージェントの監督に苦慮していることを示す。
本稿では,新しい環境対応生成プロセス報酬モデルであるDataPRMを紹介する。
論文 参考訳(メタデータ) (2026-04-27T09:00:30Z) - SEVerA: Verified Synthesis of Self-Evolving Agents [12.9624447364193]
自己進化型エージェントフレームワークは、安全性や正確性の正式な保証を提供しない。
エージェントコード生成を制約付き学習問題として定式化し、ハードな形式仕様とソフトな目的とを組み合わせてタスクユーティリティをキャプチャする。
探索はFGGMコールを含む候補パラメトリックプログラムを合成し、検証は全てのパラメータ値に対する厳しい制約に関して正当性を証明し、制約のない学習に還元する。
論文 参考訳(メタデータ) (2026-03-26T07:32:20Z) - Revisiting Pre-trained Language Models for Vulnerability Detection [10.688122311096253]
プレトレーニング言語モデル(PLM)の急速な進歩は、様々なコード関連タスクに対して有望な結果を示した。
しかし、現実世界の脆弱性を検出する効果は依然として重要な課題である。
本稿では、より小さなコード固有のPLMと大規模PLMにまたがる17のPLMを広範囲に評価するRevisitVDを紹介する。
論文 参考訳(メタデータ) (2025-07-22T17:58:49Z) - Benchmarking Agentic Workflow Generation [80.74757493266057]
複数面シナリオと複雑なグラフワークフロー構造を備えた統合ワークフロー生成ベンチマークであるWorfBenchを紹介する。
また,サブシーケンスとサブグラフマッチングアルゴリズムを利用したシステム評価プロトコルWorfEvalを提案する。
我々は、生成されたタスクが下流のタスクを強化し、推論中により少ない時間で優れたパフォーマンスを達成することを観察する。
論文 参考訳(メタデータ) (2024-10-10T12:41:19Z) - From Quantity to Quality: Boosting LLM Performance with Self-Guided Data Selection for Instruction Tuning [52.257422715393574]
本稿では,Large Language Models (LLMs) の自己誘導手法を導入し,オープンソースデータセットからサクラサンプルを自動識別し,選択する。
我々の重要な革新である命令追従困難度(IFD)メトリックは、モデルが期待する応答と本質的な生成能力の相違を識別するための重要な指標として現れます。
論文 参考訳(メタデータ) (2023-08-23T09:45:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。