論文の概要: Grading the Grader: Lessons from Evaluating an Agentic Data Analysis System
- arxiv url: http://arxiv.org/abs/2606.24839v1
- Date: Tue, 23 Jun 2026 17:18:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-24 22:16:49.130481
- Title: Grading the Grader: Lessons from Evaluating an Agentic Data Analysis System
- Title(参考訳): グレーディング・ザ・グレーダ:エージェントデータ分析システムの評価から学んだこと
- Authors: Tian Zheng, Kai-Tai Hsu,
- Abstract要約: エージェントデータ分析システムは、コード、数値結果、言語診断を含む豊富な出力を生成する。
したがって、エージェントの出力と根本的真正解との真に不一致を分解物と区別する必要がある。
DSGymから153個の数値QRDataタスクに対して,マルチエージェントデータ分析システムであるLAMBDAを適用し,システム評価の信頼性と品質向上の戦略について検討した。
- 参考スコア(独自算出の注目度): 1.8463920355489722
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Agentic data analysis systems produce rich outputs, including code, numerical results, and verbal diagnostics. This makes them more challenging to evaluate than single-turn LLM responses. It is therefore necessary to distinguish genuine disagreement between an agent's output and a ground-truth answer from grading artifacts. We investigate how reliably automated graders assess such a system and what strategies improve grading quality by applying LAMBDA, a multi-agent data-analysis system, on 153 numerical QRData tasks from DSGym. We develop and evaluate a three-layer human-AI grading cascade: strict regex matching, LLM-based lenient grading, and snippet-based human inspection, which combines non-GenAI and GenAI strategies with different failure profiles. Both automated graders achieve 100% observed precision (0/70 false positives). The lenient grader's recall is 97% against human labels. A keyword-anchored extraction pipeline raises the strict grader's recall by 60 percentage points over a last-number heuristic; the lenient grader is architecturally parser-independent. An iterative nudge mechanism raises grading run success from 36% to 97% and lenient-pass rates from 16% to 46%; comparing nudging with and without original-question re-injection shows that re-injection offers no benefit, confirming the nudge as an answer template cue. We further observe in this case study that variable type is the task metadata field most consistently associated with grading pipeline dynamics and observed outcome grades.
- Abstract(参考訳): エージェントデータ分析システムは、コード、数値結果、言語診断を含む豊富な出力を生成する。
これにより、シングルターンLDM応答よりも評価が難しい。
したがって、エージェントの出力と根本的真正解との真に不一致を分解物と区別する必要がある。
DSGymから153個の数値QRDataタスクに対して,マルチエージェントデータ分析システムであるLAMBDAを適用し,システム評価の信頼性と品質向上の戦略について検討した。
我々は,厳密なリジェックスマッチング,LLMに基づくレジェントグレーディング,スニペットベースのヒューマンインスペクションという,非GenAI戦略とGenAI戦略を異なる障害プロファイルで組み合わせた3層型ヒューマンAIグレーディングカスケードを開発し,評価する。
両方の自動グレーダは100%の観測精度(0/70偽陽性)を達成する。
優秀な学士のリコールは、人間のラベルに対して97%である。
キーワードアンコールされた抽出パイプラインは、ラストナンバーのヒューリスティックに対して厳格グレーダのリコールを60ポイント引き上げる。
反復的帰納機構は、段階的なラン成功を36%から97%に、寛大なパスレートを16%から46%に引き上げる。
このケースでは、変数型がタスクメタデータフィールドであり、グレーディングパイプラインのダイナミクスと観測結果のグルーピングに最も一貫した関係があることが観察される。
関連論文リスト
- From Detection to Response: A Deep Learning and Retrieval-Augmented Generation Framework for Network Intrusion Mitigation [0.7136933021609079]
本稿では,脅威検出と行動応答のギャップを埋める統一的なエンドツーエンドフレームワークを提案する。
まず、独立に訓練された3つのバイナリディープニューラルネットワーク(DNN)のアンサンブルで、ネットワークトラフィックフローをBenign, Denial of Service(DoS)またはDistributed Denial of Service(DDoS)に分類する。
第2に、Retrieval-Augmented Generation (RAG)パイプラインは、トップ5の異常な機能から説明対応プロンプトを構築する。
論文 参考訳(メタデータ) (2026-05-18T07:17:55Z) - Rewarding the Scientific Process: Process-Level Reward Modeling for Agentic Data Analysis [68.28714988482703]
プロセス・リワード・モデル(PRM)は、LLM(Large Language Models)の推論能力を増強することに成功した。
本稿では,一般ドメインのPRMがデータ分析エージェントの監督に苦慮していることを示す。
本稿では,新しい環境対応生成プロセス報酬モデルであるDataPRMを紹介する。
論文 参考訳(メタデータ) (2026-04-27T09:00:30Z) - LLM-based Schema-Guided Extraction and Validation of Missing-Person Intelligence from Heterogeneous Data Sources [0.7734726150561088]
行方不明者や子どもの安全に関する調査は、構造化フォーム、掲示板スタイルのポスター、物語ウェブプロファイルなど、異種ケース文書に依存している。
レイアウト、用語、データ品質の変化は、急激なトリアージ、大規模分析、探索計画を妨げる。
本稿では、AIによる解析および正規化パイプラインであるGuardian Packを紹介し、マルチソース調査文書を統一されたスキーマ準拠の表現に変換する。
論文 参考訳(メタデータ) (2026-04-08T01:35:56Z) - Adversarial Question Answering Robustness: A Multi-Level Error Analysis and Mitigation Study [0.0]
質問応答(QA)システムは、SQuADのような標準ベンチマークで印象的なパフォーマンスを達成するが、敵の例には弱いままである。
本研究は,AddSent逆数データセット上での変圧器モデルの逆数ロバスト性について検討する。
論文 参考訳(メタデータ) (2026-01-06T04:20:33Z) - Eigen-1: Adaptive Multi-Agent Refinement with Monitor-Based RAG for Scientific Reasoning [53.45095336430027]
暗黙的な検索と構造化された協調を組み合わせた統合フレームワークを開発する。
Humanity's Last Exam (HLE) Bio/Chem Goldでは,48.3%の精度を実現している。
SuperGPQAとTRQAの結果はドメイン間の堅牢性を確認した。
論文 参考訳(メタデータ) (2025-09-25T14:05:55Z) - MALT: Improving Reasoning with Multi-Agent LLM Training [67.76186488361685]
MALT(Multi-Agent LLM Training)は、推論プロセスを生成、検証、改善ステップに分割する、新しいポストトレーニング戦略である。
MATH、GSM8K、CSQAでは、MALTは、それぞれ15.66%、7.42%、9.40%の相対的な改善で同じベースラインLLMを上回っている。
論文 参考訳(メタデータ) (2024-12-02T19:30:36Z) - Re-ReST: Reflection-Reinforced Self-Training for Language Agents [101.22559705696885]
言語エージェントにおける自己学習は、エージェント自体から監督を生成することができる。
リフレクション強化自己学習(Reflection-Reinforced Self-Training, Re-ReST)は, テキストレフレクタを用いて低品質な試料を精製する。
論文 参考訳(メタデータ) (2024-06-03T16:21:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。