論文の概要: DRFLOW: A Deep Research Benchmark for Personalized Workflow Prediction
- arxiv url: http://arxiv.org/abs/2606.18191v1
- Date: Tue, 16 Jun 2026 17:22:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-17 17:15:32.573608
- Title: DRFLOW: A Deep Research Benchmark for Personalized Workflow Prediction
- Title(参考訳): DRFLOW: パーソナライズされたワークフロー予測のためのディープリサーチベンチマーク
- Authors: Md Tawkat Islam Khondaker, Raymond Li, Muhammad Abdul-Mageed, Laks V. S. Lakshmanan, Issam H. Laradji,
- Abstract要約: 多くのエンタープライズタスクは、アクションステップのシーケンスであるコンクリートを特定するためにエージェントを必要とします。
異種ソースからのパーソナライズされた予測を評価するためのベンチマークであるDRFLOWを紹介する。
DRFLOWには5つのドメインに100のタスクがあり、3900以上のソースに1,246の参照ワークフローステップがある。
- 参考スコア(独自算出の注目度): 44.59825034567626
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep research (DR) systems are increasingly used for complex information-seeking tasks, but existing works mainly focus on generating reports and summaries. In contrast, many enterprise tasks instead require an agent to identify concrete workflows which is a sequence of action-steps. For example, rather than summarizing budgeting policies, an agent should be able to determine the steps needed to answer a question such as: "How do I request new headcount given a fixed budget?". Therefore, we introduce DRFLOW, a benchmark for evaluating personalized workflows predicted by agents from heterogeneous sources. Each task requires the agent to identify relevant evidence from scattered sources, then use that evidence to predict the correct action-step sequence for the user's task. DRFLOW contains 100 tasks across five domains, with 1,246 reference workflow steps grounded in more than 3,900 sources. We define seven diagnostic metrics covering factual grounding, step recovery, structural ordering, condition resolution, and personalization. We further present DRFLOW-Agent (DRFA), a workflow-oriented reference agent to predict personalized workflow. We show that although DRFA improves over strong baseline agents (upto 10.02% average F1 score), there is substantial room for improvement remains across these workflow metrics, indicating that predicting complete and correct personalized workflows remains a challenging frontier for deep research.
- Abstract(参考訳): ディープリサーチ(Dep Research, DR)は、複雑な情報検索タスクに使用されることが多いが、既存の研究は主にレポートや要約の生成に重点を置いている。
対照的に、多くのエンタープライズタスクは、アクションステップのシーケンスである具体的なワークフローを特定するためにエージェントを必要とします。
例えば、予算政策を要約する代わりに、エージェントは「固定予算が与えられた新しい責任者をどうやって要求するか」といった質問に答えるために必要なステップを決定することができるべきである。
そこで本研究では,異種情報源のエージェントによって予測されるパーソナライズされたワークフローを評価するためのベンチマークであるDRFLOWを紹介する。
各タスクは、エージェントが散在するソースから関連する証拠を識別し、その証拠を使用してユーザのタスクの正しいアクションステップシーケンスを予測する必要がある。
DRFLOWには5つのドメインに100のタスクがあり、3900以上のソースに1,246の参照ワークフローステップがある。
実地調査,ステップ回復,構造秩序,条件解決,パーソナライゼーションを含む7つの診断指標を定義した。
さらに、ワークフロー指向の参照エージェントであるDRFLOW-Agent(DRFA)を紹介し、パーソナライズされたワークフローを予測する。
DRFAは強力なベースラインエージェント(平均F1スコアは10.02%まで)よりも改善されているが、これらのワークフローのメトリクスには改善の余地が残っており、完全なパーソナライズされたワークフローの予測が深い研究のフロンティアであることを示している。
関連論文リスト
- AutoMedBench: Towards Medical AutoResearch with Agentic AI Models [31.335309699875264]
AutoMedBenchは、自律医療AI研究のためのワークフロー対応ベンチマークである。
各ランの平均エージェントターンが33回ある長い水平タスクで構成されている。
論文 参考訳(メタデータ) (2026-06-01T09:22:55Z) - From Research Question to Scientific Workflow: Leveraging Agentic AI for Science Automation [0.0]
我々は,Hyperflow WMS上で動作する1000 Genomes集団遺伝ワークフロー上でのアーキテクチャの実装と評価を行った。
150クエリに関するアブレーション調査では、Skillsはフルマッチインテントの精度を44%から83%に引き上げ、スキル駆動の遅延ワークフロー生成はデータ転送を92%削減する。
論文 参考訳(メタデータ) (2026-04-23T17:52:52Z) - Do We Always Need Query-Level Workflows? Rethinking Agentic Workflow Generation for Multi-Agent Systems [72.3575737073235]
マルチエージェントシステム(MAS)は、複数のエージェントを協調することで複雑なタスクを解決する。
既存のアプローチはタスクレベルかクエリレベルで生成されるが、その相対的なコストと利点は未だ不明である。
クエリレベルのワークフロー生成は必ずしも必要ではない、なぜなら、トップKレベルのタスクレベルの小さなセットが、すでに同等あるいはそれ以上のクエリをカバーしているからだ。
論文 参考訳(メタデータ) (2026-01-16T10:05:51Z) - Beyond Rule-Based Workflows: An Information-Flow-Orchestrated Multi-Agents Paradigm via Agent-to-Agent Communication from CORAL [0.15199492741752027]
本稿ではエージェント・ツー・エージェント(A2A)通信を用いた情報フロー型マルチエージェントパラダイムを提案する。
汎用ベンチマークGAIAに対する我々のアプローチを,代表的ワークフローベースMASをベースラインとして評価した。
本手法は63.64%の精度を達成し, OWL の55.15% を8.49 % に上回り, トークン消費に匹敵する性能を示した。
論文 参考訳(メタデータ) (2026-01-14T21:35:51Z) - AgentPRM: Process Reward Models for LLM Agents via Step-Wise Promise and Progress [71.02263260394261]
大規模言語モデル(LLM)は、マルチターン意思決定タスクにおいて依然として課題に直面している。
プロセス報酬モデル(PRM)を構築し、各意思決定を評価し、エージェントの意思決定プロセスを導く。
AgentPRMは、シーケンシャルな決定と最終的な目標への貢献の間の相互依存の両方をキャプチャする。
論文 参考訳(メタデータ) (2025-11-11T14:57:54Z) - Agentic Predictor: Performance Prediction for Agentic Workflows via Multi-View Encoding [56.565200973244146]
Agentic Predictorは、効率的なエージェントワークフロー評価のための軽量な予測器である。
Agentic Predictorはタスク成功率の近似を学ぶことで、最適なエージェントワークフロー構成の迅速かつ正確な選択を可能にする。
論文 参考訳(メタデータ) (2025-05-26T09:46:50Z) - Benchmarking Agentic Workflow Generation [80.74757493266057]
複数面シナリオと複雑なグラフワークフロー構造を備えた統合ワークフロー生成ベンチマークであるWorfBenchを紹介する。
また,サブシーケンスとサブグラフマッチングアルゴリズムを利用したシステム評価プロトコルWorfEvalを提案する。
我々は、生成されたタスクが下流のタスクを強化し、推論中により少ない時間で優れたパフォーマンスを達成することを観察する。
論文 参考訳(メタデータ) (2024-10-10T12:41:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。