論文の概要: Declarative Skills for AI Agents in Knowledge-Grounded Tool-Use Workflows
- arxiv url: http://arxiv.org/abs/2606.06923v1
- Date: Fri, 05 Jun 2026 05:38:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-08 14:33:29.580451
- Title: Declarative Skills for AI Agents in Knowledge-Grounded Tool-Use Workflows
- Title(参考訳): 知識を中心としたツール使用ワークフローにおけるAIエージェントの宣言的スキル
- Authors: M. Danish Lim, I. Danial Bin Sharudin, Wen Han Chen, Cedric Lim, Laura Wynter,
- Abstract要約: 構造化されていない知識ベース上での現実的な顧客サービスエラーにおけるツール利用AIエージェントのオーケストレーション機構について検討する。
i)ドメイン固有の3つのスキルファイルを推論時に読み込み、独自の制御フローを決定するDeclaativeAgent,(ii)明示的なフェーズを持つプログラム状態マシンに基づくImperativeAgent,(iii)$$-Knowledgeベンチマークエージェントをモデルとした非スキャフォールドベースラインエージェントを比較した。
- 参考スコア(独自算出の注目度): 1.9573380763700712
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study orchestration mechanisms for tool-using AI agents in realistic customer-service workflows over an unstructured knowledge base. We argue that declarative agents -- AI agents equipped with natural-language skill files appended to the system prompt -- are an effective orchestration paradigm. Concretely, we compare (i) a DeclarativeAgent that reads three domain-specific skill files at inference time and decides its own control flow, (ii) an ImperativeAgent based on a programmatic state machine with explicit phases, and (iii) an unscaffolded baseline agent modeled after the $τ$-Knowledge benchmark agent. Our ImperativeAgent is motivated by externalised-control inference as in Recursive Language Models and graph-based orchestration frameworks. We formalise the three agents as policy classes within a decentralised partially-observable Markov decision process and analyse their information-theoretic and structural properties; we then test the predicted differences empirically on five language models and two retrieval regimes. Our results show that retrieval quality is a dominant bottleneck for AI agents: when evidence is incomplete or skewed, all agents degrade substantially, and skill files cannot recover lost performance. Under high-quality retrieval, however, declarative skills consistently improve accuracy on procedural tasks and reduce orchestration errors, while the imperative state machine's brittleness does not reliably improve task success or compliance.
- Abstract(参考訳): 構造化されていない知識ベース上でのリアルなカスタマーサービスワークフローにおけるツール利用AIエージェントのオーケストレーション機構について検討する。
宣言的エージェント -- システムプロンプトに付加された自然言語スキルファイルを備えたAIエージェント -- は、効果的なオーケストレーションパラダイムである、と私たちは主張する。
具体的には、
一 推論時にドメイン固有の3つのスキルファイルを読み出し、独自の制御フローを決定する宣言書
二 明示的な位相を有するプログラム的状態機械に基づくインペラティブエージェント
(iii)$τ$-Knowledgeベンチマークエージェントをモデルとした未スケールのベースラインエージェント。
私たちのImperativeAgentは、再帰的言語モデルやグラフベースのオーケストレーションフレームワークのように、外部制御推論によって動機付けられています。
分散化された部分観測可能なマルコフ決定プロセスの中で3つのエージェントをポリシークラスとして定式化し,その情報理論と構造特性を分析し,その差を5つの言語モデルと2つの検索方式で実証的に検証する。
その結果,AIエージェントの検索品質は,証拠が不完全か歪んだ場合,すべてのエージェントが著しく劣化し,スキルファイルが失ったパフォーマンスを回復できないという,AIエージェントにとって重要なボトルネックであることが示唆された。
しかし、高品質な検索では、宣言的スキルは手続き的タスクの精度を一貫して改善し、オーケストレーションエラーを低減するが、命令的状態マシンの脆さはタスクの成功やコンプライアンスを確実に改善しない。
関連論文リスト
- Agent Mentor: Framing Agent Knowledge through Semantic Trajectory Analysis [4.365760422569902]
我々は、Agent Mentorオープンソースライブラリの一部として実装された分析パイプラインを紹介する。
システムの監視と漸進的な適応によって、他のエージェントの振る舞いを定義する。
パイプラインは、エージェントの知識に修正命令を体系的に注入することで、パフォーマンスを向上させる。
論文 参考訳(メタデータ) (2026-04-12T08:02:54Z) - Talk, Evaluate, Diagnose: User-aware Agent Evaluation with Automated Error Analysis [3.3237915628874632]
効果的なエージェント評価は、会話の質、効率性、およびエージェントエラーの体系的診断を取り入れて、正確性のみに留まらないと論じる。
エージェントの旋回効率と中間進捗を両立させる新しい指標を提案する。
TEDフレームワークは、モデルとユーザの専門知識レベルをまたいだエージェントパフォーマンスに関する新たな洞察を明らかにします。
論文 参考訳(メタデータ) (2026-03-16T16:14:28Z) - XAI for Coding Agent Failures: Transforming Raw Execution Traces into Actionable Insights [0.0]
我々は、生エージェントの実行トレースを構造化された人間解釈可能な説明に変換する、体系的な説明可能なAI(XAI)アプローチを提案する。
提案手法では,障害原因の同定を2.8倍高速に行うことができ,実際の実行トレースよりも73%高い精度で修正を提案する。
論文 参考訳(メタデータ) (2026-03-06T06:18:20Z) - Structured Uncertainty guided Clarification for LLM Agents [126.26213027785813]
LLMエージェントは、ツールコール機能を備えた大きな言語モデルを拡張するが、曖昧なユーザ命令は、しばしば誤った呼び出しやタスクの失敗につながる。
本稿では,ツールコールパラメータに対する構造的不確かさの定式化,完全情報の期待値(EVPI)を目標としたPOMDPのモデル化,冗長性防止のためのアスペクトベースコストモデルを提案する。
我々のSAGE-Agentは、この構造化された不確実性を活用し、より優れた効率を達成するために、曖昧なタスクのカバレッジを7~39%増加させ、明確な質問を1.5~2.7$times$に減らした。
論文 参考訳(メタデータ) (2025-11-11T21:50:44Z) - AgenticIQA: An Agentic Framework for Adaptive and Interpretable Image Quality Assessment [69.06977852423564]
画像品質評価(IQA)は、人間の視覚系に根ざした知覚品質の定量化と解釈の両方を反映している。
AgenticIQAは、IQAを歪み検出、歪み解析、ツール選択、ツール実行の4つのサブタスクに分解する。
本稿では,IQAエージェントに適した大規模命令データセットであるAgenticIQA-200Kと,VLMベースのIQAエージェントの計画,実行,要約機能を評価するための最初のベンチマークであるAgenticIQA-Evalを紹介する。
論文 参考訳(メタデータ) (2025-09-30T09:37:01Z) - MCP-Orchestrated Multi-Agent System for Automated Disinformation Detection [84.75972919995398]
本稿では,関係抽出を用いてニュース記事の偽情報を検出するマルチエージェントシステムを提案する。
提案したエージェントAIシステムは、(i)機械学習エージェント(ロジスティック回帰)、(ii)Wikipedia知識チェックエージェント、(iv)Webスクラッドデータアナライザの4つのエージェントを組み合わせる。
その結果、マルチエージェントアンサンブルはF1スコア0.964で95.3%の精度を達成し、個々のエージェントや従来のアプローチよりも大幅に優れていた。
論文 参考訳(メタデータ) (2025-08-13T19:14:48Z) - Automating AI Failure Tracking: Semantic Association of Reports in AI Incident Database [7.946359845249688]
本稿では,既存のAIインシデントと新たなレポートの関連付けを自動化する検索ベースのフレームワークを提案する。
分析の結果,タイトルと記述を組み合わせることで,ランキングの精度が大幅に向上した。
私たちのアプローチは、AIIDのメンテナンスをサポートするためのスケーラブルで効率的なソリューションを提供します。
論文 参考訳(メタデータ) (2025-07-31T15:48:12Z) - SI-Agent: An Agentic Framework for Feedback-Driven Generation and Tuning of Human-Readable System Instructions for Large Language Models [0.0]
システムインストラクション(SI)は、大規模言語モデル(LLM)の指針となる。
既存の自動化手法は、人間が読めない「ソフトプロンプト」を頻繁に生成し、解釈しやすさを犠牲にする。
本稿では,人間の読みやすいSIを自動生成し,反復的に洗練する新しいエージェントフレームワークであるSI-Agentを紹介する。
論文 参考訳(メタデータ) (2025-07-03T23:44:50Z) - SOPBench: Evaluating Language Agents at Following Standard Operating Procedures and Constraints [59.645885492637845]
SOPBenchは、各サービス固有のSOPコードプログラムを実行可能な関数の有向グラフに変換する評価パイプラインである。
提案手法では,各サービス固有のSOPコードプログラムを実行可能関数の有向グラフに変換し,自然言語SOP記述に基づいてこれらの関数を呼び出しなければならない。
我々は18の先行モデルを評価し、上位モデルでさえタスクが困難であることを示す。
論文 参考訳(メタデータ) (2025-03-11T17:53:02Z) - Interactive Agents to Overcome Ambiguity in Software Engineering [61.40183840499932]
AIエージェントは、あいまいで不明確なユーザー指示に基づいて、タスクを自動化するためにますますデプロイされている。
不安定な仮定をし、明確な質問をしないことは、最適以下の結果につながる可能性がある。
対話型コード生成設定において,LLMエージェントが不明瞭な命令を処理する能力について,プロプライエタリモデルとオープンウェイトモデルを評価して検討する。
論文 参考訳(メタデータ) (2025-02-18T17:12:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。