論文の概要: SKILL.nb: Selective Formalization and Gated Execution for Durable Agent Workflows
- arxiv url: http://arxiv.org/abs/2606.08049v1
- Date: Sat, 06 Jun 2026 08:27:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:05.69456
- Title: SKILL.nb: Selective Formalization and Gated Execution for Durable Agent Workflows
- Title(参考訳): SKILL.nb: 耐久性のあるエージェントワークフローのための選択形式化とGated Execution
- Authors: Amine El Hattami, Nicolas Chapados, Christopher Pal,
- Abstract要約: SKILL.nbは,エビデンス・リバース・キャリブレーションによるライフサイクルポリシーによる再利用可能なエージェント管理のためのフレームワークである。
SKILL.nbは選択的な形式化を使用する: 実行はどのワークフローステップを実行可能なコードにするかを決定する。
ゲート条件付き実行では、各ステップがゲートの検証時にコードを実行したり、ドリフトが実行可能実現を無効にした場合にローカルにフォールバックすることが可能になる。
- 参考スコア(独自算出の注目度): 16.693609667845948
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: AI agents increasingly turn past experience into reusable artifacts such as code, workflows, and procedural memories. Reuse can improve efficiency, but it also creates a lifecycle reliability problem: artifacts that succeed once may fail under environment drift, underspecified tasks, or changing task distributions, especially in web automation. We introduce SKILL.nb, a framework for governing reusable agent workflows with evidence-calibrated lifecycle policies. SKILL.nb uses selective formalization: execution evidence decides which workflow steps should become executable code, which should remain natural-language guided, and when those choices should be revised. Workflows are stored as auditable, versioned notebooks that interleave natural-language guidance, multi-language executable cells, validation gates, fallback paths, and multimodal evidence such as outputs, screenshots, and error traces. At runtime, gate-conditioned execution lets each step run code when its gates validate, or fall back locally when drift invalidates the executable realization. On WebArena-Verified, SKILL.nb achieves 53.7% single-round success, improving over the strongest baseline by 3.9 percentage points. Across three re-executions, it retains 91.7% of initially successful tasks, 15.5 points above the next best method. Under bounded repair, it recovers 72.9% of subsequent failures while limiting post-repair regressions to 4.2%, compared with 15.0% to 17.0% for persistent baselines. It also leads on Mind2Web cross-website and cross-domain splits. In a GitLab migration test, SKILL.nb preserves performance when reusing frozen state learned on GitLab 15.7, with frozen-versus-fresh target-version gaps of -1.7 points on GitLab 16.11 and +0.6 points on GitLab 18.9. These results identify lifecycle governance and gate-conditioned execution as reliability axes beyond one-shot task success.
- Abstract(参考訳): AIエージェントは、過去の経験をコード、ワークフロー、手続き記憶などの再利用可能なアーティファクトに変える。
再使用は効率を改善することができるが、ライフサイクルの信頼性の問題も生み出す。環境ドリフトや不特定タスク、特にWeb自動化において、一度成功すれば失敗するアーティファクトである。
本稿では,再利用可能なエージェントワークフローをエビデンス校正ライフサイクルポリシーで管理するフレームワークであるSKILL.nbを紹介する。
SKILL.nbは選択的な形式化を使用する: 実行証拠は、どのワークフローステップが実行可能コードになるかを決定し、自然言語でガイドされ、その選択がいつ修正されるかを決定する。
ワークフローは監査可能なバージョン付きノートブックとして格納され、自然言語ガイド、多言語実行可能セル、バリデーションゲート、フォールバックパス、出力、スクリーンショット、エラートレースなどのマルチモーダルエビデンスをインターリーブする。
実行時にゲート条件付き実行では、各ステップがゲートの検証時にコードを実行するか、ドリフトが実行可能実現を無効にした場合にローカルにフォールバックする。
WebArena-VerifiedではSKILL.nbが53.7%成功し、最強のベースラインを3.9%改善している。
3つの再実行の中で、最初に成功したタスクの91.7%を保持し、次のベストメソッドよりも15.5ポイント高い。
修復後のリフレクションを4.2%に制限しながら72.9%の障害を回復し、持続的ベースラインでは15.0%から17.0%に制限した。
また、Mind2Webのクロスサイトとクロスドメインの分割を導く。
GitLab移行テストでは、SKILL.nbは、GitLab 15.7で学んだ凍結状態の再利用時のパフォーマンスを保ち、GitLab 16.11で-1.7ポイント、GitLab 18.9で+0.6ポイントのフリーズとリバース/フレッシュのターゲット変換ギャップを持つ。
これらの結果は、ライフサイクルガバナンスとゲート条件付き実行を、ワンショットタスクの成功以上の信頼性の軸として特定します。
関連論文リスト
- Converted, Not Equivalent: Benchmarking Codebase Conversion via Observational Equivalence [56.25095230687242]
コーディングエージェントは、しばしば自身のローカル検証ルーチンを過度に信頼し、表面チェックを満たすアーティファクトの成功を宣言する。
この問題は、事前評価が結果駆動である変換において特に深刻である。
ブラインド・コンバージョンは26.7-28.9%に達し、スペック・パスレートは91.1%まで上昇した。
このことは、失敗は限られた予算やバックボーンの強さよりも、契約ミスによる自己検証に起因していることを示唆している。
論文 参考訳(メタデータ) (2026-05-27T19:57:15Z) - GraphFlow: An Architecture for Formally Verifiable Visual Workflows Enabling Reliable Agentic AI Automation [0.0]
GraphFlowは、ミッションクリティカルなプロセスにおけるエージェントAI自動化の信頼性向上を目的とした、ビジュアルワークフローシステムである。
既存のワークフロープラットフォームは、耐久性のある実行と可観測性を提供するが、セマンティックな正確性を保証するものはほとんどない。
3つの臨床現場で1年間のパイロットが8,728件のコホート登録ワークフローを実行し、97.08%の完成率を記録した。
論文 参考訳(メタデータ) (2026-05-14T15:33:05Z) - Claw-Eval-Live: A Live Agent Benchmark for Evolving Real-World Workflows [67.92316850084575]
ワークフローエージェントのライブベンチマークであるClaw-Eval-Liveを紹介する。
各リリースは、公開ワークフロー要求信号から構築される。
Claw-Eval-Liveは実行トレース、監査ログ、サービス状態、実行後のワークスペースアーティファクトを記録する。
論文 参考訳(メタデータ) (2026-04-30T17:23:19Z) - ClawMark: A Living-World Benchmark for Multi-Turn, Multi-Day, Multimodal Coworker Agents [77.22389710754452]
マルチターンマルチデイタスクを中心に構築された同僚エージェントのベンチマークであるベンチを紹介する。
現在のリリースには、13のプロのシナリオにわたる100のタスクが含まれており、5つのステートフルなサンドボックスサービスに対して実行される。
最強のモデルは75.8の重み付きスコアに達するが、最も厳格なタスク成功率は20.0%に過ぎず、部分的な進歩が一般的であることを示している。
論文 参考訳(メタデータ) (2026-04-26T16:05:02Z) - Structural Verification for Reliable EDA Code Generation without Tool-in-the-Loop Debugging [0.6843491191969066]
本稿では,ツール・イン・ザ・ループのデバッグを,実行前に構造的正しさを強制することで除去することを提案する。
シングルステップタスクでは,パスレートが73.0% (LLM+RAG) から76.4% (tool-in-loop) から82.5% に向上する。
マルチステップタスクでは、パスレートは30.0%から70.0%に改善され、さらに軌道レベルの反射で84.0%に改善される。
論文 参考訳(メタデータ) (2026-04-20T20:58:52Z) - ClawsBench: Evaluating Capability and Safety of LLM Productivity Agents in Simulated Workspaces [17.202580606345666]
生産性タスクを自動化するために、大規模言語モデル(LLM)エージェントがますますデプロイされる。
既存のベンチマークは単純化された環境に依存しており、現実的なマルチサービス環境をキャプチャできない。
我々は,現実的な生産性設定におけるLCMエージェントの評価と改善のためのベンチマークであるClawsBenchを紹介する。
論文 参考訳(メタデータ) (2026-04-06T21:09:06Z) - Traversal-as-Policy: Log-Distilled Gated Behavior Trees as Externalized, Verifiable Policies for Safe, Robust, and Efficient Agents [18.383906296536185]
Traversal-as-Policy: サンドボックス化されたOpenHandsの実行ログを単一の実行可能なGated Behavior Tree (GBT)に蒸留する
各ノードは状態条件のアクションマクロを符号化し、成功した軌道からマージチェックを行う。
実行時に、軽量なトラバーサは、子マクロに対するベースモデルの意図と一致します。
論文 参考訳(メタデータ) (2026-01-30T16:25:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。