論文の概要: LedgerAgent: Structured State for Policy-Adherent Tool-Calling Agents
- arxiv url: http://arxiv.org/abs/2606.20529v1
- Date: Thu, 18 Jun 2026 17:41:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-19 18:23:40.03405
- Title: LedgerAgent: Structured State for Policy-Adherent Tool-Calling Agents
- Title(参考訳): LedgerAgent: ポリシーに準拠したツールカートリングエージェントの構造状態
- Authors: Md Nayem Uddin, Amir Saeidi, Eduardo Blanco, Chitta Baral,
- Abstract要約: サービスドメイン内のポリシーに準拠したツール呼び出しエージェントは、ツールを呼び出し、ドメインポリシーに従う間、順番にタスク状態を維持する必要があります。
textscLedgerAgentは、異なる台帳内の観察されたタスク状態を保持し、その状態にプロンプトをレンダリングするツール呼び出しエージェントの推論時メソッドである。
- 参考スコア(独自算出の注目度): 39.819141036179225
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Policy-adherent tool-calling agents in customer-service domains must maintain task states across turns while calling tools and obeying domain policies. Task states consist of relevant facts, identifiers, constraints, and conditions observed through user interaction and tool calls. In standard agents, task states are not represented separately. Observations, tool returns, and policy instructions are placed in the prompt, leaving agents to reconstruct the relevant states from the prompt each time they decide what to do next. This design makes state management implicit, creating two common failure modes. An agent may retrieve the right facts but later ground its decision in stale, missing, or incorrect information; and a syntactically valid tool call may still violate a domain policy that depends on the current task state. We introduce \textsc{LedgerAgent}, an inference-time method for tool-calling agents that maintains observed task states in a separate ledger and renders the states into the prompt. The ledger is also used to check state-dependent policy constraints before environment-changing tool calls are executed, blocking policy violations. Across four customer-service domains and a mixed panel of open- and closed-weight models, \textsc{LedgerAgent} improves average pass\textasciicircum{}k over a standard prompt-based tool-calling approach, with the largest gains under stricter multi-trial consistency metrics.
- Abstract(参考訳): サービスドメイン内のポリシーに準拠したツール呼び出しエージェントは、ツールを呼び出し、ドメインポリシーに従う間、順番にタスク状態を維持する必要があります。
タスク状態は、ユーザインタラクションやツールコールを通じて観察される関連する事実、識別子、制約、条件から構成されます。
標準エージェントでは、タスク状態は別々に表現されない。
監視、ツールリターン、ポリシー指示はプロンプトに置かれ、エージェントは次に何をするかを決めるたびにプロンプトから関連する状態を再構築する。
この設計は、状態管理を暗黙的にし、2つの共通の障害モードを生成する。
エージェントは正しい事実を検索するが、後にその決定を不安定、欠落、または誤った情報で下す。
我々は、異なる台帳内の観察されたタスク状態を維持し、その状態にプロンプトをレンダリングするツール呼び出しエージェントの推論時メソッドである「textsc{LedgerAgent}」を紹介した。
台帳は環境変更ツールコールの実行前に、状態依存のポリシー制約をチェックするためにも使用され、ポリシー違反をブロックする。
4つのカスタマサービスドメインと、オープンおよびクローズドウェイトモデルの混合パネルである \textsc{LedgerAgent} は、標準的なプロンプトベースのツールコールアプローチよりも平均パス\textasciicircum{}k を改善し、より厳密なマルチトライアル整合性メトリクスで最大の利益を得る。
関連論文リスト
- Deontic Policies for Runtime Governance of Agentic AI Systems [2.1095754823099657]
本稿では,義務,免除,政策紛争解決,政策の理化といった重要なガバナンス要件を実現するエージェントReiを提案する。
私たちのアプローチは、A2ASのような業界標準のフレームワークと自然に結びついています。
論文 参考訳(メタデータ) (2026-06-17T18:02:07Z) - Can Generalist Agents Automate Data Curation? [58.652262227632406]
トレーニングデータのキュレーションは、現代のAI開発において、もっとも重要だが労働集約的な部分のひとつだ。
一般のコーディングエージェントがこのデータキュレーションループを自動化できるかどうかを問う。
モデル、トレーニングレシピ、評価スイートを修正するエージェント中心のベンチマークである*Curation-Bench*を紹介します。
論文 参考訳(メタデータ) (2026-06-02T22:26:53Z) - AgentHijack: Benchmarking Computer Use Agent Robustness to Common Environment Corruptions [78.49000936275773]
我々は、一般的な汚職下でのコンピュータ利用エージェントの堅牢性を評価するために設計されたベンチマークであるAgentHijackを紹介する。
MLLMをベースとした各種デスクトップタスクを評価し, 汚職の小さな事例であっても, 大幅な性能劣化が生じることを確認した。
本稿では,動作の要約と環境チェックに責任を負う見物人として,アクションジェネレータと接地機能を統合したフレームワークであるAgent Hijack-Agentを提案する。
論文 参考訳(メタデータ) (2026-05-25T11:09:22Z) - Securing LLM Agents Need Intent-to-Execution Integrity [49.490963596514185]
我々は, LLMエージェントの確保には, エージェントの実行がユーザの意図を忠実に反映した場合に規定するエンドツーエンドの正当性を定義する必要があると主張している。
LLMエージェントはコンパイラと構造的に類似しており、セキュリティ違反はユーザ意図を保存しない誤った実行に対応する。
emphTool整合性、emph命令整合性、emphJudgment整合性、emphData整合性。
論文 参考訳(メタデータ) (2026-05-16T12:53:31Z) - PolicyBank: Evolving Policy Understanding for LLM Agents [51.86716874651299]
PolicyBankは構造化されたツールレベルの政策洞察を維持し、それらを反復的に洗練する。
PolicyBankは、人間の神託に対するギャップの最大82%を閉じている。
論文 参考訳(メタデータ) (2026-04-16T20:29:30Z) - Near-Miss: Latent Policy Failure Detection in Agentic Workflows [9.719140082591956]
エージェントの会話トレースにおける遅延ポリシー障害を検出するための新しい指標を提案する。
その結果,ツールコールの変異を伴う軌道の8~17%に潜伏障害がみられた。
論文 参考訳(メタデータ) (2026-03-31T12:26:35Z) - Solver-Aided Verification of Policy Compliance in Tool-Augmented LLM Agents [5.90411280561446]
本稿では,TaLLMエージェントのツール利用ポリシーコンプライアンスを実現するためのSMTソルバ支援フレームワークを提案する。
具体的には、LLM支援による人間誘導型アプローチを用いて、自然言語で特定されたツール利用ポリシーを形式論理に変換する。
実行時に、計画されたツールコールがインターセプトされ、ツールコールの事前条件としてZ3ソルバを使用して制約に対してチェックされる。
論文 参考訳(メタデータ) (2026-03-20T19:25:43Z) - Agents of Chaos [50.53354213047402]
実験室環境に展開する自律言語モデルを用いたエージェントの探索的再チームの研究を報告する。
20人のAI研究者が、良心的および敵対的な条件下でエージェントと対話した。
我々の発見は、現実的なデプロイメント設定におけるセキュリティ、プライバシ、ガバナンスに関連する脆弱性の存在を確立します。
論文 参考訳(メタデータ) (2026-02-23T16:28:48Z) - InfiAgent: An Infinite-Horizon Framework for General-Purpose Autonomous Agents [36.740230738304525]
InfiAgentは、タスクの持続時間に関係なく、エージェントの推論コンテキストを厳密に拘束する。
20Bのオープンソースモデルを持つInfiAgentは、より大きなプロプライエタリなシステムと競合する。
論文 参考訳(メタデータ) (2026-01-06T17:35:57Z) - QuadSentinel: Sequent Safety for Machine-Checkable Control in Multi-agent Systems [22.833567409552074]
textscQuadSentinelは、安全ポリシーをマシンチェック可能なルールにコンパイルする4エージェントガードである。
textscQuadSentinelは偽陽性を減らしながらガードレールの精度とルールリコールを改善する。
論文 参考訳(メタデータ) (2025-12-18T07:58:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。