論文の概要: AutoSpec: Safety Rule Evolution for LLM Agents via Inductive Logic Programming
- arxiv url: http://arxiv.org/abs/2606.24245v1
- Date: Tue, 23 Jun 2026 07:31:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-24 22:16:48.826742
- Title: AutoSpec: Safety Rule Evolution for LLM Agents via Inductive Logic Programming
- Title(参考訳): AutoSpec:インダクティブ論理プログラミングによるLLMエージェントの安全ルール進化
- Authors: Pingchuan Ma, Zhaoyu Wang, Zimo Ji, Yuguang Zhou, Zhantong Xue, Zongjie Li, Shuai Wang, Xiaoqin Zhang,
- Abstract要約: 既存の安全アプローチは基本的なトレードオフに直面している。
本稿では,ユーザセーフ/アンセーフアノテーションから専門家が指導する安全ルールを自動生成するフレームワークであるAutoSpecを紹介する。
コード実行とエンボディエージェントドメインにまたがる291の実行トレース上でAutoSpecを評価する。
- 参考スコア(独自算出の注目度): 21.12573593471532
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language model (LLM) agents increasingly automate complex tasks by integrating language models with external tools and environments. However, their autonomy poses significant safety risks: agents may execute destructive commands, leak sensitive data, or violate domain constraints. Existing safety approaches face a fundamental tradeoff: hand-crafted rules are interpretable but brittle, with overly conservative rules blocking safe operations (high false positives) while permissive rules miss unsafe behaviors (high false negatives). Neural classifiers lack the interpretability required for safety-critical deployments. We present AutoSpec, a framework that automatically evolves deployed expert-designed safety rules from user safe/unsafe annotations through counterexample-guided inductive synthesis (CEGIS) guided by inductive logic programming (ILP). Starting from the expert rules and a stream of annotated traces, AutoSpec iteratively evaluates rules, mines false-positive and false-negative counterexamples, uses ILP to learn which predicates discriminate them, generates candidate rule edits, and verifies candidates to select the best revision. The key insight is that ILP efficiently identifies predicates that appear frequently in false negatives but rarely in false positives (or vice versa), dramatically pruning the exponential search space of rule edits. This continues until convergence, producing interpretable rules that balance precision and recall. We evaluate AutoSpec on 291 execution traces spanning code execution and embodied agent domains. AutoSpec raises rule F1 to 0.98 and 0.93 across the two domains, achieving up to 94% false positive reduction while maintaining high recall, and converges within 4-5 iterations. The ILP-guided approach achieves up to 4.8x higher F1 than heuristic CEGIS. The learned rules are human-readable, auditable, and generalize to unseen scenarios.
- Abstract(参考訳): 大きな言語モデル(LLM)エージェントは、言語モデルと外部ツールと環境を統合することで、複雑なタスクを自動化する。
エージェントは破壊的なコマンドを実行したり、機密データをリークしたり、ドメインの制約に違反したりすることができる。
手作りのルールは解釈可能であるが不安定であり、過度に保守的なルールが安全な操作(高い偽陰性)をブロックし、寛容なルールは安全でない動作(高い偽陰性)を見逃す。
ニューラル分類器は、安全クリティカルなデプロイメントに必要な解釈性に欠ける。
本稿では,インダクティブ・ロジック・プログラミング(ILP)によって誘導されるインダクティブ・シンセシス(CEGIS)を通じて,ユーザセーフ/アンセーフ・アノテーションから専門家が設計した安全ルールを自動的に進化させるフレームワークであるAutoSpecを提案する。
専門家のルールと注釈付きトレースのストリームから始まり、AutoSpecはルールを反復的に評価し、偽陽性と偽陰性の反例をマイニングし、ICPを使用して差別化の予測を学習し、候補のルール編集を生成し、候補が最適なリビジョンを選択することを検証する。
鍵となる洞察は、ILPは偽陰性において頻繁に現れる述語を効果的に識別するが、偽陽性(またはその逆)では稀であり、規則編集の指数的な検索空間を劇的に突破するということである。
これは収束まで続き、精度とリコールのバランスをとる解釈可能なルールを生成する。
コード実行とエンボディエージェントドメインにまたがる291の実行トレース上でAutoSpecを評価する。
AutoSpec は2つの領域で F1 を 0.98 と 0.93 に引き上げ、高いリコールを維持しながら 94% の偽陽性還元を達成し、4-5 イテレーション以内に収束する。
ILP誘導のアプローチは、ヒューリスティックなCEGISよりも最大4.8倍高いF1を達成する。
学習されたルールは可読性があり、監査可能で、目に見えないシナリオに一般化される。
関連論文リスト
- What to Test Next: Interpretable Coverage Gap Discovery in Driving VLMs [52.50210189669399]
視覚言語モデル(VLM)を駆動するには,操作設計領域(ODD)が定義する様々な条件のシーンを正確に理解する必要がある
SliceScorerは、欠落したスライス推薦のための決定論的スコアリングルールである。
SliceNavは, 従来のスライス発見法よりも, 高リスクカバレッジギャップを効果的に表面化することを示す。
論文 参考訳(メタデータ) (2026-06-01T03:18:01Z) - Discovering Agentic Safety Specifications from 1-Bit Danger Signals [6.599344783327054]
EPO-Safeは、エージェントが反復的にアクションプランを生成し、スパースバイナリ警告を受け取り、リフレクションを通じて自然言語の振る舞い仕様を進化させるフレームワークである。
EPO-Safeは、構造化された低次元環境において、厳格に貧弱な信号から安全推論を行うことができることを示す。
標準的な報酬駆動リフレクションは安全性を積極的に低下させ、リフレクションを専用の安全チャンネルと組み合わせなければならないことを示す。
論文 参考訳(メタデータ) (2026-04-25T08:35:36Z) - Do Agent Rules Shape or Distort? Guardrails Beat Guidance in Coding Agents [9.989306175511238]
ルールはパフォーマンスを7-14ポイント向上させるが、ランダムなルールは専門家が作成したものと同じくらい役に立つ。
個々のルールは、主に独立して有害であるが、最大50のルールを分解することなく、集合的に有用である。
論文 参考訳(メタデータ) (2026-04-13T07:10:01Z) - RulePilot: An LLM-Powered Agent for Security Rule Generation [15.638534363355342]
ルールベースの検出は、事前に定義された文法論理に基づいて悪意のあるログを識別することが多い。
本稿では, LLMをベースとしたエージェントを用いて, 人間の専門知識を模倣したルールパイロットを提案する。
RulePilotを使用すると、セキュリティアナリストは文法に従うルールを書き留める必要はなく、単にアノテーションを提供するだけである。
論文 参考訳(メタデータ) (2025-11-15T13:59:16Z) - SafeAuto: Knowledge-Enhanced Safe Autonomous Driving with Multimodal Foundation Models [63.71984266104757]
我々は、構造化されていない知識と構造化されていない知識の両方を取り入れることで、MLLMベースの自動運転を強化するフレームワークであるSafeAutoを提案する。
安全知識を明示的に統合するため,交通ルールを一階述語論理に変換する推論コンポーネントを開発した。
我々のマルチモーダル検索・拡張生成モデルは、過去の運転経験から学ぶために、ビデオ、制御信号、環境特性を活用する。
論文 参考訳(メタデータ) (2025-02-28T21:53:47Z) - Towards Copyright Protection for Knowledge Bases of Retrieval-augmented Language Models via Reasoning [58.57194301645823]
大規模言語モデル(LLM)は、現実のパーソナライズされたアプリケーションにますます統合されている。
RAGで使用される知識基盤の貴重かつしばしばプロプライエタリな性質は、敵による不正使用のリスクをもたらす。
これらの知識基盤を保護するための透かし技術として一般化できる既存の方法は、一般的に毒やバックドア攻撃を含む。
我々は、無害な」知識基盤の著作権保護の名称を提案する。
論文 参考訳(メタデータ) (2025-02-10T09:15:56Z) - Can LLMs Follow Simple Rules? [28.73820874333199]
ルール追従言語評価シナリオ(ルール追従言語評価シナリオ、RuLES)は、大規模言語モデルにおけるルール追従能力を測定するためのフレームワークである。
RuLESは14の単純なテキストシナリオで構成され、そこではモデルがユーザと対話しながら様々なルールに従うように指示される。
現在のほとんどのモデルは、単純なテストケースであっても、シナリオルールに従うのに苦労しています。
論文 参考訳(メタデータ) (2023-11-06T08:50:29Z) - Sample-Efficient Safety Assurances using Conformal Prediction [57.92013073974406]
早期警戒システムは、安全でない状況が差し迫ったときに警告を提供することができる。
安全性を確実に向上させるためには、これらの警告システムは証明可能な偽陰性率を持つべきである。
本稿では,共形予測と呼ばれる統計的推論手法とロボット・環境力学シミュレータを組み合わせたフレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-28T23:00:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。