論文の概要: RedAct: Redacting Agent Capability Traces for Procedural Skill Protection
- arxiv url: http://arxiv.org/abs/2606.10813v2
- Date: Wed, 10 Jun 2026 03:45:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-11 14:23:44.397694
- Title: RedAct: Redacting Agent Capability Traces for Procedural Skill Protection
- Title(参考訳): RedAct: 手続き的スキル保護のためのエージェント機能トレースの再実行
- Authors: Shuwen Xu, Zhitao He, Yi R. Fung,
- Abstract要約: 実行トレースには、ツールの実行、中間決定、エラー回復ロジックなど、手続きの詳細が豊富に含まれている。
この詳細はプライベートな手続きスキルを公開して、ダウンストリームメソッドがモデルウェイトやスキルファイルにアクセスせずに、重要な公式、しきい値、戦略を復元することを可能にする。
保護キー情報をローカライズする保護されたトレースリリースフレームワークであるtextscRedActを紹介する。
- 参考スコア(独自算出の注目度): 6.305785618804429
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Users rely on execution traces to observe agent behavior, diagnose failures, and ensure accountability. These traces contain rich procedural detail, including tool invocations, intermediate decisions, and error-recovery logic. Yet this detail can expose private procedural skills, allowing downstream methods to recover key formulas, thresholds, and strategies without access to model weights or skill files. To quantify this risk and evaluate protection, we construct \textsc{CapTraceBench}, a benchmark of 75 specialized long-horizon tasks and 154 curated skills across seven domains. We also introduce \textsc{RedAct} https://github.com/XuShuwenn/RedAct, a protected trace release framework that localizes protected key information, rewrites traces while preserving verifier-critical evidence, and embeds behavioral watermarks for downstream provenance analysis. Across representative trace reuse methods, \textsc{RedAct} reduces normalized skill transfer (NST) from 44.7--67.1\% on raw traces to below the no-skill baseline, while preserving audit evidence. Its standalone behavioral watermarks reach 93.6--100.0\% true detection with a false alarm rate of at most 1.9\%. These results frame public agent traces as security interfaces and show that selective redaction can reduce procedural capability leakage without removing audit evidence.
- Abstract(参考訳): ユーザはエージェントの動作を観察し、障害を診断し、説明責任を保証するために実行トレースに依存する。
これらのトレースには、ツール呼び出し、中間決定、エラー回復ロジックなど、手続き的な詳細が豊富に含まれている。
しかし、この詳細はプライベートな手続きスキルを公開することができ、ダウンストリームメソッドは、モデルウェイトやスキルファイルにアクセスせずに、重要な公式、しきい値、戦略を復元することができる。
このリスクを定量化し、保護を評価するために、7つのドメインにまたがる75の専門的な長距離タスクと154のキュレートされたスキルのベンチマークである \textsc{CapTraceBench} を構築した。
また、保護されたキー情報をローカライズし、検証済みの証拠を保持しながらトレースを書き直し、下流のプロビデンス分析のために振る舞いの透かしを埋め込む保護されたトレースリリースフレームワークである、https://github.com/XuShuwenn/RedActを紹介します。
代表的トレース再利用法全体において、 \textsc{RedAct} は、正規化スキル転送(NST)を生のトレースの44.7--67.1\%からノスキルベースライン以下に減らし、監査証拠を保存している。
スタンドアローンの行動用透かしは93.6--100.0\%に達し、誤報率は1.9\%である。
これらの結果は,公開エージェントのトレースをセキュリティインターフェースとして捉え,監査証拠を除去することなく,選択的再作用により手続き能力の漏洩を低減できることを示す。
関連論文リスト
- What Should a Skill Remember? Quality--Cost Trade-offs in Cost-Aware Skill Rewriting for Language Model Agents [58.87681796862133]
我々は経済的なレンズを通してスキルの書き直しを勉強する。
我々のフレームワークは、情報保存戦略を用いて、スキル構造をプロファイルし、スキルを書き換える。
SkillsBenchの実験は、戦略間の異なる品質とコストのトレードオフを明らかにしている。
論文 参考訳(メタデータ) (2026-06-08T12:36:51Z) - TraceScope: Interactive URL Triage via Decoupled Checklist Adjudication [14.375064108289115]
私たちは、このワークフローを大規模に運用する、分離されたトリアージパイプラインであるTraceScopeを紹介します。
サンドボックス操作エージェントは、オブザーバ効果を防止し、安全性を確保するため、ページ動作を誘発する視覚的モチベーションによってガイドされた実際のGUIブラウザを駆動する。
MITRE ATT&CKチェックリストを検証するために要求の証拠を照会し、妥協の指標(IOC)を抽出した監査可読レポートを生成する。
我々の評価によると、TraceScopeは現実世界のシナリオでも優れた性能を示し、最先端の防御が特定できない高度なフィッシングの試みをうまく検出する。
論文 参考訳(メタデータ) (2026-04-23T16:31:42Z) - BackFlush: Knowledge-Free Backdoor Detection and Elimination with Watermark Preservation in Large Language Models [1.7118181664522618]
BackFlushは、透かしを保存しながら、バックドアの検出と除去のためのフレームワークである。
BackFlushはおよそ1%のAttack Success Rate(ASR)、約99%のクリーン精度(CACC)、および保存された透かし機能を達成する。
論文 参考訳(メタデータ) (2026-04-15T10:56:08Z) - Agentproof: Static Verification of Agent Workflow Graphs [0.0]
エージェントフレームワークは、ツール使用の振る舞いを明示的なワークフローグラフとしてエンコードする傾向にある。
本稿では,4つの主要なエージェントフレームワークから統合抽象グラフモデルを自動的に抽出するAgentproofを提案する。
汎用的なモデルチェッカーとは異なり、Agentproofは手動モデリングを必要としない。
論文 参考訳(メタデータ) (2026-03-20T13:56:20Z) - TraceRAG: A LLM-Based Framework for Explainable Android Malware Detection and Behavior Analysis [8.977634735108895]
本稿では,TraceRAGを紹介した。TraceRAGは,マルウェアの検出と解析を行うための検索拡張世代(RAG)フレームワークである。
まず、TraceRAGは、ベクトルデータベースにインデックスされたメソッドレベルのコードスニペットの要約を生成する。
クエリ時に、行動に焦点を当てた質問は、より深い検査のために最も意味のあるスニペットを検索する。
最後に、マルチターン解析結果に基づいて、TraceRAGは、識別された悪意のある振る舞いとその対応するコード実装を示す人間可読レポートを生成する。
論文 参考訳(メタデータ) (2025-09-10T06:07:12Z) - Towards Copyright Protection for Knowledge Bases of Retrieval-augmented Language Models via Reasoning [58.57194301645823]
大規模言語モデル(LLM)は、現実のパーソナライズされたアプリケーションにますます統合されている。
RAGで使用される知識基盤の貴重かつしばしばプロプライエタリな性質は、敵による不正使用のリスクをもたらす。
これらの知識基盤を保護するための透かし技術として一般化できる既存の方法は、一般的に毒やバックドア攻撃を含む。
我々は、無害な」知識基盤の著作権保護の名称を提案する。
論文 参考訳(メタデータ) (2025-02-10T09:15:56Z) - Lazy Layers to Make Fine-Tuned Diffusion Models More Traceable [70.77600345240867]
新たな任意の任意配置(AIAO)戦略は、微調整による除去に耐性を持たせる。
拡散モデルの入力/出力空間のバックドアを設計する既存の手法とは異なり,本手法では,サンプルサブパスの特徴空間にバックドアを埋め込む方法を提案する。
MS-COCO,AFHQ,LSUN,CUB-200,DreamBoothの各データセットに関する実証研究により,AIAOの堅牢性が確認された。
論文 参考訳(メタデータ) (2024-05-01T12:03:39Z) - Did You Train on My Dataset? Towards Public Dataset Protection with
Clean-Label Backdoor Watermarking [54.40184736491652]
本稿では,公開データの保護のための一般的な枠組みとして機能するバックドアベースの透かし手法を提案する。
データセットに少数の透かしサンプルを挿入することにより、我々のアプローチは、ディフェンダーが設定した秘密関数を暗黙的に学習することを可能にする。
この隠れた機能は、データセットを違法に使用するサードパーティモデルを追跡するための透かしとして使用できる。
論文 参考訳(メタデータ) (2023-03-20T21:54:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。