論文の概要: MPC-Patch-Bench: Security-Aware LLM Code Patch for Multi-Party Computation
- arxiv url: http://arxiv.org/abs/2606.11416v1
- Date: Tue, 09 Jun 2026 20:06:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-11 16:42:38.165533
- Title: MPC-Patch-Bench: Security-Aware LLM Code Patch for Multi-Party Computation
- Title(参考訳): MPC-Patch-Bench:マルチパーティ計算のためのセキュリティ対応LLMコードパッチ
- Authors: Yukuan Zhang, Mengxin Zheng, Qian Lou,
- Abstract要約: Secure Multi-Party Computation (MPC)ソフトウェア上でのLLM(Large Language Model)コード修復を評価するためのリポジトリレベルのベンチマークはまだ存在しない。
MPC-Patch-Benchは2つのフレームワークを中心に構成されたリポジトリレベルのベンチマークである。
- 参考スコア(独自算出の注目度): 18.40709699874288
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Repository-level benchmarks for evaluating Large Language Model (LLM) code repair on Secure Multi-Party Computation (MPC) software do not yet exist, and directly transplanting general-purpose benchmarks such as SWE-bench fails on three structural fronts: (i) MPC repositories are dominated by generic Python infrastructure rather than cryptographic logic; (ii) high-value MPC fixes lack the standardized tests rigid extraction pipelines require; and (iii) standard fail-to-pass evaluation is insufficient for code that must also be cryptographically safe. MPC is increasingly deployed for privacy-preserving machine learning, biomedical collaboration, and secure analytics. Existing MPC-specific code-synthesis efforts cover only operator-level or single-framework tasks; evaluating LLM agents on real repository-level MPC repair instead demands MPC-aware data curation and a verifier matched to the security and numerical-fidelity guarantees MPC programs must obey neither of which existing benchmarks provide. We introduce MPC-Patch-Bench, a repository-level benchmark organised around two frameworks. (1)The Data Curation Framework combines a domain-specific curation agent that filters raw pull requests through three cryptographic layers with a human-AI completion engine that synthesizes missing problem statements and Fail-to-Pass/Pass-to-Pass tests, yielding 205 fully verified instances. (2)The MPC Verifier provides dedicated security and numerical-fidelity checks via dynamic differential testing against plaintext oracles and MPC-specific static analysis rules that flag unsafe reveals, insecure arithmetic, and illegal public/private casts. The strongest evaluated LLM functionally resolves only 22.9% of MPC-Patch-Bench tasks; the MPC Verifier further reduces verified resolution to 17.1%, with up to 40% of functionally-passing patches rejected for cryptographic or numerical-fidelity violations.
- Abstract(参考訳): Secure Multi-Party Computation (MPC)ソフトウェア上でのLLM(Large Language Model)コード修復評価のためのリポジトリレベルのベンチマークはまだ存在せず、SWE-benchのような汎用ベンチマークを直接移植することは3つの構造面で失敗する。
(i)MPCリポジトリは、暗号ロジックではなく、汎用Pythonインフラストラクチャによって支配されている。
(二)高付加価値MPC修正には、必要な剛性抽出パイプラインの標準化試験が欠如している。
(iii)標準のフェール・ツー・パス評価は、暗号的にも安全でなければならないコードには不十分である。
MPCはますます、プライバシ保護機械学習、バイオメディカルコラボレーション、セキュアな分析のためにデプロイされている。
既存のMPC固有のコード合成作業は、オペレータレベルまたはシングルフレームのタスクのみをカバーし、実際のリポジトリレベルのMPC修復においてLLMエージェントを評価する代わりに、MPCが認識するデータキュレーションと、MPCプログラムが既存のベンチマークが提供するもののいずれかに従わなければならないセキュリティおよび数値忠実性を保証する検証器を要求する。
MPC-Patch-Benchは2つのフレームワークを中心に構成されたリポジトリレベルのベンチマークである。
1) データキュレーションフレームワークは,3つの暗号レイヤを通じて生のプルリクエストをフィルタリングするドメイン固有のキュレーションエージェントと,不足する問題文とFail-to-Pass/Pass-to-Passテストを合成するヒューマンAI補完エンジンを組み合わせることで,205の完全検証インスタンスを生成する。
2) MPC Verifierは、平文のオラクルに対する動的差分テストとMPC固有の静的解析ルールを通じて、安全でない公開、安全でない算術、違法なパブリック/プライベートキャストにフラグを付けることで、専用のセキュリティおよび数値忠実度チェックを提供する。
最も評価の高いLCMは、MPC-Patch-Benchタスクの22.9%のみを機能的に解決し、MPC検証器は、検証された解像度をさらに17.1%に下げる。
関連論文リスト
- SecPI: Secure Code Generation with Reasoning Models via Security Reasoning Internalization [50.71047638695205]
RLM(Reasoning Language Model)は、プログラミングにおいてますます使われている言語モデルである。
しかし、最先端のRLMでさえ、生成されたコードに重大なセキュリティ脆弱性を頻繁に導入する。
我々は、構造化されたセキュリティ推論を内部化するためのRTMを教える微調整パイプラインであるSecPIを提案する。
論文 参考訳(メタデータ) (2026-04-04T04:29:11Z) - RealSec-bench: A Benchmark for Evaluating Secure Code Generation in Real-World Repositories [58.32028251925354]
LLM(Large Language Models)は、コード生成において顕著な能力を示しているが、セキュアなコードを生成する能力は依然として重要で、未調査の領域である。
我々はRealSec-benchを紹介します。RealSec-benchは、現実世界の高リスクなJavaリポジトリから慎重に構築されたセキュアなコード生成のための新しいベンチマークです。
論文 参考訳(メタデータ) (2026-01-30T08:29:01Z) - MACA: A Framework for Distilling Trustworthy LLMs into Efficient Retrievers [7.123910165277138]
本稿では,LCM再ランカを校正したメタデータを小型の学生レトリバーに蒸留する,メタデータ対応クロスモデルアライメント(MACA)を提案する。
メタデータ・アウェア・プロンプトは、教師の教師の信頼度を確認するために、置換の下での一貫性とパラフレーズに対する堅牢性を確認し、リストワイズスコア、ハード・ネガティブ、キャリブレーションされた関連マージンを提供する。
論文 参考訳(メタデータ) (2026-01-01T23:31:02Z) - "MCP Does Not Stand for Misuse Cryptography Protocol": Uncovering Cryptographic Misuse in Model Context Protocol at Scale [27.85822797774986]
Model Context Protocol (MCP) がツール統合のインターフェースとして登場している。
MCPは、開発者が暗号化自体を実装せざるを得ない、真正性や機密性の保証は提供しない。
MCP実装における暗号誤用を検出するための最初のドメイン固有フレームワークであるYSCOPEを提示する。
我々の研究は、MPPにおける暗号誤用に関する最初のエコシステム全体的見解を確立し、この急速に成長するプロトコルのセキュリティ基盤を強化するためのツールと洞察を提供する。
論文 参考訳(メタデータ) (2025-12-03T13:25:59Z) - Diagnose, Localize, Align: A Full-Stack Framework for Reliable LLM Multi-Agent Systems under Instruction Conflicts [75.20929587906228]
LLM(Large Language Model)を利用したマルチエージェントシステム(MAS)は、複雑なタスクにおける協調推論、ツールの使用、役割特化調整を急速に進めている。
しかし、信頼性クリティカルなデプロイメントは、体系的な障害モード、すなわち命令の競合による階層的コンプライアンスによって妨げられている。
論文 参考訳(メタデータ) (2025-09-27T08:43:34Z) - Unsupervised Conformal Inference: Bootstrapping and Alignment to Control LLM Uncertainty [49.19257648205146]
生成のための教師なし共形推論フレームワークを提案する。
我々のゲートは、分断されたUPPよりも厳密で安定した閾値を提供する。
その結果は、ラベルのない、API互換の、テスト時間フィルタリングのゲートになる。
論文 参考訳(メタデータ) (2025-09-26T23:40:47Z) - SecureAgentBench: Benchmarking Secure Code Generation under Realistic Vulnerability Scenarios [17.276786247873613]
SecureAgentBenchは、セキュアなコード生成において、コードエージェントの機能を厳格に評価するために設計された105のコーディングタスクのベンチマークである。
その結果、(i)現在のエージェントがセキュアなコードを生成するのに苦労していることが示され、最高のパフォーマンスのエージェントであるDeepSeek-V3.1がサポートしているSWE-agentも15.2%の正安のソリューションしか達成していない。
論文 参考訳(メタデータ) (2025-09-26T09:18:57Z) - SEC-bench: Automated Benchmarking of LLM Agents on Real-World Software Security Tasks [11.861657542626219]
SEC-benchは、大規模言語モデル(LLM)エージェントを評価するための、最初の完全に自動化されたベンチマークフレームワークである。
当社のフレームワークは,再現可能なアーティファクトを備えた高品質なソフトウェア脆弱性データセットを,インスタンス当たり0.87ドルで自動生成します。
最先端のLLMコードエージェントの包括的な評価では、大きなパフォーマンスギャップが明らかになっている。
論文 参考訳(メタデータ) (2025-06-13T13:54:30Z) - AutoPT: How Far Are We from the End2End Automated Web Penetration Testing? [54.65079443902714]
LLMによって駆動されるPSMの原理に基づく自動浸透試験エージェントであるAutoPTを紹介する。
以上の結果から, AutoPT は GPT-4o ミニモデル上でのベースラインフレームワーク ReAct よりも優れていた。
論文 参考訳(メタデータ) (2024-11-02T13:24:30Z) - SeCodePLT: A Unified Platform for Evaluating the Security of Code GenAI [58.29510889419971]
コード生成大型言語モデル(LLM)のセキュリティリスクと能力を評価するための既存のベンチマークは、いくつかの重要な制限に直面している。
手動で検証し、高品質なシード例から始める、汎用的でスケーラブルなベンチマーク構築フレームワークを導入し、ターゲット突然変異を通じて拡張する。
このフレームワークをPython、C/C++、Javaに適用すると、44のCWEベースのリスクカテゴリと3つのセキュリティ機能にまたがる5.9k以上のサンプルデータセットであるSeCodePLTが構築されます。
論文 参考訳(メタデータ) (2024-10-14T21:17:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。