論文の概要: Harness-MU: A Safe, Governed, and Effective Harness for Multi-User LLM Agents
- arxiv url: http://arxiv.org/abs/2606.21856v1
- Date: Sat, 20 Jun 2026 03:24:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-26 02:39:29.001352
- Title: Harness-MU: A Safe, Governed, and Effective Harness for Multi-User LLM Agents
- Title(参考訳): Harness-MU:マルチユーザLSMエージェントの安全で統治的で効果的なハーネス
- Authors: Wangxuan Fan, Xiaoyu Nie, Zhongxiang Dai,
- Abstract要約: マルチユーザLLMエージェントのためのモデルに依存しない,ゼロチューニングインフラストラクチャフレームワークである textbfHarness-MU を提案する。
Harness-MUは、すべてのアクセス制御攻撃におけるプライバシー保護の目標を達成し、ユーティリティスコアにおいて標準ベースラインの0.28-0.39を上回っ、命令フォロー精度を最大48.9ポイント向上させる。
- 参考スコア(独自算出の注目度): 12.882077862869588
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The increasing deployment of large language model (LLM) agents in collaborative workflows demands robust multi-user, multi-principal interaction mechanisms capable of enforcing access permissions, resolving authoritative conflicts, and preventing unauthorized data disclosure. However, a fundamental mismatch exists between the single-user training paradigm of contemporary LLMs and the hard constraints required for multi-principal governance, rendering probabilistic, prompt-based safeguards vulnerable under multi-turn adversarial interactions.Our key insight is that governance constraints -- who is authorized, what is restricted, and whose instructions take precedence -- are deterministic runtime variables that should be enforced by execution hooks rather than entrusted to the LLM. We present \textbf{Harness-MU}, the first model-agnostic, zero-tuning infrastructure framework for multi-user LLM agents. By decoupling language generation from safety orchestration, Harness-MU guarantees unbreakable permission boundaries while maximizing compliant demand satisfaction. Across four frontier open-weight and proprietary models on the \textit{Muses-Bench} benchmark, Harness-MU achieves the goal of privacy preservation across all access-control attacks, outperforming the standard baseline by 0.28--0.39 in utility score and improving instruction-following accuracy by up to 48.9 percentage points. Harness-MU advances the philosophy of \textit{Harness Engineering}, establishing that systematic infrastructure is essential for solving LLM multi-principal governance challenges. The code and data are available at https://github.com/YuanJrShiuan/Harness-MulUser.
- Abstract(参考訳): 協調ワークフローにおける大規模言語モデル(LLM)エージェントのデプロイの増加は、堅牢なマルチユーザ、アクセス許可の強制、権威的衝突の解消、不正なデータ開示の防止を要求される。
しかしながら、現代のLLMの単一ユーザトレーニングパラダイムと、マルチプリンシパルガバナンスに必要なハード制約との間には、基本的なミスマッチが存在する。確率的かつプロンプトベースのセーフガードは、マルチターンの敵との相互作用の下で脆弱である。私たちのキーとなる洞察は、ガバナンスの制約 -- 権限があり、制限されているもの、優先される命令 -- は、LLMに委ねられるのではなく、実行フックによって強制されるべき決定論的ランタイム変数である、ということです。
マルチユーザ LLM エージェントのための,最初のモデルに依存しないゼロチューニングインフラストラクチャフレームワークである \textbf{Harness-MU} を提案する。
言語生成を安全オーケストレーションから切り離すことで、Harness-MUは、互換性のある要求満足度を最大化しながら、破壊不可能な許可境界を保証する。
textit{Muses-Bench}ベンチマークの4つのフロンティアのオープンウェイトおよびプロプライエタリモデルにおいて、Harness-MUはすべてのアクセス制御攻撃におけるプライバシー保護の目標を達成し、ユーティリティスコアにおいて標準ベースラインの0.28-0.39を上回っ、命令追従精度を最大48.9ポイント向上した。
Harness-MUは、LLMのマルチプリンシパルガバナンスの課題を解決する上で、体系的なインフラストラクチャが不可欠である、という、‘textit{Harness Engineering}’の哲学を推進している。
コードとデータはhttps://github.com/YuanJrShiuan/Harness-MulUserで入手できる。
関連論文リスト
- Multi-User Large Language Model Agents [18.001343114312853]
大規模言語モデル (LLM) と LLM ベースのエージェントは、計画と意思決定のアシスタントとしてますます多くデプロイされている。
マルチユーザLSMエージェントに関する最初の体系的研究について述べる。
論文 参考訳(メタデータ) (2026-03-19T19:31:53Z) - What Hard Tokens Reveal: Exploiting Low-confidence Tokens for Membership Inference Attacks against Large Language Models [2.621142288968429]
メンバーシップ推論攻撃(MIA)は、特定のデータサンプルがモデルトレーニング/ファインチューニングデータセットに含まれるかどうかを判断しようとする。
低信頼(ハード)トークンに対するトークンレベルの確率をキャプチャする新しいメンバシップ推論手法を提案する。
ドメイン固有の医療データセットと汎用ベンチマークの両方の実験では、HT-MIAが7つの最先端MIAベースラインを一貫して上回っていることが示されている。
論文 参考訳(メタデータ) (2026-01-27T22:31:10Z) - Enterprise AI Must Enforce Participant-Aware Access Control [9.68210477539956]
大規模言語モデル(LLM)は、複数のユーザと対話し、センシティブな内部データに基づいてトレーニングあるいは微調整されるエンタープライズ環境に、ますます多くデプロイされている。
敵は、現在の微調整アーキテクチャやRAGアーキテクチャを利用して、アクセス制御の強制力の欠如を活用して機密情報を漏洩することができることを示す。
本稿では, LLM による学習, 検索, 生成に使用されるコンテンツは, インセンティブに関わるユーザに対して明示的に認証される,という原則に基づくフレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-18T04:30:49Z) - MLA-Trust: Benchmarking Trustworthiness of Multimodal LLM Agents in GUI Environments [40.15090158534087]
MLA-Trustは,完全性,コントロール可能性,安全性,プライバシという4つの側面にまたがって,MLAの信頼性を評価する,初めての総合的かつ統一的なフレームワークである。
ウェブサイトやモバイルアプリケーションをリアルなテストベッドとして利用し、34のハイリスクな対話タスクを設計し、リッチな評価データセットをキュレートします。
論文 参考訳(メタデータ) (2025-06-02T12:56:27Z) - A Weighted Byzantine Fault Tolerance Consensus Driven Trusted Multiple Large Language Models Network [53.37983409425452]
大規模言語モデル(LLM)は幅広いアプリケーションで大きな成功を収めています。
近年,MultiLLMネットワーク(MultiLLMN)などの協調フレームワークが導入されている。
重み付きビザンチンフォールトトレランス(WBFT)ブロックチェーンコンセンサス機構によって駆動される新しいTrusted MultiLLMNフレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-08T10:04:41Z) - A Trustworthy Multi-LLM Network: Challenges,Solutions, and A Use Case [59.58213261128626]
複数の大規模言語モデル(LLM)を信頼性のあるマルチLLMネットワーク(MultiLLMN)に接続するブロックチェーン対応協調フレームワークを提案する。
このアーキテクチャは、複雑なネットワーク最適化問題に対する最も信頼性が高く高品質な応答の協調評価と選択を可能にする。
論文 参考訳(メタデータ) (2025-05-06T05:32:46Z) - RigorLLM: Resilient Guardrails for Large Language Models against Undesired Content [62.685566387625975]
現在の緩和戦略は効果はあるものの、敵の攻撃下では弾力性がない。
本稿では,大規模言語モデルのための弾力性ガードレール(RigorLLM)について紹介する。
論文 参考訳(メタデータ) (2024-03-19T07:25:02Z) - Uniformly Safe RL with Objective Suppression for Multi-Constraint Safety-Critical Applications [73.58451824894568]
広く採用されているCMDPモデルは予測のリスクを制約しており、長い尾の州で危険な行動を起こす余地がある。
安全クリティカルな領域では、そのような行動は破滅的な結果をもたらす可能性がある。
本稿では,目標を最大化するタスク報酬を適応的に抑制する新しい手法であるObjective Suppressionを提案する。
論文 参考訳(メタデータ) (2024-02-23T23:22:06Z) - Safe Model-Based Multi-Agent Mean-Field Reinforcement Learning [48.667697255912614]
平均場強化学習は、同一エージェントの無限集団と相互作用する代表エージェントのポリシーに対処する。
モデルベースの平均場強化学習アルゴリズムであるSafe-M$3$-UCRLを提案する。
本アルゴリズムは,低需要領域におけるサービスアクセシビリティを確保しつつ,重要な領域における需要を効果的に満たす。
論文 参考訳(メタデータ) (2023-06-29T15:57:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。