論文の概要: Toward Open Weight Models Without Risks: Separating Public and Private Capabilities in LLMs
- arxiv url: http://arxiv.org/abs/2606.21638v1
- Date: Fri, 19 Jun 2026 17:44:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-26 04:22:46.342607
- Title: Toward Open Weight Models Without Risks: Separating Public and Private Capabilities in LLMs
- Title(参考訳): リスクのないオープンウェイトモデルに向けて:LLMにおける公共と民間の能力の分離
- Authors: Charbel El Feghali, Arkil Patel, Nicholas Meade, Spandana Gella, Verna Dankers, Siva Reddy,
- Abstract要約: 階層型言語モデル(TLM)は複数の能力レベルをサポートする。
鍵となる設定は、新しい言語を習得し、命令追従能力を獲得し、プライベートな事実知識を記憶することができることを示す。
認証は入力空間ではなくモデルの重み構造で動作するため、この機構は微調整に基づく抽出と部分鍵妥協に抵抗する。
- 参考スコア(独自算出の注目度): 27.546429876997873
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Open-weight Large Language Models (LLMs) enable scientific progress and broad deployment. However, they make it difficult to control access to sensitive capabilities. Current practice either suppresses dangerous capabilities before release or mediates access through closed services that use specialized model variants, input/output monitors, and API permissions. The former is susceptible to jailbreaks while sacrificing capability for all users to mitigate the risks posed by a few, and the latter is fundamentally incompatible with open-weight release. In this paper, we propose Tiered Language Models (TLMs), where a single set of released weights supports multiple capability levels. In its default public configuration, a TLM behaves as a conventional LLM. A compact secret key specifies a permutation over a small parameter subset, inducing an alternative computation graph over the same weights that exposes additional capabilities. We develop a training protocol that jointly pretrains both configurations from scratch, then fine-tunes the keyed configuration on private data with regularization to preserve the public model's behavior. We pretrain 180M- and 650M-parameter TLMs and demonstrate that the keyed configuration can acquire a new language, gain instruction-following ability, and memorize private factual knowledge, whereas the public configuration exhibits none of these capabilities. Moreover, we show that our approach extends naturally to multiple hierarchical tiers. Because authorization operates on the model's weight structure rather than in the input space, the mechanism resists fine-tuning-based extraction and partial key compromise. In general, TLMs take a step toward reconciling open-weight release with selective capability control.
- Abstract(参考訳): オープンウェイトな大規模言語モデル(LLM)は、科学的進歩と広範な展開を可能にする。
しかし、センシティブな機能へのアクセスを制御するのが難しくなる。
現在のプラクティスでは、リリース前に危険な機能を抑制するか、特別なモデルバリアント、入出力モニタ、APIパーミッションを使用するクローズドサービスを通じてアクセスを仲介する。
前者はジェイルブレイクの影響を受けやすいが、全ユーザーが少数のリスクを軽減できる能力を備えており、後者は基本的にオープンウェイトリリースと互換性がない。
本稿では,複数機能レベルをサポートする一組の重み付き言語モデル(TLM)を提案する。
デフォルトのパブリック設定では、TLMは従来のLMとして振る舞う。
コンパクトシークレットキーは、小さなパラメータサブセット上の置換を指定し、同じ重みの上に別の計算グラフを誘導し、追加機能を公開する。
我々は、両方の構成をスクラッチから共同で事前訓練するトレーニングプロトコルを開発し、その後、公開モデルの振舞いを保存するために、正規化を伴うプライベートデータ上のキー付き構成を微調整する。
我々は180Mと650MのパラメータのTLMを事前訓練し、鍵となる構成が新しい言語を習得し、命令追従能力を獲得し、プライベートな事実知識を記憶できることを実証する。
さらに,本手法は複数の階層層に自然に適用可能であることを示す。
認証は入力空間ではなくモデルの重み構造で動作するため、この機構は微調整に基づく抽出と部分鍵妥協に抵抗する。
一般に、TLMは選択能力制御によるオープンウェイトリリースの調整に向けて一歩前進する。
関連論文リスト
- Compiling Activation Steering into Weights via Null-Space Constraints for Stealthy Backdoors [48.881343993730844]
安全性に整合した大規模言語モデル(LLM)は、現実世界のパイプラインにますますデプロイされている。
敵は通常の評価では動作しないバックドアのチェックポイントを配布することができる。
最近のポストホック重み付け法は、そのようなバックドアを注入するための効率的なアプローチを提供する。
論文 参考訳(メタデータ) (2026-04-14T06:48:33Z) - Stop Tracking Me! Proactive Defense Against Attribute Inference Attack in LLMs [61.15237978606501]
大規模言語モデルは、ユーザ生成テキストからプライベートなユーザー属性を推測することができる。
既存の匿名化ベースの防御は粗く、プライバシーを優先する要素を匿名化する際に単語レベルの精度が欠如している。
細粒度匿名化(TRACE)と推論防止最適化(RPS)を組み合わせた統合防衛フレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-12T03:37:50Z) - Practical Secure Inference Algorithm for Fine-tuned Large Language Model Based on Fully Homomorphic Encryption [0.0]
完全同型暗号化(FHE)と証明可能なセキュリティ理論とFine-Tuning(PEFT)を組み合わせて,大規模言語モデルの効率的かつセキュアな推論手法を提案する。
本稿では,オープンソースのChatGLM2-6Bを,LoRAによって微調整されたベースモデルとして利用する。
実験結果から,提案方式の予測効率は1.61s/に向上した。
論文 参考訳(メタデータ) (2025-01-03T07:19:23Z) - Instructional Fingerprinting of Large Language Models [57.72356846657551]
本稿では,非常に軽量なインストラクションチューニングの一形態として,Large Language Model (LLM) の指紋認証に関する実験的検討を行う。
11個の LLM 実験の結果,このアプローチは軽量であり,モデルの正常な挙動には影響しないことがわかった。
また、パブリッシャーの誇張を防ぎ、指紋の推測やパラメータ効率のトレーニングに対する堅牢性を維持し、MITライセンスのような多段階の指紋認証をサポートする。
論文 参考訳(メタデータ) (2024-01-21T09:51:45Z) - AWQ: Activation-aware Weight Quantization for LLM Compression and Acceleration [54.692405042065815]
LLM低ビット量のみの量子化のためのハードウェアフレンドリーなアプローチであるActivation-Aware Weight Quantization (AWQ)を提案する。
AWQ は 1% の正重みしか保護せず,命令調整型 LM とマルチモーダル LM の量子化性能に優れる。
また,4ビットオンデバイスLLM/VLMに適した,効率的なフレキシブルな推論フレームワークであるTinyChatを実装した。
論文 参考訳(メタデータ) (2023-06-01T17:59:10Z) - Differentially Private Decoding in Large Language Models [14.221692239892207]
本稿では,復号段階で既に訓練済みのモデルに適用可能な,単純で分かり易く,計算的に軽量な摂動機構を提案する。
我々の摂動メカニズムはモデルに依存しず、どんな大規模言語モデルとも併用することができる。
論文 参考訳(メタデータ) (2022-05-26T20:50:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。