論文の概要: SelPE: Progressive Selection for Private Structured Text Synthesis
- arxiv url: http://arxiv.org/abs/2606.22817v1
- Date: Mon, 22 Jun 2026 03:46:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-25 04:23:17.124127
- Title: SelPE: Progressive Selection for Private Structured Text Synthesis
- Title(参考訳): SelPE: プライベート構造化テキスト合成のためのプログレッシブセレクション
- Authors: Xuancheng Zhu, Guoshun Nan, Han Zhang, Ben Niu, Yang Yue, Zixu Wang, Yilian Liu, Min Lei, Xiaofeng Tao,
- Abstract要約: SelPEは、小型のプライベート構造化テキスト合成のための選択誘導進化フレームワークである。
忠実で有効な合成をサポートするため、SelPEはスキーマ実現からセマンティック抽象化を分離する。
実験により、SelPEは厳格な差分プライバシー予算の下で、構造的妥当性、忠実性、下流ユーティリティを一貫して改善することが示された。
- 参考スコア(独自算出の注目度): 23.5897242327472
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Many data-driven applications rely on structured textual records, such as clinical triage notes and financial transaction logs, for downstream learning and decision-making. In privacy-sensitive domains, access to such records is strictly regulated, often resulting in only a small number of available private examples for model development and analysis. Yet existing differential privacy data synthesis methods fall short: tabular techniques cannot faithfully model free-form text, while text-based approaches often break structural constraints. We propose SelPE, a selection-guided progressive evolution framework for small-sample private structured text synthesis. Rather than relying on noisy aggregation or private model training, SelPE concentrates privacy budget on a sequence of multi-batch top-1 selections, enabling efficient guidance under tight privacy constraints. To support faithful and valid synthesis, SelPE decouples semantic abstraction from schema realization via a two-stage generation pipeline, and evaluates candidates using a multi-channel distance kernel that jointly models textual, categorical, and numeric fields in their native representations. A non-private contrastive expansion mechanism further promotes diversity without incurring additional privacy cost. Extensive Experiments demonstrate that SelPE consistently improves structural validity, fidelity, and downstream utility under strict differential privacy budgets, particularly in low-data regimes.
- Abstract(参考訳): データ駆動型アプリケーションの多くは、下流の学習と意思決定のために、臨床トリアージノートや財務トランザクションログのような構造化されたテキストレコードに依存している。
プライバシに敏感なドメインでは、そのようなレコードへのアクセスは厳格に規制されており、モデルの開発と分析のために利用可能なプライベートな例はごくわずかである。
しかし、既存の差分プライバシーデータ合成手法は不足している。表形式の手法では、自由形式のテキストを忠実にモデル化することはできないが、テキストベースのアプローチは、しばしば構造的な制約を破る。
SelPEは、小型のプライベート構造化テキスト合成のための選択誘導進化フレームワークである。
ノイズの多いアグリゲーションやプライベートモデルトレーニングに頼るのではなく、SelPEは、複数バッチのトップ1選択にプライバシー予算を集中させ、厳密なプライバシー制約の下で効率的なガイダンスを可能にする。
忠実で有効な合成をサポートするため、SelPEは2段階生成パイプラインを介してスキーマ実現からセマンティック抽象化を分離し、テキスト、カテゴリ、数値のフィールドをネイティブ表現で結合的にモデル化するマルチチャネル距離カーネルを用いて候補を評価する。
非私的コントラスト展開機構は、追加のプライバシーコストを発生させることなく、さらに多様性を促進する。
広範な実験により、SelPEは、特に低データ体制において、厳格な差分プライバシー予算の下で、構造的妥当性、忠実性、下流ユーティリティを一貫して改善することを示した。
関連論文リスト
- Phantoms and Disclosures: a Causal Framework for Auditing Synthetic Data [56.86147283213652]
データ開示の検出と説明を目的とした,カスタマイズ可能な実証監査フレームワークを提案する。
本フレームワークでは,ユーザの情報を直接再現する「真の開示」と,ユーザのデータを偶発的に生成する「幻の開示」とを区別する機構を導入する。
論文 参考訳(メタデータ) (2026-06-15T16:54:02Z) - Sparse Personalized Text Generation with Multi-Trajectory Reasoning [95.19317487799292]
PAT(Personalization with Aligned Trajectories)は、コールドスタートLDMパーソナライズのための推論フレームワークである。
まず、スタイリスティックに類似したユーザからの書き込みスタイルの手がかりと、嗜好に沿ったユーザからのトピック固有のコンテキストの2つの相補的なトラジェクトリに沿って情報を取得する。
次に、強化学習に基づく反復的な二重共振機構を用い、LLMはこれらの信号を共同で洗練し統合することができる。
論文 参考訳(メタデータ) (2026-04-27T20:58:49Z) - SynBench: A Benchmark for Differentially Private Text Generation [35.908455649647784]
医療や金融といった高度な分野におけるデータ駆動型意思決定のサポートは、データ共有にとって大きな障壁に直面している。
大規模言語モデルのような最近の生成AIモデルは、オープンドメインタスクにおいて印象的なパフォーマンスを示している。
しかし、彼らのセンシティブな環境への導入は、予測不可能な振る舞いと、プライバシー保護の不十分なデータセットによって制限されている。
論文 参考訳(メタデータ) (2025-09-18T03:57:50Z) - Differentially Private Relational Learning with Entity-level Privacy Guarantees [17.567309430451616]
本研究は,形式的エンティティレベルDP保証を用いた関係学習の原則的枠組みを提案する。
本稿では,実体発生頻度に基づいてクリッピング閾値を変調する適応的勾配クリッピング方式を提案する。
これらの貢献により、プライバシー保証が保証されたリレーショナルデータに対して、DP-SGDの修正版が提供される。
論文 参考訳(メタデータ) (2025-06-10T02:03:43Z) - Private prediction for large-scale synthetic text generation [28.488459921169905]
大規模言語モデル(LLM)を用いた微分プライベートテキスト生成手法を提案する。
プライベートな予測フレームワークでは、差分プライバシー保証を満たすために出力された合成データのみを必要とする。
論文 参考訳(メタデータ) (2024-07-16T18:28:40Z) - PrivacyMind: Large Language Models Can Be Contextual Privacy Protection Learners [81.571305826793]
コンテキストプライバシ保護言語モデル(PrivacyMind)を紹介する。
我々の研究はモデル設計に関する理論的分析を提供し、様々な手法をベンチマークする。
特に、肯定的な例と否定的な例の両方による命令チューニングは、有望な方法である。
論文 参考訳(メタデータ) (2023-10-03T22:37:01Z) - Private Set Generation with Discriminative Information [63.851085173614]
異なるプライベートなデータ生成は、データプライバシの課題に対する有望な解決策である。
既存のプライベートな生成モデルは、合成サンプルの有用性に苦慮している。
我々は,最先端アプローチのサンプルユーティリティを大幅に改善する,シンプルで効果的な手法を提案する。
論文 参考訳(メタデータ) (2022-11-07T10:02:55Z) - Just Fine-tune Twice: Selective Differential Privacy for Large Language
Models [69.66654761324702]
本稿では,大規模なトランスフォーマーベース言語モデルのためのSDPを実現するための,シンプルで効果的なジャストファイントゥンツースプライバシ機構を提案する。
実験により, カナリア挿入攻撃に対して頑健でありながら, 高い性能が得られた。
論文 参考訳(メタデータ) (2022-04-15T22:36:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。