論文の概要: Marginal Alignment Does Not Guarantee Joint-Distribution Fidelity: An Official-Reference Audit of Nemotron-Personas-Korea with Cross-Locale Replication
- arxiv url: http://arxiv.org/abs/2606.12433v1
- Date: Fri, 15 May 2026 17:42:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-15 07:09:36.894788
- Title: Marginal Alignment Does Not Guarantee Joint-Distribution Fidelity: An Official-Reference Audit of Nemotron-Personas-Korea with Cross-Locale Replication
- Title(参考訳): マージナルアライメントは関節分布フィデリティを保証しない:クロスローカレリプリケーションを伴うネモトロン・ペルサス・韓国のオフィシャル・レファレンス・オーディ
- Authors: Joonhyung Bae,
- Abstract要約: マージナルアライメントは、これらの関節が保存されていることを示唆していない。
シリコン試料として使用される合成ペルソナの場合、限界クレームは再利用前に公開アンコールされた共同監査と組み合わせなければならない。
- 参考スコア(独自算出の注目度): 0.5076419064097734
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Synthetic persona datasets cite alignment with official demographics as a basis for trust, yet downstream users consume them as joint structures across age, sex, region, occupation, education, name, and institutional status. Marginal alignment does not imply that these joints are preserved. We propose the Independence-Assumption Footprint (IAF), an audit primitive that operates on the attribute combinations a dataset card itself documents as treated independently. For each such combination, IAF compares the synthetic joint against an external official or institutional reference, using direct joint tables where available and rule-implied checks otherwise. Applied to NVIDIA Nemotron-Personas-Korea (one million Korean synthetic personas), IAF finds that NPK aligns with KOSIS marginals while three joints fail. The major-by-occupation distribution against the KEIS graduate universe carries a large conditional mismatch. The age profile of military service is institutionally inconsistent. Female representation in male-dominated occupations is substantially over-flattened toward parity, with the strict screening verdict mapping-dependent and age-robust under direct standardisation. A transferability demonstration across six further NPK locales finds locale-dependent rather than universal diagnostics, with reference-taxonomy cardinality confounding cross-locale flag counts. For synthetic personas used as silicon samples, marginal claims must therefore be paired with disclosure-anchored joint audits before reuse. The released audit artefacts (reference manifests, occupational crosswalks, derived metrics, reproducibility scripts) instantiate this protocol on the NPK family and are released for retargeting at other synthetic persona resources.
- Abstract(参考訳): シンセティック・ペルソナのデータセットは、信頼の基礎として公式な人口統計と一致しているが、下流のユーザーは年齢、性別、地域、職業、教育、名前、制度的な地位のジョイント構造としてそれらを消費している。
マージナルアライメントは、これらの関節が保存されていることを示唆していない。
本稿では,データセットカード自体の文書を独立処理として組み合わせた監査プリミティブであるIndependent-Assumption Footprint (IAF)を提案する。
それぞれの組み合わせについて、IAFは合成関節を外部の職員または機関の基準と比較し、使用可能な直接関節テーブルとルールによって実装されたチェックを使用します。
IAFは、NVIDIA Nemotron-Personas-Korea(100万人の韓国人合成人格)に応用して、NPKがKoSISのマージンと一致し、3つのジョイントが故障していることを発見した。
KEISの卒業宇宙に対する主要な占有分布は、大きな条件ミスマッチを持つ。
兵役年齢は制度上不整合である。
男性優位の職業における女性の表現は、直接の標準化の下で、厳密な検査による地図依存と年齢差により、実質的にパリティに向かって過度に平坦化されている。
6つのNPKローカライズにまたがるトランスファービリティのデモンストレーションでは、共通診断よりもローカライズに依存しており、参照-分類基準はクロスローカライズフラグ数と一致する。
シリコン試料として用いられる合成ペルソナの場合、限界クレームは再利用前に公開アンコールされた共同監査と組み合わせなければならない。
リリースされた監査アーティファクト(参照マニフェスト、職業横断歩道、派生メトリクス、再現性スクリプト)は、NPKファミリー上でこのプロトコルをインスタンス化し、他の合成ペルソナリソースの再ターゲティングのためにリリースされる。
関連論文リスト
- Federated Naive Bayes with Real Mixture of Gaussians and Institutional Governance Regularization for Network Intrusion Detection [0.0]
侵入検知のためのフェデレーション学習は、すべての参加機関が共有モデルに等しく貢献するという欠陥のある前提に基づいている。
実際には、成熟したセキュリティコントロールと低い脆弱性エクスポージャーを持つ金融機関は、弱いコントロールと高い脆弱性エクスポージャーを持つ政府機関と根本的に異なるデータを生成する。
ローカルモデルをモデルとして扱うことで、組織が標準的なリスク管理監査を通じて収集した情報を破棄する。
論文 参考訳(メタデータ) (2026-05-18T16:54:49Z) - Concordia: Self-Improving Synthetic Tables for Federated LLMs [80.03837595689608]
フェデレートラーニングは、生データを共有することなく、大きな言語モデル(LLM)をトレーニングすることを可能にする。
合成データ生成とフェデレートされた検証ユーティリティを連携させるフレームワークであるConcordiaを提案する。
論文 参考訳(メタデータ) (2026-05-11T01:17:58Z) - Alignment Reduces Expressed but Not Encoded Gender Bias: A Unified Framework and Study [3.679036235271287]
本研究では,大規模言語モデルにおける内在性および外在性バイアスを共同で分析するための統一的な枠組みを提案する。
統一されたプロトコルで測定すると、潜在性情報と表現バイアスが一貫した関連性を見出す。
以上の結果から,後者は表現バイアスを実際に減少させるが,測定可能な性別関連関係は依然として内部表現に存在していることが示唆された。
論文 参考訳(メタデータ) (2026-03-25T09:35:18Z) - Federated Measurement of Demographic Disparities from Quantile Sketches [4.991212094743681]
Horizontal Federated Learning (FL)は、生データを共有せずに、連携した機能を持つクライアント間の協調モデリングを可能にする。
本研究は, スコア分布による人口動態の相互監査, ワッサーシュタインとしての格差の測定, センシティブグループスコア法間の差異について検討する。
本稿では,各サイロがグループ数のみを共有し,その局所的なスコア分布を定量的に要約するワンショット通信効率のプロトコルを提案する。
論文 参考訳(メタデータ) (2026-02-21T15:34:44Z) - Federated learning for unpaired multimodal data through a homogeneous transformer model [0.0]
本稿では,フェデレートされていない基礎モデルの数学的バックボーンを確立する。
これにより、グローバルモデルは、断片化、分離、プライベートデータサイロから世界の統一された表現を学ぶことができる。
論文 参考訳(メタデータ) (2026-01-25T20:30:21Z) - Reconstructing Trust Embeddings from Siamese Trust Scores: A Direct-Sum Approach with Fixed-Point Semantics [0.0]
本研究では,多くの分散セキュリティフレームワークが公開している1次元シームズ信頼スコアから高次元信頼埋め込みを再構築する逆問題について検討する。
合成ベンチマークのスイートは、ガウスノイズの存在下でも、回収された埋め込みはユークリッドとコサインの計測値によって測定されたデバイス間幾何学を保存することを確認している。
詳細な信頼スコアを公開することで、デバイスと評価モデルの両方に関する潜伏した行動情報が漏洩する可能性がある。
論文 参考訳(メタデータ) (2025-08-02T20:19:22Z) - On Reference (In-)Determinacy in Natural Language Inference [62.904689974282334]
我々は、自然言語推論(NLI)タスクにおける基準決定性(RD)仮定を再考する。
我々は、現在のNLIモデルは、入力前提と仮説が異なるコンテキストを参照できる事実検証のような下流アプリケーションでは失敗するのを観察する。
NLI例における参照曖昧性を特定するための診断ベンチマークであるRefNLIを紹介する。
論文 参考訳(メタデータ) (2025-02-09T06:58:13Z) - Divide and Contrast: Source-free Domain Adaptation via Adaptive
Contrastive Learning [122.62311703151215]
Divide and Contrast (DaC) は、それぞれの制限を回避しつつ、両方の世界の善良な端を接続することを目的としている。
DaCは、ターゲットデータをソースライクなサンプルとターゲット固有なサンプルに分割する。
さらに、ソースライクなドメインと、メモリバンクベースの最大平均離散性(MMD)損失を用いて、ターゲット固有のサンプルとを整合させて、分散ミスマッチを低減する。
論文 参考訳(メタデータ) (2022-11-12T09:21:49Z) - Relational Proxies: Emergent Relationships as Fine-Grained
Discriminators [52.17542855760418]
本稿では,オブジェクトのグローバル部分とローカル部分の間の情報を利用してラベルを符号化する手法を提案する。
我々は、理論的な結果に基づいてプロキシを設計し、7つの挑戦的なきめ細かいベンチマークデータセットに基づいて評価する。
また、この理論を実験的に検証し、複数のベンチマークで一貫した結果を得る。
論文 参考訳(メタデータ) (2022-10-05T11:08:04Z) - Confident Sinkhorn Allocation for Pseudo-Labeling [40.883130133661304]
半教師付き学習は、ラベル付きデータへの機械学習の依存を減らす重要なツールである。
本稿では,疑似ラベル作成における不確実性の役割を理論的に研究し,CSA(Confident Sinkhorn Allocation)を提案する。
CSAは、信頼度の高いサンプルのみへの最適な輸送を通して、最高の擬似ラベル割り当てを特定する。
論文 参考訳(メタデータ) (2022-06-13T02:16:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。