論文の概要: Auditing Proprietary Alignment in Large Language Models: A Comparative Framework Without a Ground-Truth Standard
- arxiv url: http://arxiv.org/abs/2606.08381v1
- Date: Sun, 07 Jun 2026 00:20:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:06.074373
- Title: Auditing Proprietary Alignment in Large Language Models: A Comparative Framework Without a Ground-Truth Standard
- Title(参考訳): 大規模言語モデルにおける韻律的アライメントの検証 - 地平標準のない比較フレームワーク
- Authors: Alireza Arbabi, Florian Kerschbaum,
- Abstract要約: 大規模言語モデル(LLM)はますますリリースされ、不透明な開発とデプロイメントパイプラインを通じてデプロイされる。
プロプライエタリなルールや組織的な関心を反映した反応を生成する様々なモデルが報告されている。
比較行動分析を用いてブラックボックス言語モデルにおける固有アライメントを検出する統計的枠組みを提案する。
- 参考スコア(独自算出の注目度): 19.605143530514777
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) are increasingly released and deployed through opaque development and deployment pipelines, enabling model providers to inject intentional, provider-specific policies without officially announcing them. As a result, various models have been reported to generate responses reflecting proprietary rules and organizational interests, leading to censorship or misinformation on controversial topics. However, systematic identification of such alignment remains a fundamental challenge, complicated by the ambiguity of what ``proprietary'' entails in different contexts. In this paper, we propose a statistical framework for detecting proprietary alignment in black-box language models via comparative behavioral analysis. Our approach quantifies systematic deviations between the responses of a target model and those of a reference set of baseline models in a shared semantic space. By evaluating relative behavioral divergence rather than absolute correctness, our framework enables principled auditing under black-box access. Applied to several widely discussed but previously unquantified cases, it provides a systematic and scalable basis for external assessment of provider-specific alignment behavior in large language models.
- Abstract(参考訳): 大規模言語モデル(LLM)はますますリリースされ、不透明な開発とデプロイメントパイプラインを通じてデプロイされる。
結果として、プロプライエタリなルールや組織的関心を反映した反応を生成する様々なモデルが報告され、議論の的となっているトピックに対する検閲や誤報につながった。
しかし、そのようなアライメントの体系的な同定は、異なる文脈で「プロプライエタリ」が持つもののあいまいさによって、依然として根本的な課題である。
本稿では,ブラックボックス言語モデルにおける固有アライメントを比較行動解析により検出する統計フレームワークを提案する。
提案手法は,対象モデルの応答と,共有意味空間におけるベースラインモデルの参照集合との系統的なずれを定量化する。
絶対的正当性よりも相対的行動分散性を評価することにより,ブラックボックスアクセス下での原則的監査を可能にする。
広く議論されているが、以前は不適切なケースにも適用され、大規模言語モデルにおけるプロバイダ固有のアライメントの外部評価のための体系的かつスケーラブルな基盤を提供する。
関連論文リスト
- MAVEN: Multi-Agent Verification-Elaboration Network with In-Step Epistemic Auditing [18.35295672031847]
MAVENは、LLMを明示的な役割分離を通じて意図的な推論に変換するように設計されたフレームワークである。
MAVEN は GEMINI-3.1-Pro などの潜在推論モデルより一貫して優れている。
MAVENは完全にモデルに依存しず、強力で伝達可能な推論ブースターとして機能する。
論文 参考訳(メタデータ) (2026-05-08T12:11:08Z) - Enhancing Multimodal In-Context Learning via Inductive-Deductive Reasoning [65.15766304205657]
In-context Learning (ICL) は、大規模なモデルをいくつかの例を使ってタスクに適応させるが、視覚言語モデル(VLM)への拡張は脆弱である。
我々の分析によると、基本的な限界は帰納的ギャップにあり、モデルはしばしば欠陥のある推論から正しい答えを導き出す。
帰納的帰納的プロセスとしてマルチモーダル ICL を再構成する枠組みを導入する。
論文 参考訳(メタデータ) (2026-05-04T09:18:19Z) - BiasLab: A Multilingual, Dual-Framing Framework for Robust Measurement of Output-Level Bias in Large Language Models [3.643198597030366]
本稿では,出力レベル(外部)バイアスの定量化を目的とした,オープンソースのモデルに依存しない評価フレームワークであるBiasLabを紹介する。
この枠組みは、人口統計学、文化学、政治学、地政学などの様々なバイアス軸の評価をサポートする。
論文 参考訳(メタデータ) (2026-01-11T11:07:46Z) - RoParQ: Paraphrase-Aware Alignment of Large Language Models Towards Robustness to Paraphrased Questions [0.0]
大規模言語モデル(LLM)は、パラフレーズ付き質問に答えるときに矛盾する振る舞いを示すことが多い。
クローズドブック多重選択QAにおけるクロスパラフレーズ一貫性を評価するベンチマークであるRoParQを紹介する。
また、モデルのロバスト性を定量化する新しい評価指標XParaConを提案する。
論文 参考訳(メタデータ) (2025-11-26T16:40:53Z) - Stress-Testing Model Specs Reveals Character Differences among Language Models [23.505192393830807]
大規模言語モデル(LLM)は、AI構成とモデル仕様からますます訓練されている。
本稿では,ストレステストモデルキャラクタ仕様の体系的手法を提案する。
我々は、現在のモデル仕様における矛盾と解釈の曖昧さの多くの事例を同定する。
論文 参考訳(メタデータ) (2025-10-09T02:24:37Z) - Model Correlation Detection via Random Selection Probing [62.093777777813756]
既存の類似性に基づく手法では、モデルパラメータにアクセスしたり、しきい値なしでスコアを生成する必要がある。
本稿では,モデル相関検出を統計的テストとして定式化する仮説テストフレームワークであるランダム選択探索(RSP)を紹介する。
RSPは相関の証拠を定量化する厳密なp-値を生成する。
論文 参考訳(メタデータ) (2025-09-29T01:40:26Z) - Preference Learning for AI Alignment: a Causal Perspective [55.2480439325792]
私たちはこの問題を因果パラダイムに枠組み化し、永続的な課題を特定するための因果関係の豊富なツールボックスを提供します。
因果推論の文献を継承し、信頼性の高い一般化に必要な重要な仮定を特定する。
そこで本研究では, 因果関係に基づくアプローチがモデルロバスト性をいかに改善するかを, ナイーブ報酬モデルの障害モードを例示する。
論文 参考訳(メタデータ) (2025-06-06T10:45:42Z) - A Closer Look at Bias and Chain-of-Thought Faithfulness of Large (Vision) Language Models [58.32070787537946]
思考の連鎖(CoT)推論は、大きな言語モデルの性能を高める。
大規模視覚言語モデルにおけるCoT忠実度に関する最初の総合的研究について述べる。
論文 参考訳(メタデータ) (2025-05-29T18:55:05Z) - Unsupervised Model Diagnosis [49.36194740479798]
本稿では,ユーザガイドを使わずに,意味論的対実的説明を生成するために,Unsupervised Model Diagnosis (UMO)を提案する。
提案手法は意味論における変化を特定し可視化し,その変化を広範囲なテキストソースの属性と照合する。
論文 参考訳(メタデータ) (2024-10-08T17:59:03Z) - Challenges to Evaluating the Generalization of Coreference Resolution Models: A Measurement Modeling Perspective [69.50044040291847]
本稿では, マルチデータセット評価が, 正確に測定されている要因を混同するリスクについて述べる。
これにより、これらの評価からより一般化可能な結論を引き出すのが難しくなる。
論文 参考訳(メタデータ) (2023-03-16T05:32:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。