論文の概要: AuAu: A Benchmark for Auditing Authoritarian Alignment in Large Language Models
- arxiv url: http://arxiv.org/abs/2606.16127v1
- Date: Mon, 15 Jun 2026 02:39:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-16 16:21:34.039799
- Title: AuAu: A Benchmark for Auditing Authoritarian Alignment in Large Language Models
- Title(参考訳): AuAu: 大規模言語モデルの権威的アライメントを監査するためのベンチマーク
- Authors: Andreas Einwiller, Max Klabunde, Florian Lemmerich,
- Abstract要約: AuAu は LLM が権威主義的な傾向を持つ応答を発生させるリスクを評価するためのベンチマークである。
中国、EU、ロシア、米国から17のモデルを評価します。
権威主義のシステムは17モデル中15モデルを容易に操作し、権威主義の増大を促進する。
- 参考スコア(独自算出の注目度): 1.7141383775114658
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The worldwide surge of authoritarianism, combined with the increasing central role in users' everyday lives, raises the question of to what extent specific models exhibit or promote authoritarian attitudes and characteristics. We introduce AuAu, a comprehensive benchmark that aims to assess the risk of LLMs generating responses with authoritarian tendencies. This benchmark combines three evaluation approaches: (i) psychometric questions from an extensive pool of 15 human validated instruments; (ii) contextual behavior vignettes probing intended actions in concrete situations; and (iii) responses to realistic user prompts. Unlike prior work, AuAu evaluates not only a general closeness towards authoritarianism but also the established sub-concepts Authoritarian Aggression, Authoritarian Submission, and Conventionalism. Evaluating 17 models from China, the EU, Russia, and the USA, we find that all tested models exhibit substantial authoritarian response rates under the psychometric evaluation, though rates drop significantly in increasingly more realistic downstream task. We further find that an authoritarian system prompt easily manipulates 15 out of 17 models to promote increased authoritarianism. Our results underscore the need for continued, systematic auditing of LLM-based AI systems to detect and ultimately mitigate undesired authoritarian tendencies in generated output. Our code and data are available at: https://github.com/andreaseinwiller/AuAu
- Abstract(参考訳): 世界的な権威主義の高まりと、ユーザーの日常生活における中心的な役割の増大が相まって、特定のモデルがどのように権威主義的態度や特徴を示すか、あるいは促進するかという疑問が提起される。
我々は,LLMが権威主義的な傾向を持つ応答を発生させるリスクを評価するための総合的なベンチマークであるAuAuを紹介する。
このベンチマークには3つの評価手法が組み合わさっている。
一 検証された15人の計器の広範なプールからの心理測定上の質問
二 具体的状況における意図した行為を調査する文脈的行為
(iii)現実的なユーザプロンプトに対する応答。
オーアウは以前の作品と異なり、権威主義に対する一般の近さだけでなく、権威主義の獲得、権威主義の委任、慣習主義の確立したサブコンセプトも評価している。
中国、EU、ロシア、米国から17種類のモデルを評価すると、テストされたモデルはすべて、心理的評価の下でかなり権威的な反応率を示すが、より現実的なダウンストリームタスクでは大幅に減少する。
さらに、権威主義的なシステムが17モデル中15モデルを容易に操作し、権威主義の増大を促進することが分かりました。
我々の研究結果は、LLMベースのAIシステムの継続的な、体系的な監査の必要性を浮き彫りにして、生成した出力における望ましくない権威主義的傾向を検出し、最終的に軽減する。
私たちのコードとデータは、https://github.com/andreaseinwiller/AuAuで利用可能です。
関連論文リスト
- Quantifying the Statistical Effect of Rubric Modifications on Human-Autorater Agreement [50.34437999083224]
オートレーダは、評価と自動モデレーションコンテンツにますます使われています。
ヒトとオートレーダの両方に提示されるルーブリックの修正がスコアアグリーメントにどのように影響するかは、統計学的に限定されている。
論文 参考訳(メタデータ) (2026-05-07T13:55:11Z) - Automatic Reviewers Fail to Detect Faulty Reasoning in Research Papers: A New Counterfactual Evaluation Framework [55.078301794183496]
我々は、高品質なピアレビューを支えるコアレビュースキル、すなわち欠陥のある研究ロジックの検出に注力する。
これは、論文の結果、解釈、クレームの間の内部の一貫性を評価することを含む。
本稿では,このスキルを制御条件下で分離し,テストする,完全自動対物評価フレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-29T08:48:00Z) - Democratic or Authoritarian? Probing a New Dimension of Political Biases in Large Language Models [72.89977583150748]
本研究では,大規模言語モデルとより広い地政学的価値システムとの整合性を評価する新しい手法を提案する。
LLMは一般的に民主的価値観や指導者を好んでいるが、マンダリンでの権威主義的人物に対する好意が増している。
論文 参考訳(メタデータ) (2025-06-15T07:52:07Z) - AI vs. Human Judgment of Content Moderation: LLM-as-a-Judge and Ethics-Based Response Refusals [0.0]
本稿では,モデルに基づく評価手法がユーザと異なる反応を評価できるかどうかを検討する。
LLM-as-a-Judgeシステムでは,人間よりも倫理的拒絶が有意に良好であることがわかった。
論文 参考訳(メタデータ) (2025-05-21T10:56:16Z) - Towards New Benchmark for AI Alignment & Sentiment Analysis in Socially Important Issues: A Comparative Study of Human and LLMs in the Context of AGI [0.25489046505746704]
本研究では,大規模言語モデル(LLM)と人間による人工知能(AGI)に対する感情について検討する。
GPT-4はAGIに対して最も肯定的な感情を、Bardは中立的な感情に傾いた。
この分析は、LLMの感情形成における関心と偏見の潜在的な対立を概説している。
論文 参考訳(メタデータ) (2025-01-05T13:18:13Z) - Auto-PRE: An Automatic and Cost-Efficient Peer-Review Framework for Language Generation Evaluation [52.76508734756661]
Auto-PREはピアレビュープロセスにインスパイアされた自動評価フレームワークである。
人間のアノテーションに依存する従来のアプローチとは異なり、Auto-PREは自動的に3つのコア特性に基づいて評価子を選択する。
要約,非ファクトイドQA,対話生成を含む3つの代表的なタスクの実験は,Auto-PREが最先端のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2024-10-16T06:06:06Z) - Counter Turing Test CT^2: AI-Generated Text Detection is Not as Easy as
You May Think -- Introducing AI Detectability Index [9.348082057533325]
AI生成テキスト検出(AGTD)はすでに研究で注目を集めているトピックとして現れている。
本稿では,既存のAGTD手法の脆弱性を総合的に評価することを目的とした手法のベンチマークであるCounter Turing Test (CT2)を紹介する。
論文 参考訳(メタデータ) (2023-10-08T06:20:36Z) - Principle-Driven Self-Alignment of Language Models from Scratch with
Minimal Human Supervision [84.31474052176343]
ChatGPTのような最近のAIアシスタントエージェントは、人間のアノテーションと人間のフィードバックからの強化学習を教師付き微調整(SFT)に頼り、アウトプットを人間の意図に合わせる。
この依存は、人間の監督を得るために高いコストがかかるため、AIアシスタントエージェントの真の可能性を大幅に制限することができる。
本稿では,AIエージェントの自己調整と人間監督の最小化のために,原則駆動推論とLLMの生成能力を組み合わせたSELF-ALIGNという新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-05-04T17:59:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。