論文の概要: Culturally-Adapted Red-Teaming Across East and Southeast Asian Contexts: A Methodological and Comparative Analysis
- arxiv url: http://arxiv.org/abs/2606.09178v1
- Date: Mon, 08 Jun 2026 08:17:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:06.825035
- Title: Culturally-Adapted Red-Teaming Across East and Southeast Asian Contexts: A Methodological and Comparative Analysis
- Title(参考訳): 文化的に適応した東アジアと東南アジアにおけるレッドチーム:方法論的および比較分析
- Authors: Hyeji Choi, Yongtaek Lim, Minwoo Kim,
- Abstract要約: 我々は,4言語で1:1のシードマッチングを用いて,DTと文化的適応データセットのペアを構築した。
攻撃成功率(ASR)と文化リアリズムのスコアを4つのオープンソース安全評価と比較した。
- 参考スコア(独自算出の注目度): 2.8523456804049885
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Multilingual safety evaluation of large language models (LLMs) has predominantly relied on direct translation (DT) of English benchmarks into target languages - an approach that converts surface-level linguistic form while failing to reflect the cultural context embedded in threat scenarios, social norms, and legal frameworks. We construct paired DT and culturally-adapted (CA) datasets via 1:1 seed matching for four languages - Korean (KO), Japanese (JA), Thai (TH), and Khmer (KM) - and compare Attack Success Rate (ASR) and Cultural Realism scores across four open-source LLM. CA prompts yield Delta-ASR > 0 across all 16 language x model combinations (mean +9.3 pp), and DT-based evaluation underestimates risk in 44 of 48 category x language combinations. Language-level analysis reveals that the distribution of threat forms is heterogeneous across languages. Cultural Realism analysis further shows that DT Cultural Depth (C3) scores remain consistently below 1.0 out of 3.0 across all four languages (mean 0.17), whereas CA scores reach up to 2.51, indicating that direct translation produces inputs systematically divergent from those encountered in real-world multicultural settings. These findings demonstrate that adapting benchmarks to language-specific cultural contexts - rather than relying on linguistic translation alone - is necessary for valid multilingual LLM safety evaluation.
- Abstract(参考訳): 大規模言語モデル(LLM)の多言語安全評価は、主に英語ベンチマークの直接翻訳(DT)を対象言語に頼っている。
我々は,韓国語 (KO), 日本語 (JA), タイ語 (TH), クメール語 (KM) の4言語に対する1:1のシードマッチングを用いて,ペアDTと文化的適応 (CA) データセットを構築し,4つのオープンソース LLM における攻撃成功率 (ASR) と文化的リアリズムスコアを比較した。
CA は 16 つの言語 x モデルの組み合わせ (平均 +9.3 pp) に対して Delta-ASR > 0 を出力し、DT ベースの評価は 48 のカテゴリ x 言語の組み合わせのうち 44 でリスクを過小評価する。
言語レベルでの分析により、脅威形態の分布は言語間で異質であることが判明した。
文化的リアリズム分析により、DT Culture Depth (C3)のスコアは、4つの言語(平均0.17)で3.0の1.0以下であり、CAのスコアは2.51まで達し、実際のマルチカルチャー設定で遭遇した結果と体系的に異なる入力を生成することを示している。
これらの結果から,言語翻訳のみに頼るのではなく,言語固有の文化文脈にベンチマークを適用することが,多言語LLMの安全性評価に有用であることが示唆された。
関連論文リスト
- ROK-FORTRESS: Measuring the Effect of Geopolitical Transcreation for National Security and Public Safety [2.929429337200341]
大規模言語モデルの安全性評価は、国家安全・公共安全(NSPS)リスクをますますターゲットにしている。
言語と地政学的文脈の相互作用の実証的な証拠は 狭い言語対に限られています
EmphROK-FORTRESSは、英語と韓国語の組み合わせと米国-ROKの地政軸をケーススタディとして用いた、バイリンガルで文化的に敵対的なNSPSベンチマークである。
論文 参考訳(メタデータ) (2026-05-13T22:07:22Z) - The GaoYao Benchmark: A Comprehensive Framework for Evaluating Multilingual and Multicultural Abilities of Large Language Models [51.61416200800499]
GaoYaoは182.3kサンプル、26言語、51か国/地域からなる総合ベンチマークである。
まず、GaoYao氏は評価タスクを3つの文化階層に分類する統一的なフレームワークを提案する。
第二に、専門家を活用して、主観的なベンチマークを19言語に厳格にローカライズすることで、ネイティブ品質の拡大を実現しています。
第3に,20以上のフラッグシップおよびコンパクトLCMの詳細な診断を行う。
論文 参考訳(メタデータ) (2026-04-22T06:19:46Z) - LASA: Language-Agnostic Semantic Alignment at the Semantic Bottleneck for LLM Safety [88.98698230989186]
大規模言語モデル(LLM)は、しばしば高リソース言語で強力な安全性性能を示すが、低リソース言語では深刻な脆弱性を示す。
このギャップは、言語に依存しない意味理解能力と、高リソース言語に偏った言語に支配的な安全アライメントのミスマッチによるものと考えられる。
セマンティック・アライメント(LASA)を提案し,セマンティック・ボトルネックに直接安全アライメントを固定する。
論文 参考訳(メタデータ) (2026-04-13T15:59:50Z) - "Be My Cheese?": Cultural Nuance Benchmarking for Machine Translation in Multilingual LLMs [0.0]
本稿では,機械翻訳における文化的ローカライゼーションを評価するための大規模評価ベンチマークを提案する。
言語毎に5つのネイティブスピーカーレーダを持つ15言語を対象に,多言語大言語モデル (LLM) を7つ評価した。
GPT-5 (2.10/3)、Claude Sonnet 3.7 (1.97/3)、Mistral Medium 3.1 (1.84/3)は破滅的な失敗が少ない最強の層である。
論文 参考訳(メタデータ) (2026-02-04T16:35:48Z) - Improving Methodologies for LLM Evaluations Across Global Languages [19.63570354411416]
このエクササイズは、安全行動が言語によってどのように異なるかを示しています。
また、多言語安全性評価を改善するための洞察も生み出した。
この研究は、先進的なAIシステムの多言語安全テストのための共有フレームワークに向けた最初のステップである。
論文 参考訳(メタデータ) (2026-01-22T07:18:08Z) - CRaFT: An Explanation-Based Framework for Evaluating Cultural Reasoning in Multilingual Language Models [0.42970700836450487]
CRaFTは,大規模言語モデル(LLM)が文化的文脈にどう影響するかを評価するために設計された,説明に基づく多言語評価フレームワークである。
我々はこの枠組みを、世界価値調査(World Values Survey)から50の文化的根拠のある質問に適用し、アラビア語、ベンガル語、スペイン語に翻訳し、2100以上の回答-説明ペアに対して3つのモデル(GPT、DeepSeek、FANAR)を評価する。
アラビア語は流布を減らし、ベンガル語はそれを強化し、スペイン語は概ね安定している。
論文 参考訳(メタデータ) (2025-10-15T18:49:10Z) - I Am Aligned, But With Whom? MENA Values Benchmark for Evaluating Cultural Alignment and Multilingual Bias in LLMs [5.060243371992739]
大規模言語モデル(LLM)の文化的アライメントと多言語バイアスを評価するための新しいベンチマークであるMENAValuesを紹介する。
大規模で権威ある人的調査から、我々は16カ国の人口レベルの応答分布を持つMENAの社会文化的景観を捉えた構造化データセットをキュレートした。
分析の結果,同じ質問が言語に基づいて大きく異なる反応をもたらす「クロス・Lingual Value Shifts」,その理由の説明を促す「Reasoning-induced Degradation」,モデルがセンシティブな質問を拒否する「Logit Leakage」,内部確率が強く隠蔽される「Logit Leakage」の3つの重要な現象が明らかになった。
論文 参考訳(メタデータ) (2025-10-15T05:10:57Z) - MMA-ASIA: A Multilingual and Multimodal Alignment Framework for Culturally-Grounded Evaluation [91.22008265721952]
MMA-ASIAは、アジア8か国と10か国を対象とする人為的、多言語的、マルチモーダルなベンチマークに重点を置いている。
これは、テキスト、画像(視覚的質問応答)、音声の3つのモードにまたがる入力レベルで整列された最初のデータセットである。
i) 国間の文化的認識格差、(ii) 言語間の整合性、(iii) 言語間の整合性、(iv) 文化知識の一般化、(v) 基礎的妥当性を評価する5次元評価プロトコルを提案する。
論文 参考訳(メタデータ) (2025-10-07T14:12:12Z) - Code-Switching In-Context Learning for Cross-Lingual Transfer of Large Language Models [64.54005959758733]
我々は,コードスイッチング・イン・コンテキスト・ラーニング(CSICL)を,推論中の翻訳障壁を克服するための原則的かつ堅牢なアプローチとして導入する。
4つのLLM、6つのデータセット、10の言語にわたる広範な実験を行い、知識集約型ドメインと推論指向ドメインの両方にまたがる。
その結果、CSICLはX-ICLベースラインを一貫して上回り、ターゲット言語と見当たらない言語の両方で3.1%pと1.9%pを達成した。
論文 参考訳(メタデータ) (2025-10-07T08:35:42Z) - XIFBench: Evaluating Large Language Models on Multilingual Instruction Following [59.549015333755186]
大規模言語モデル(LLM)は、様々なアプリケーションにまたがる優れた命令追従機能を示している。
既存の評価には、様々な言語的文脈におけるきめ細かい制約分析が欠如している。
我々は,LLMの多言語命令追従能力を評価するための総合ベンチマークであるXIFBenchを紹介する。
論文 参考訳(メタデータ) (2025-03-10T17:07:52Z) - LLMs Lost in Translation: M-ALERT uncovers Cross-Linguistic Safety Inconsistencies [63.10843814055688]
M-ALERTは5つの言語における大規模言語モデルの安全性を評価するベンチマークである。
M-ALERTには言語毎に15kの高品質なプロンプトが含まれており、合計で75k、カテゴリワイドアノテーションがある。
39種類のLLMに関する実験は,言語固有の安全性解析の重要性を強調した。
論文 参考訳(メタデータ) (2024-12-19T16:46:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。