Fugu-MT 論文翻訳(概要): Scenario-based Probing and Steering Cultural Values in Large Language Models--Extended Version

論文の概要: Scenario-based Probing and Steering Cultural Values in Large Language Models--Extended Version

arxiv url: http://arxiv.org/abs/2606.11399v1
Date: Tue, 09 Jun 2026 19:44:23 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-11 16:42:38.159271
Title: Scenario-based Probing and Steering Cultural Values in Large Language Models--Extended Version
Title（参考訳）: シナリオに基づく大規模言語モデルにおける文化的価値の探索とステアリング-拡張版
Authors: Trung Duc Anh Dang, Tung Kieu, Sarah Masud,
Abstract要約: 本研究では,大規模言語モデルにおける潜在文化的表現の探索とステアリングのための枠組みを提案する。社会的価値の質問をシナリオに基づく行動ジレンマに翻訳することにより、暗黙の値を測定するトークンレベルの確率を抽出する。一方の文化的側面に沿った介入が別の方向に沿って変化するため、操舵性はかなりのばらつきがみられ、潜在的絡み合いが特定される。
参考スコア（独自算出の注目度）: 5.97627108250811
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Large Language Models (LLMs) are deployed across cultural contexts but often reflect homogenized values inherited from training data. Evaluations of cultural alignment typically rely on direct prompting with survey-style questions, which frequently elicit neutral or safety-aligned responses and fail to capture underlying model preferences. We propose a framework for probing and steering latent cultural representations in LLMs along the two Inglehart--Welzel axes of the World Values Survey (WVS). By translating social value questions into scenario-based behavioral dilemmas, we extract token-level probabilities to measure implicit values and apply activation steering, optionally combined with country-conditioned prompting, to shift model behavior without retraining. Across three open-source LLMs and four target cultures, we find substantial variation in steerability and identify latent entanglement, where interventions along one cultural dimension induce shifts along another. This coupling mirrors correlations in human WVS data and persists across activation, prompt, and hybrid steering. It constrains axis-independent alignment, though general task performance is largely preserved.
Abstract（参考訳）: 大きな言語モデル(LLM)は、文化的な文脈にまたがってデプロイされるが、しばしばトレーニングデータから受け継がれた均質化された値を反映する。文化的アライメントの評価は、通常、調査スタイルの質問による直接的なプロンプトに頼っている。本稿では,世界価値調査(WVS)の2つのイングルハート-ヴェルツェル軸に沿って,LLMにおける潜在文化的表現の探索とステアリングを行う枠組みを提案する。社会的価値の質問をシナリオに基づく行動ジレンマに翻訳することにより、暗黙の値を測定するトークンレベルの確率を抽出し、任意に国が指定したプロンプトと組み合わせてアクティベーションステアリングを適用し、モデルの振る舞いをリトレーニングせずに変更する。 3つのオープンソースLDMと4つのターゲットカルチャーをまたがって、ステアビリティの相当なばらつきを発見し、ある文化的側面に沿った介入が別の文化的側面に沿った変化を誘発する潜在的絡み合いを同定する。この結合は、人間のWVSデータの相関を反映し、アクティベーション、プロンプト、ハイブリッドステアリングを越えて持続する。これは軸非依存のアライメントを制約するが、一般的なタスク性能はほとんど保存されている。

関連論文リスト

Cultural Value Alignment Via Latent Activation Steering in Large Language Models [4.181458436156503]
文化的評価と介入のための一般化可能な枠組みを提案する。 300のジレンマから暗黙のトークン確率を抽出することにより、表面レベルのアライメントをバイパスする。適応性にはかなりの変化が見られ、潜伏絡みの一貫した現象が明らかになる。
論文参考訳（メタデータ） (2026-05-25T22:20:52Z)
Mitigating Cross-Lingual Cultural Inconsistencies in LLMs via Consensus-Driven Preference Optimisation [58.01855677487771]
本研究では,多言語大言語モデル (MLLM) が,プロンプトの言語変化に伴う不整合性を示すことを示す。コンセンサス駆動型アライメントフレームワークであるC-3POを提案する。 C-3POは、非整合モデルよりも0.10ポイントの$_S$を絶対的に増加させ、強力なプロンプトと表現のステアリングベースラインを上回る。
論文参考訳（メタデータ） (2026-04-02T14:04:06Z)
LiveCultureBench: a Multi-Agent, Multi-Cultural Benchmark for Large Language Models in Dynamic Social Simulations [63.478832978278014]
大規模言語モデル(LLM)は、自律的なエージェントとしてますますデプロイされているが、評価は主に文化的適切性や評価者の信頼性よりもタスクの成功に焦点を当てている。シミュレーション町において, LLMをエージェントとして組み込んだマルチカルチャー動的ベンチマークであるLiveCultureBenchを紹介する。
論文参考訳（メタデータ） (2026-03-02T15:04:16Z)
I Am Aligned, But With Whom? MENA Values Benchmark for Evaluating Cultural Alignment and Multilingual Bias in LLMs [5.060243371992739]
大規模言語モデル(LLM)の文化的アライメントと多言語バイアスを評価するための新しいベンチマークであるMENAValuesを紹介する。大規模で権威ある人的調査から、我々は16カ国の人口レベルの応答分布を持つMENAの社会文化的景観を捉えた構造化データセットをキュレートした。分析の結果,同じ質問が言語に基づいて大きく異なる反応をもたらす「クロス・Lingual Value Shifts」,その理由の説明を促す「Reasoning-induced Degradation」,モデルがセンシティブな質問を拒否する「Logit Leakage」,内部確率が強く隠蔽される「Logit Leakage」の3つの重要な現象が明らかになった。
論文参考訳（メタデータ） (2025-10-15T05:10:57Z)
Revisiting LLM Value Probing Strategies: Are They Robust and Expressive? [81.49470136653665]
広範に利用されている3つの探索戦略における値表現の頑健さと表現性を評価する。人口統計学的文脈は自由テキスト生成にはほとんど影響を与えず、モデルの値は値に基づく行動の好みと弱い相関しか示さない。
論文参考訳（メタデータ） (2025-07-17T18:56:41Z)
A Dual-Layered Evaluation of Geopolitical and Cultural Bias in LLMs [0.6494933736121663]
大規模言語モデル(LLM)は、多種多様な言語や文化の文脈にまたがって展開されている。モデルバイアス(モデルトレーニングに由来するバイアス)と推論バイアス(クエリの言語によって誘導されるバイアス)の2種類を定義した。我々は、4つの言語と質問タイプにまたがって、事実と疑わしいQAの両方にまたがる手動でキュレートされたデータセットを構築した。
論文参考訳（メタデータ） (2025-06-27T03:37:15Z)
From Surveys to Narratives: Rethinking Cultural Value Adaptation in LLMs [62.9861554207279]
LLM(Large Language Models)における文化的価値の適応は大きな課題である。これまでの作業は主に、World Values Survey (WVS)データを使用して、LLMをさまざまな文化的価値と整合させる。我々は,文化価値適応のためのWVSベースのトレーニングについて検討し,調査データのみに頼って文化規範を実践し,事実知識に干渉することを発見した。
論文参考訳（メタデータ） (2025-05-22T09:00:01Z)
Randomness, Not Representation: The Unreliability of Evaluating Cultural Alignment in LLMs [7.802103248428407]
我々は,現在の調査に基づく評価手法の背景にある3つの仮定を特定し,検証する。提示形式間の不安定性,評価された文化次元と保持された文化的次元間の不整合性,即時操舵時の不整合性などについて検討した。
論文参考訳（メタデータ） (2025-03-11T17:59:53Z)
ValuesRAG: Enhancing Cultural Alignment Through Retrieval-Augmented Contextual Learning [1.1343849658875087]
ValuesRAGは、テキスト生成中に文化的および人口統計学的知識を動的に統合する新しいフレームワークである。本研究では,6つの地域データセットを用いてValuesRAGを評価し,ベースラインを一貫して上回ることを示す。本研究は,グローバルLLM能力と局所文化的価値のギャップを埋める動的検索手法の可能性を明らかにするものである。
論文参考訳（メタデータ） (2025-01-02T03:26:13Z)
CIVICS: Building a Dataset for Examining Culturally-Informed Values in Large Language Models [59.22460740026037]
大規模言語モデル(LLM)の社会的・文化的変動を評価するためのデータセット「CIVICS:文化インフォームド・バリュース・インクルーシブ・コーパス・フォー・ソシエティ・インパクト」我々は、LGBTQIの権利、社会福祉、移民、障害権利、代理など、特定の社会的に敏感なトピックに対処する、手作りの多言語プロンプトのデータセットを作成します。
論文参考訳（メタデータ） (2024-05-22T20:19:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。