論文の概要: P3B3: A Multi-Turn Conversational Benchmark for Measuring European and Brazilian Portuguese Variety Bias in LLMs
- arxiv url: http://arxiv.org/abs/2606.16753v1
- Date: Mon, 15 Jun 2026 14:10:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-16 16:21:34.602047
- Title: P3B3: A Multi-Turn Conversational Benchmark for Measuring European and Brazilian Portuguese Variety Bias in LLMs
- Title(参考訳): P3B3: LLMにおけるヨーロッパとブラジルのポルトガルの多様性バイアスの測定のための多段階対話ベンチマーク
- Authors: Rafael Ferreira, Inês Vieira, Inês Calvo, James Furtado, Iago Paulo, Diogo Tavares, Diogo Glória-Silva, David Semedo, João Magalhães,
- Abstract要約: ポルトガル、ヨーロッパ(pt-PT)、ブラジル(pt-BR)では、pt-BRがデータ量を支配している。
P3B3は、専門家による会話プロンプトの言語バラエティベンチマークである。
実験の結果、ほとんどの大規模言語モデルはpt-BRに対して強いバイアスを示し、モデル間での制御性の変化が示されている。
- 参考スコア(独自算出の注目度): 6.876400358750551
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As Large Language Models (LLMs) become embedded in everyday communication, capturing regional linguistic variation is essential for reliable and equitable language use. In Portuguese, European (pt-PT) and Brazilian (pt-BR) varieties remain unevenly represented, with pt-BR dominating in data quantity, while LLM preference for Portuguese variants remains underexplored. To address this gap, we introduce P3B3, an expert-curated language variety agnostic benchmark of conversational prompts, along with an evaluation framework for measuring variety bias and controllability. Experiments on several models show that most LLMs exhibit a strong bias toward pt-BR, with variation in controllability across models. These results highlight the need for more balanced multilingual representation across language varieties.
- Abstract(参考訳): 大規模言語モデル(LLM)が日常的なコミュニケーションに埋め込まれるにつれて、地域言語の変化を捉えることは、信頼性と公平な言語使用にとって不可欠である。
ポルトガルでは、ヨーロッパ (pt-PT) とブラジル (pt-BR) の品種は不均一に表現され、pt-BRはデータ量で支配的であり、LLMはポルトガルの品種を好んでいる。
このギャップに対処するため,専門家による会話のプロンプトの言語変数に依存しないベンチマークであるP3B3と,多様なバイアスと可制御性を評価するための評価フレームワークを紹介する。
いくつかのモデルでの実験では、ほとんどのLCMはpt-BRに対して強いバイアスを示し、モデル間での制御性の変化が示されている。
これらの結果は、言語多様体間のよりバランスの取れた多言語表現の必要性を強調している。
関連論文リスト
- ALBA: A European Portuguese Benchmark for Evaluating Language and Linguistic Dimensions in Generative LLMs [6.876400358750551]
ヨーロッパポルトガル語(pt-PT)における言語関連タスクの習熟度を評価するためのベンチマークであるALBAを紹介する。
ALBAは言語の専門家によって手動で構築され、pt-PT生成言語のスケーラブルな評価のためのLLM-as-a-judgeフレームワークと組み合わせられる。
さまざまなモデルのモデルに対する実験は、言語的側面にわたるパフォーマンスの変動を明らかにし、包括的な多彩なベンチマークの必要性を強調している。
論文 参考訳(メタデータ) (2026-03-27T15:25:44Z) - KatotohananQA: Evaluating Truthfulness of Large Language Models in Filipino [0.0]
本稿では、TruthfulQAベンチマークのフィリピン翻訳であるKatotohananQAを紹介する。
7つの自由層プロプライエタリモデルがバイナリ選択フレームワークを使用して評価された。
発見は、英語とフィリピンの真実性の間に大きなパフォーマンスのギャップがあることを示している。
論文 参考訳(メタデータ) (2025-09-07T14:09:57Z) - MuBench: Assessment of Multilingual Capabilities of Large Language Models Across 61 Languages [33.450081592217074]
MuBenchは61の言語をカバーし、幅広い機能を評価するベンチマークです。
我々は、最先端の多言語LLMを評価し、請求項と実際の言語カバレッジとの間に顕著なギャップを見いだした。
論文 参考訳(メタデータ) (2025-06-24T09:53:00Z) - M-Prometheus: A Suite of Open Multilingual LLM Judges [65.63858815169924]
M-Prometheusは,多言語出力の直接評価とペア比較フィードバックを両立できるオープンウェイトLLM判定器のスイートである。
M-Prometheusモデルは、20以上の言語にまたがる多言語報酬ベンチマークや、4つの言語対をカバーする文語機械翻訳(MT)評価において、最先端のLLM判事より優れている。
論文 参考訳(メタデータ) (2025-04-07T11:37:26Z) - Balanced Multi-Factor In-Context Learning for Multilingual Large Language Models [53.38288894305388]
MLLM(Multilingual Large Language Model)は,言語間知識伝達をパラメータ更新なしで活用することにより,文脈内学習(ICL)を活用して高い性能を実現する。
1) 意味的類似性,(2) 言語的アライメント,(3) 言語固有のパフォーマンスの3つの要因が多言語ICLに影響を与える。
我々は,これらの因子を定量化し,最適にバランスをとる手法として,バランスの取れた多要素ICL(textbfBMF-ICL)を提案する。
論文 参考訳(メタデータ) (2025-02-17T06:56:33Z) - Multi-IF: Benchmarking LLMs on Multi-Turn and Multilingual Instructions Following [51.18383180774354]
Multi-IFは,大規模言語モデルの習熟度を多元的および多言語的指示に従って評価するための新しいベンチマークである。
Multi-IF 上での14の最先端 LLM の評価結果から,既存のベンチマークよりもはるかに難しい課題であることが判明した。
非ラテン文字(ヒンディー語、ロシア語、中国語)を持つ言語は一般的に高いエラー率を示し、モデルの多言語能力の潜在的な制限を示唆している。
論文 参考訳(メタデータ) (2024-10-21T00:59:47Z) - Quality or Quantity? On Data Scale and Diversity in Adapting Large Language Models for Low-Resource Translation [62.202893186343935]
低リソース言語に大規模言語モデルを適用するのに何が必要かについて検討する。
我々は、事前トレーニングとスーパーバイザードファインチューニング(SFT)の間に並列データが重要であることを示す。
2つの低リソース言語群にまたがる3つの LLM 実験により,本研究の一般化可能性を示す一貫した傾向が示された。
論文 参考訳(メタデータ) (2024-08-23T00:59:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。