Fugu-MT 論文翻訳(概要): Phun-Bench: Evaluating LLMs on Phonological Understanding in Chinese

論文の概要: Phun-Bench: Evaluating LLMs on Phonological Understanding in Chinese

arxiv url: http://arxiv.org/abs/2606.07300v1
Date: Fri, 05 Jun 2026 14:17:09 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-08 14:33:29.772349
Title: Phun-Bench: Evaluating LLMs on Phonological Understanding in Chinese
Title（参考訳）: Phun-Bench:中国語の音韻論的理解に関するLLMの評価
Authors: Xing Yue, Yongliang Shen, Weiming Lu,
Abstract要約: 既存の音韻的能力に関するベンチマークは、音韻的記憶によって解決されるか、他の能力と連動して、音韻的理解を測定するのに不十分である。ここではPhun-Benchについて紹介する。Phun-Benchは,3次元の多様なタスクと設定(ホモフォニー,リズム,音韻的類似性)を備えた,汎用的な中国語ベンチマークである。以上の結果から,LLMは正しい発音を思い出すのに優れているが,人間の話者が行う柔軟で直感的に音韻の知識を活用できないことが示唆された。
参考スコア（独自算出の注目度）: 21.39607432360906
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Language is a vehicle for thought, intricately tied to sounds, symbols, and meaning. However, most large language model (LLM) research focuses on meaning (semantics) and symbols (spelling) while largely overlooking sounds. Existing benchmarks on LLMs' phonological abilities are either solvable through rote memorization or intertwined with other abilities, making them inadequate to measure LLMs' genuine ability in phonological understanding. Here, we present Phun-Bench, a purpose-built Chinese benchmark with diverse tasks and settings across three dimensions (Homophony, Rhyme, and Phonetic Similarity), designed to systematically evaluate LLMs' phonological understanding. Our results show that while LLMs excel at recalling correct pronunciations, they generally struggle to leverage phonological knowledge in the flexible and intuitive way that human speakers do. Moreover, through detailed analyses, we propose a hypothesis regarding the underlying mechanism of LLMs' phonological understanding and "perception", highlighting an underexplored frontier for future research.
Abstract（参考訳）: 言語は思考のための道具であり、音、記号、意味に複雑に結びついている。しかし、ほとんどの大きな言語モデル(LLM)の研究は意味(意味論)と記号(意味論)に焦点を当てているが、ほとんど音を見下ろしている。 LLMの音韻的能力に関する既存のベンチマークは、音韻的記憶によって解決されるか、他の能力と連動して、音韻的理解においてLLMの真の能力を測定するのに不十分である。本稿では,LLMの音韻論的理解を体系的に評価するための,多種多様なタスクと3次元(ホモフォニー,リズム,音韻的類似性)を備えた中国語ベンチマークであるPhun-Benchを紹介する。以上の結果から,LLMは正しい発音を思い出すのに優れているが,人間の話者が行う柔軟で直感的に音韻の知識を活用できないことが示唆された。さらに, 詳細な分析を通じて, LLMの音韻学的理解と「知覚」の基盤となるメカニズムに関する仮説を提案し, 今後の研究の未解明のフロンティアを浮き彫りにしている。

関連論文リスト

Do Language Models Associate Sound with Meaning? A Multimodal Study of Sound Symbolism [20.62188582405012]
MLLM(Multimodal Large Language Models)が人間の言語における聴覚情報をどのように解釈するかを検討する。 LEX-ICONは,4つの自然言語から8,052個の単語からなる,広範囲なミメティックな単語データセットである。その結果,(1)MLLMの音韻直感は,複数の意味的次元にわたる既存の言語研究と一致し,(2)印象的音韻に焦点をあてる音韻的注意パターンが明らかになった。
論文参考訳（メタデータ） (2025-11-13T07:46:09Z)
SpeechIQ: Speech Intelligence Quotient Across Cognitive Levels in Voice Understanding Large Language Models [76.07833875692722]
音声に基づくインテリジェンス・クオシエント(SIQ)は、人間の認知にインスパイアされた評価パイプラインの新たな形態であり、大きな言語モデルを理解するためのものである。私たちのフレームワークは、認知原則を音声指向のベンチマークでブリッジする、第一種知能検査を表現しています。
論文参考訳（メタデータ） (2025-07-25T15:12:06Z)
PhoniTale: Phonologically Grounded Mnemonic Generation for Typologically Distant Language Pairs [51.745816131869674]
大規模言語モデル (LLM) は、学習者の第一言語 (L1) から類似したキーワードを活用して、L2語彙の獲得を支援することで、キーワード・メニーモニックを生成するために使われている。本稿では,IPAに基づく音韻的適応と音節認識アライメントを実行し,L1キーワードシーケンスを検索する新しい言語間メタモニック生成システムであるPhoniTaleを提案する。以上の結果から,PhoniTaleは従来の自動手法を一貫して上回り,人手によるメニーモニックに匹敵する品質を実現していることがわかった。
論文参考訳（メタデータ） (2025-07-07T19:50:12Z)
XToM: Exploring the Multilingual Theory of Mind for Large Language Models [57.9821865189077]
LLMにおける既存の心の理論の評価は英語に限られている。 XToMは5言語にまたがってToMを評価する,厳格に検証された多言語ベンチマークである。以上の結果から,LLMが言語的文脈にまたがって人間的なメンタライゼーションを再現する能力に限界があることが判明した。
論文参考訳（メタデータ） (2025-06-03T05:23:25Z)
When Less Language is More: Language-Reasoning Disentanglement Makes LLMs Better Multilingual Reasoners [111.50503126693444]
言語固有のアブレーションは多言語推論性能を継続的に向上させることを示す。トレーニング後のアブレーションと比較して、トレーニング不要のアブレーションは、計算オーバーヘッドを最小限に抑えながら、同等または優れた結果が得られる。
論文参考訳（メタデータ） (2025-05-21T08:35:05Z)
PhonologyBench: Evaluating Phonological Skills of Large Language Models [57.80997670335227]
音声学は、音声の構造と発音規則の研究であり、Large Language Model (LLM) 研究において批判的であるが、しばしば見落とされがちな要素である。 LLMの音韻的スキルを明示的にテストするための3つの診断タスクからなる新しいベンチマークであるPhonologyBenchを提案する。我々は,Rhyme Word GenerationとSyllable countingにおいて,人間と比較した場合,それぞれ17%と45%の有意なギャップを観察した。
論文参考訳（メタデータ） (2024-04-03T04:53:14Z)
Can phones, syllables, and words emerge as side-products of cross-situational audiovisual learning? -- A computational investigation [2.28438857884398]
いわゆる潜在言語仮説(LLH)について検討する。 LLHは言語表現学習を、知覚のモダリティ内および横断的な一般的な予測処理に結びつける。我々は、様々なニューラルネットワークモデルを用いた広範学習シミュレーションにおけるLLHをさらに探求する。
論文参考訳（メタデータ） (2021-09-29T05:49:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。