論文の概要: Evaluation of Small Language Models for Arabic Language Processing
- arxiv url: http://arxiv.org/abs/2606.21460v1
- Date: Fri, 19 Jun 2026 14:16:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-25 13:20:27.11961
- Title: Evaluation of Small Language Models for Arabic Language Processing
- Title(参考訳): アラビア語処理のための小言語モデルの評価
- Authors: Jumana Alsubhi, Ahmed Alhusayni, Abdulrahman Gharawi, Israa Hamdine, Alshaymaa Allahim, Lamees Alhumaid, Ahmad Shabana, Rafik Madani,
- Abstract要約: この研究では、8つのドメインと10の言語スキルにまたがる240のアラビアテスト項目のベンチマークを紹介した。
全てのモデルは、標準のアラビア文字のみのプロンプトテンプレートを使用して、制御されたゼロショット設定で評価された。
より強いアラビアアライメントとより信頼性の高い指示追従行動を持つモデルは、タスク間でより良く機能する傾向にあった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper evaluates the performance of twelve Small Language Models (SLMs) on Arabic natural language processing tasks. The study introduces a benchmark of 240 Arabic test items distributed across eight domains and ten language skills, covering both comprehension-oriented and generation-oriented tasks. All models were evaluated under a controlled zero-shot setting using a standardized Arabic-only prompt template. Model responses were assessed through a multi-model LLM-as-a-judge framework involving GPT-4.1 Mini, Claude Haiku 4.5, and DeepSeek-Chat, with scores aggregated across judges and analyzed by task, skill, and model family. The results show that Gemma 3 (12B) achieved the highest overall score (4.548/5), followed by Aya and C4AI Command Arabic. The observed results suggest that model size alone does not explain Arabic SLM performance. Models with stronger Arabic alignment and more reliable instruction-following behavior tended to perform better across tasks. Common failure patterns among lower-performing models include prompt leakage, hallucination, language drift, incomplete generation, and weak task adherence. Overall, the benchmark provides a structured reference for evaluating compact Arabic language models and supports future work on efficient, reliable, and culturally appropriate Arabic AI systems.
- Abstract(参考訳): 本稿では,アラビア語処理タスクにおけるSLM(Small Language Models)の性能評価を行う。
この研究では、8つのドメインと10の言語スキルにまたがる240のアラビアテスト項目のベンチマークを紹介し、理解指向と世代指向の両方のタスクをカバーした。
全てのモデルは、標準のアラビア文字のみのプロンプトテンプレートを使用して、制御されたゼロショット設定で評価された。
モデル応答は、GPT-4.1 Mini、Claude Haiku 4.5、DeepSeek-Chatを含むマルチモデルLCM-as-a-judgeフレームワークを用いて評価された。
その結果、Gemma 3 (12B) が最高スコア(4.548/5)を獲得し、Aya と C4AI Command アラビア語が続いた。
その結果, モデルサイズだけではアラビアSLMの性能は説明できないことが示唆された。
より強いアラビアアライメントとより信頼性の高い指示追従行動を持つモデルは、タスク間でより良く機能する傾向にあった。
低パフォーマンスモデルに共通する障害パターンには、即時リーク、幻覚、言語ドリフト、不完全生成、弱いタスク順守などがある。
全体として、このベンチマークは、コンパクトなアラビア言語モデルを評価するための構造化されたリファレンスを提供し、効率的で信頼性があり、文化的に適切なアラビアAIシステムに関する将来の作業をサポートする。
関連論文リスト
- Evaluating Modern Large Language Models on Low-Resource and Morphologically Rich Languages:A Cross-Lingual Benchmark Across Cantonese, Japanese, and Turkish [12.286855282078305]
GPT-4o, GPT-4, Claude3.5Sonnet, LLaMA3.1, MistralLarge2, LLaMA-2Chat13B, Mistral7B Instructを評価した。
我々のベンチマークは、オープンドメイン質問応答、文書要約、英語からXへの翻訳、文化的根拠のある対話の4つのタスクにまたがっている。
論文 参考訳(メタデータ) (2025-11-05T22:09:53Z) - Advancing Dialectal Arabic to Modern Standard Arabic Machine Translation [22.369277951685234]
本稿では,レバンタ語,エジプト語,湾岸方言のDA-MSA翻訳の進展に寄与する2つの中核的貢献について述べる。
ゼロショット,チェーン・オブ・シント,提案手法であるAra-TEaR法を改良した。
微調整 LLM では、量子化された Gemma2-9B モデルが 49.88 の chrF++ スコアを獲得し、ゼロショット GPT-4o (44.58) を上回った。
論文 参考訳(メタデータ) (2025-07-27T14:37:53Z) - How well can LLMs Grade Essays in Arabic? [3.101490720236325]
本研究では,AR-AESデータセットを用いたアラビア語自動エッセイスコアリング(AES)タスクにおける大規模言語モデル(LLM)の有効性を評価する。
ゼロショット、少数ショットのインコンテキスト学習、微調整など、さまざまな評価手法を探求する。
英語のプロンプトとアラビア語のコンテンツを統合する混合言語プロンプト戦略は、モデル理解とパフォーマンスを改善するために実装された。
論文 参考訳(メタデータ) (2025-01-27T21:30:02Z) - ArabicMMLU: Assessing Massive Multitask Language Understanding in Arabic [51.922112625469836]
アラビア語における最初のマルチタスク言語理解ベンチマークである、データセット名を提案する。
我々のデータは、現代標準アラビア語(MSA)における40のタスクと14,575のマルチチョイス質問で構成されており、地域の母語話者と協調して慎重に構築されている。
35モデルについて評価した結果,特にオープンソースモデルにおいて,改善の余地がかなり高いことが判明した。
論文 参考訳(メタデータ) (2024-02-20T09:07:41Z) - AceGPT, Localizing Large Language Models in Arabic [73.39989503874634]
本稿では,アラビア語のテキストによる事前学習,ネイティブなアラビア語命令を利用したSFT(Supervised Fine-Tuning),アラビア語のGPT-4応答を含む総合的なソリューションを提案する。
目標は、文化的に認知され、価値に整合したアラビア語のLLMを、多様で応用特有のアラビア語コミュニティのニーズに適応させることである。
論文 参考訳(メタデータ) (2023-09-21T13:20:13Z) - ChatGPT for Arabic Grammatical Error Correction [5.945320097465418]
大きな言語モデル(LLM)は、人間の指示に従うように微調整され、英語のNLPタスクにおいて重要な機能を示した。
本稿では,アラビア語の豊富な形態が原因で複雑化した課題である,アラビア語 GEC における微調整 LLM の指導能力について検討する。
命令の微調整モデルは,そのサイズによらず,かなり小型の完全微調整モデルに比べて性能が劣ることがわかった。
論文 参考訳(メタデータ) (2023-08-08T18:00:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。