論文の概要: Arabic Sentence Segmentation Across Genres and Punctuation Conditions
- arxiv url: http://arxiv.org/abs/2606.08025v1
- Date: Sat, 06 Jun 2026 07:37:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:05.670481
- Title: Arabic Sentence Segmentation Across Genres and Punctuation Conditions
- Title(参考訳): アラビア語文セグメンテーションと句読解条件
- Authors: Mohammed Elkholy, Khalid N. Elmadani, Nizar Habash, Bashar Alhafni,
- Abstract要約: AraSEGは8つのジャンルと幅広い句読点と文書構造条件にまたがるジャンル間文セグメンテーションコーパスである。
LLM、軽量エンコーダモデル、および依存性ベースのモデルを、ますます困難なセグメンテーション設定下で評価する。
精度の高い文セグメンテーションにより、下流の係り受け解析が大幅に改善されることを示す。
- 参考スコア(独自算出の注目度): 14.737566818645663
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sentence segmentation in Arabic is challenging due to ambiguous and inconsistent punctuation, with many texts lacking reliable sentence boundary markers. Existing approaches rely heavily on punctuation cues and are typically evaluated on well-formed text, limiting their robustness in realistic Arabic settings. To address this, we introduce AraSEG, a genre-diverse sentence segmentation corpus spanning eight genres and a wide range of punctuation and document structure conditions. Using AraSEG, we evaluate LLMs, lightweight encoder models, and dependency parser-based models under increasingly challenging segmentation settings. Our experiments show that lightweight encoders, and even dependency parser-based models, outperform LLMs in the most challenging settings. We further investigate the effects of training data size and genre diversity, finding that performance eventually saturates and cross-genre generalization remains challenging. We also demonstrate that accurate sentence segmentation substantially improves downstream dependency parsing. We make our code, data, and models publicly available.
- Abstract(参考訳): アラビア語の文節化は、不明瞭で一貫性のない句読点のため困難であり、多くのテキストには信頼性のある文境界マーカーが欠如している。
既存のアプローチは句読点に大きく依存しており、典型的には順調なテキストで評価され、アラビアの現実的な設定においてその頑丈さを制限している。
そこで本研究では,8つのジャンルにまたがるジャンル間文セグメンテーションコーパスであるAraSEGを紹介する。
AraSEGを用いて,LLM,軽量エンコーダモデル,依存性パーサベースモデルを,ますます困難なセグメンテーション設定下で評価する。
我々の実験では、軽量エンコーダや依存性パーサベースのモデルさえも、最も困難な設定でLLMを上回ります。
さらに、トレーニングデータサイズとジャンルの多様性の影響について検討し、パフォーマンスが最終的に飽和し、クロスジェネリックな一般化が困難なままであることを示す。
また、正確な文分割が下流依存性解析を大幅に改善することを示した。
コード、データ、モデルを公開しています。
関連論文リスト
- Arabic Morphosyntactic Tagging and Dependency Parsing with Large Language Models [13.143003615122245]
大規模言語モデル(LLM)は多くのNLPタスクで強く機能するが、明示的な言語構造を生成する能力は未だ不明である。
アラビア標準語における2つの構造的予測タスク(モルフォシンタクティックタグ付けとラベル付き依存解析)について,命令調整型LLMの評価を行った。
論文 参考訳(メタデータ) (2026-03-17T16:06:29Z) - Resource-Efficient Adaptation of Large Language Models for Text Embeddings via Prompt Engineering and Contrastive Fine-tuning [3.9914181590063884]
大規模言語モデル(LLM)は自然言語処理(NLP)の基盤となっている。
プリトレーニングされたデコーダのみのLLMの適応戦略について検討する。
論文 参考訳(メタデータ) (2025-07-30T14:49:30Z) - Learning Robust Negation Text Representations [60.23044940174016]
本稿では,テキストエンコーダの否定とヘッジを多種多様なパターンを用いて改善する戦略を提案する。
我々は,一般的なベンチマーク上での競合性能を維持しつつ,否定理解能力の大幅な向上を観察する。
提案手法は LLM に適用可能であり, ネゲーションベンチマークの性能向上に寄与する。
論文 参考訳(メタデータ) (2025-07-17T04:48:54Z) - Lemmatization as a Classification Task: Results from Arabic across Multiple Genres [9.896789483253189]
アラビア語のような曖昧な正書法を持つ形態学的に豊かな言語におけるNLPタスクには、レマタイゼーションが不可欠である。
本稿では,Lemma-POS-Gloss (LPG) タグセットの分類として,補題化を枠組み化する2つの新しい手法を提案する。
また、既存のデータセットと共に標準化された様々なジャンルをカバーする新しいアラビア語の補題化テストセットも提示する。
論文 参考訳(メタデータ) (2025-06-23T08:34:33Z) - Idiosyncrasies in Large Language Models [54.26923012617675]
大規模言語モデル(LLM)における慣用句の公開と研究
LLM生成テキストへの微調整テキスト埋め込みモデルにより,優れた分類精度が得られることがわかった。
我々はLLMを審査員として利用し、各モデルの慣用句の詳細かつオープンな記述を生成する。
論文 参考訳(メタデータ) (2025-02-17T18:59:02Z) - Harnessing the Intrinsic Knowledge of Pretrained Language Models for Challenging Text Classification Settings [5.257719744958367]
この論文は、事前学習された言語モデル(PLM)の本質的な知識を活用することによって、テキスト分類における3つの挑戦的な設定を探求する。
本研究では, PLMの文脈表現に基づく特徴量を利用したモデルを構築し, 人間の精度に匹敵する, あるいは超越する性能を実現する。
最後に、実効的な実演を選択することで、大規模言語モデルの文脈内学習プロンプトに対する感受性に取り組む。
論文 参考訳(メタデータ) (2024-08-28T09:07:30Z) - Language Models for Text Classification: Is In-Context Learning Enough? [54.869097980761595]
最近の基礎言語モデルでは、ゼロショットや少数ショットの設定で多くのNLPタスクで最先端のパフォーマンスが示されている。
より標準的なアプローチよりもこれらのモデルの利点は、自然言語(prompts)で書かれた命令を理解する能力である。
これにより、アノテーション付きインスタンスが限られているドメインのテキスト分類問題に対処するのに適している。
論文 参考訳(メタデータ) (2024-03-26T12:47:39Z) - Multilingual Extraction and Categorization of Lexical Collocations with
Graph-aware Transformers [86.64972552583941]
我々は,グラフ対応トランスフォーマアーキテクチャにより拡張されたBERTに基づくシーケンスタグ付けモデルを提案し,コンテキストにおけるコロケーション認識の課題について評価した。
以上の結果から, モデルアーキテクチャにおける構文的依存関係を明示的に符号化することは有用であり, 英語, スペイン語, フランス語におけるコロケーションのタイプ化の差異について考察する。
論文 参考訳(メタデータ) (2022-05-23T16:47:37Z) - Neural Token Segmentation for High Token-Internal Complexity [7.569526565230962]
原文をワード単位に変換することは、NLPパイプラインにとって重要な前処理ステップである。
本稿では,文脈化トークン表現とチャレベルデコーディングを組み合わせたニューラルセグメンテーションモデルを提案する。
我々のモデルはヘブライ語とアラビア語の分節精度を最先端と比較して大幅に改善したことを示している。
論文 参考訳(メタデータ) (2022-03-21T10:07:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。