論文の概要: How Far Can Prompting Go for Minimal-Edit Ukrainian Grammatical Error Correction?
- arxiv url: http://arxiv.org/abs/2606.09334v1
- Date: Mon, 08 Jun 2026 11:00:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:06.932272
- Title: How Far Can Prompting Go for Minimal-Edit Ukrainian Grammatical Error Correction?
- Title(参考訳): ウクライナの文法的誤りを最小限に修正するには、どれくらいかかるのか?
- Authors: Kateryna Karpo, Artem Chernodub,
- Abstract要約: ウクライナ文法誤り訂正(GEC)におけるAPIアクセス大型言語モデル(LLM)の優位性
我々は、UNLP 2023 GEC のみのベンチマークで、4つのプロバイダと1つのオープンソースウクライナモデルから11の商用 LLM を評価した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Fine-tuned Large Language Models (LLMs) dominate in Ukrainian grammatical error correction (GEC), while API-accessed LLMs remain nearly untested on minimal-edit benchmarks. We evaluate 11 commercial LLMs from four providers and one open-source Ukrainian model on the UNLP 2023 GEC-only benchmark, comparing zero-shot, few-shot, minimal-edits, and LLM-assisted prompt optimization strategies. Our best configuration (Gemini 3.1-Pro) reaches F0.5=69.22, closing over 90% of the gap to fine-tuned SOTA (F0.5=73.14). For zero-shot prompts, only Claude models benefit from Ukrainian instructions. However, the best overall results for all models use Ukrainian minimal-edits prompts, whose language-specific rules require Ukrainian to express precisely. LLM-assisted prompt optimization on top of minimal-edits + few-shot achieves the highest score. Detailed minimal-edits instructions yield the largest gains for punctuation and case errors but cause the model to abandon several low-frequency categories. Delving into error analysis, we identify five recurring overcorrection patterns tied to Ukrainian-specific linguistic phenomena. Code, prompts, and outputs are publicly available.
- Abstract(参考訳): 微細チューニング付き大言語モデル(LLM)はウクライナの文法的誤り訂正(GEC)において支配的であり、APIアクセス型LLMは最小限のベンチマークでほとんどテストされていない。
我々は、UNLP 2023 GEC-onlyベンチマークで、4つのプロバイダから11の商用LCMと1つのオープンソースウクライナモデルを評価し、ゼロショット、少数ショット、最小編集、LLM支援の即時最適化戦略を比較した。
我々の最適構成 (Gemini 3.1-Pro) は F0.5=69.22 に達し、細調整SOTA (F0.5=73.14) のギャップの90%以上を閉じる。
ゼロショットプロンプトの場合、クロードモデルのみがウクライナの命令の恩恵を受ける。
しかし、全てのモデルで最高の結果がウクライナのミニマル・エジット・プロンプト(英語版)であり、その言語固有の規則はウクライナ語を正確に表現する必要がある。
LLMによる最小限のエジットと数発のプロンプト最適化は最高スコアを得る。
詳細な最小限の命令は、句読点とケースエラーの最大の利得をもたらすが、モデルがいくつかの低周波カテゴリを放棄する原因となる。
エラー解析に着目し,ウクライナ固有の言語現象に関連する5つの過剰補正パターンを同定した。
コード、プロンプト、出力が公開されている。
関連論文リスト
- When Scale Meets Diversity: Evaluating Language Models on Fine-Grained Multilingual Claim Verification [14.187153195380668]
大規模言語モデルは、多くのNLPタスクにまたがる顕著な能力を持つが、ニュアンス付き分類スキームを用いた多言語クレーム検証の有効性は、まだ検討されていない。
X-Factデータセットでは、7つの異なる精度カテゴリを持つ25言語にまたがる5つの最先端言語モデルを評価する。
驚くべきことに、XLM-R は全試験 LLM よりかなり優れており、57.7% のマクロF1 を 16.9% の最高の LLM 性能と比較すると達成している。
論文 参考訳(メタデータ) (2025-07-28T10:49:04Z) - NL in the Middle: Code Translation with LLMs and Intermediate Representations [56.77064674776534]
大きな言語モデル(LLM)はバグのあるコード翻訳を生成する。
翻訳精度を向上させるための有望な道の1つは中間表現である。
LLMに基づくコード翻訳が中間表現の恩恵を受けるかどうかを検討する。
論文 参考訳(メタデータ) (2025-07-11T14:29:21Z) - Vuyko Mistral: Adapting LLMs for Low-Resource Dialectal Translation [0.0]
本稿では,ウクライナのフツル方言に大規模な言語モデルを適用するための最初の取り組みを紹介する。
我々は、9852語対標準ウクライナ語の文対と7320語の単語マッピングの辞書の並列コーパスを作成しました。
論文 参考訳(メタデータ) (2025-06-09T10:30:35Z) - CIF-Bench: A Chinese Instruction-Following Benchmark for Evaluating the Generalizability of Large Language Models [53.9835961434552]
本研究では,中国語に対する大規模言語モデル(LLM)の一般化性を評価するために,中国語命令追跡ベンチマーク(CIF-Bench)を導入する。
CIF-Benchは150のタスクと15,000の入力出力ペアで構成され、複雑な推論と中国の文化的ニュアンスをテストするためにネイティブスピーカーによって開発された。
データ汚染を軽減するため、データセットの半分しか公開せず、残りは非公開であり、スコア分散を最小限に抑えるために多種多様な命令を導入する。
論文 参考訳(メタデータ) (2024-02-20T16:02:12Z) - Prompting open-source and commercial language models for grammatical error correction of English learner text [18.496628725996406]
大規模言語モデル(LLM)は、流動的で文法的なテキストを生成するよう促すことができる。
確立したベンチマークデータセット上で, 文法的誤り訂正(GEC)におけるLLMの性能評価を行った。
いくつかのオープンソースモデルは、最小限の編集ベンチマークで商用モデルよりも優れており、いくつかの設定ではゼロショットプロンプトは、少数ショットプロンプトと同じくらい競争力がある。
論文 参考訳(メタデータ) (2024-01-15T14:19:47Z) - Native Language Identification with Large Language Models [60.80452362519818]
我々はGPTモデルがNLI分類に熟練していることを示し、GPT-4は0ショット設定でベンチマーク11テストセットで91.7%の新たなパフォーマンス記録を樹立した。
また、従来の完全教師付き設定とは異なり、LLMは既知のクラスに制限されずにNLIを実行できることを示す。
論文 参考訳(メタデータ) (2023-12-13T00:52:15Z) - InstructZero: Efficient Instruction Optimization for Black-Box Large
Language Models [117.92988284226765]
大規模言語モデル(LLM)は命令従者であるが、異なる状況に最適な命令を見つけることは困難である。
我々は,オープンソースLLMに適用した低次元ソフトプロンプトを最適化し,ブラックボックスLLMの命令を生成する。
InstructZero は,様々な下流タスクにおいて SOTA 自動命令手法より優れていることを示す。
論文 参考訳(メタデータ) (2023-06-05T17:55:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。