論文の概要: Encode Errors: Representational Retrieval of In-Context Demonstrations for Multilingual Grammatical Error Correction
- arxiv url: http://arxiv.org/abs/2606.15416v1
- Date: Sat, 13 Jun 2026 18:00:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-16 16:21:33.554747
- Title: Encode Errors: Representational Retrieval of In-Context Demonstrations for Multilingual Grammatical Error Correction
- Title(参考訳): エンコード誤り:多言語文法的誤り訂正のための文脈記述の表現的検索
- Authors: Guangyue Peng, Wei Li, Wen Luo, Houfeng Wang,
- Abstract要約: 文法誤り訂正(英: Grammatical Error Correction, GEC)とは、文法の誤用を検出し、訂正することである。
インコンテキスト学習(ICL)機能を持つ大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて大きな進歩を見せている。
これは主に、セマンティックな類似性ではなく、エラーパターンをキャプチャする適切なコンテキスト内デモを取得することによる。
- 参考スコア(独自算出の注目度): 28.920985595976873
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Grammatical Error Correction (GEC) involves detecting and correcting the wrong usage of grammar. While large language models (LLMs) with in-context learning (ICL) capabilities have shown significant progress on various natural language processing (NLP) tasks, their few-shot performance on GEC remains suboptimal. This is mainly due to the challenge of retrieving suitable in-context demonstrations that capture error patterns instead of semantic similarity. In this paper, we demonstrate that LLMs can inherently capture information related to grammatical errors through their internal states. From these states, we extract the Grammatical Error Representation (GER), an informative and semantically neutral encoding of grammatical errors. Our novel GER-based retrieval method significantly boosts performance in ICL settings on multilingual GEC datasets, improving the precision of correction. For high-resource languages, our results on 8B-sized open-source models match those of closed-source models such as Deepseek2.5 and GPT-4o-mini. For low-resource languages, our $F_{0.5}$ scores surpass the baseline by up to a factor of 1.20. This method provides a more precise and resource-efficient solution for multilingual GEC, offering a promising direction for interpretable GEC research.
- Abstract(参考訳): 文法誤り訂正(英: Grammatical Error Correction, GEC)とは、文法の誤用を検出し、訂正することである。
インコンテキスト学習(ICL)機能を持つ大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて大きな進歩を見せている一方で、GEC上での少数ショットのパフォーマンスは依然として最適ではない。
これは主に、セマンティックな類似性ではなく、エラーパターンをキャプチャする適切なコンテキスト内デモを取得することによる。
本稿では,LLMが内部状態を通じて文法的誤りに関連する情報を本質的にキャプチャできることを実証する。
これらの状態から文法誤り表現(GER: Grammatical Error Representation)を抽出する。
我々の新しいGERに基づく検索手法は多言語GECデータセットのICL設定の性能を大幅に向上させ、補正精度を向上させる。
高オープンソース言語については、Deepseek2.5やGPT-4o-miniといったクローズドソースモデルと8Bサイズのオープンソースモデルの比較を行った。
低リソース言語では、F_{0.5}$スコアがベースラインを1.20倍に越えます。
この方法は多言語GECに対してより正確で資源効率の良い解を提供し、解釈可能なGEC研究に有望な方向を提供する。
関連論文リスト
- Reasoning over Grammar: Can Synthetic Linguistic Reasoning Traces Enhance Low-Resource Machine Translation? [49.7935995447581]
我々は,低リソース機械翻訳が言語解析と文法推論の中間段階の構造化の恩恵を受けるか検討する。
本稿では,Universal Dependencies Treebank,Dictionary,Gram-rule Bankから,ステップバイステップの言語推論トレースを自動的に生成するパイプラインを提案する。
その結果,言語的推論の痕跡は推論時ガイダンスとして最も有効であることが示唆された。
論文 参考訳(メタデータ) (2026-06-02T15:36:12Z) - "When Data is Scarce, Prompt Smarter"... Approaches to Grammatical Error Correction in Low-Resource Settings [2.926692606428691]
文法的誤り訂正(英: Grammatical error correction, GEC)は、自然言語処理において重要な課題であり、テキスト中の文法的誤りを自動的に検出し、修正することを目的としている。
ほとんどのIndic言語にとって、GECは限られた資源、言語的多様性、複雑な形態学のために難しい課題である。
我々は,GPT-4.1やGemini-2.5,LLaMA-4といった最先端の大規模言語モデル(LLM)を用いたプロンプトベースのアプローチと,低リソース環境に適応するための数ショット戦略を併用することを検討した。
論文 参考訳(メタデータ) (2025-11-25T09:40:57Z) - Explanation based In-Context Demonstrations Retrieval for Multilingual Grammatical Error Correction [19.95974494301433]
文法的誤り訂正(英: Grammatical error correction, GEC)は、自然言語テキストにおける文法的誤り、綴り、意味的誤りを補正することを目的としている。
自然言語文法的誤り説明(GEE)に基づく新しい検索手法を提案する。
提案手法は,テスト入力のGEEと事前構築したデータベースのサンプルとをマッチングすることにより,適切な小ショットのデモを検索する。
論文 参考訳(メタデータ) (2025-02-12T15:41:43Z) - Grammatical Error Correction for Low-Resource Languages: The Case of Zarma [8.40484790921164]
文法的誤り訂正は、テキストの品質と可読性を改善することを目的としている。
西アフリカで500万人以上が話していたGEC for Zarmaについて検討する。
ルールベース手法,機械翻訳(MT)モデル,大規模言語モデルという3つのアプローチを比較した。
論文 参考訳(メタデータ) (2024-10-20T23:51:36Z) - Boosting the Capabilities of Compact Models in Low-Data Contexts with Large Language Models and Retrieval-Augmented Generation [2.9921619703037274]
本稿では,形態素解析の言語タスクにおいて,より小さなモデルの出力を補正するために,大言語モデル(LLM)を基盤とした検索拡張生成(RAG)フレームワークを提案する。
データ不足や訓練可能なパラメータの不足を補うために,言語情報を活用するとともに,LLMを通して解釈・蒸留された記述文法からの入力を許容する。
コンパクトなRAG支援モデルがデータスカース設定に極めて有効であることを示し、このタスクとターゲット言語に対する新しい最先端技術を実現する。
論文 参考訳(メタデータ) (2024-10-01T04:20:14Z) - Machine Translation Meta Evaluation through Translation Accuracy
Challenge Sets [92.38654521870444]
ACESは146の言語ペアにまたがる対照的な課題セットです。
このデータセットは、メトリクスが68の翻訳精度の誤差を識別できるかどうかを調べることを目的としている。
我々は、WMT2022および2023のメトリクス共有タスクに提出された50のメトリクスに対して、ACESをベンチマークすることで、大規模な研究を行う。
論文 参考訳(メタデータ) (2024-01-29T17:17:42Z) - Prompting open-source and commercial language models for grammatical error correction of English learner text [18.496628725996406]
大規模言語モデル(LLM)は、流動的で文法的なテキストを生成するよう促すことができる。
確立したベンチマークデータセット上で, 文法的誤り訂正(GEC)におけるLLMの性能評価を行った。
いくつかのオープンソースモデルは、最小限の編集ベンチマークで商用モデルよりも優れており、いくつかの設定ではゼロショットプロンプトは、少数ショットプロンプトと同じくらい競争力がある。
論文 参考訳(メタデータ) (2024-01-15T14:19:47Z) - Generative error correction for code-switching speech recognition using
large language models [49.06203730433107]
コードスイッチング(英: Code-switching, CS)とは、2つ以上の言語が同じ文内に混在する現象である。
本稿では,大規模言語モデル (LLM) と ASR が生成する仮説のリストを利用して,CS 問題に対処することを提案する。
論文 参考訳(メタデータ) (2023-10-17T14:49:48Z) - A Unified Strategy for Multilingual Grammatical Error Correction with
Pre-trained Cross-Lingual Language Model [100.67378875773495]
本稿では,多言語文法的誤り訂正のための汎用的かつ言語に依存しない戦略を提案する。
我々の手法は言語固有の操作を使わずに多様な並列GECデータを生成する。
NLPCC 2018 Task 2のデータセット(中国語)で最先端の結果を達成し、Falko-Merlin(ドイツ語)とRULEC-GEC(ロシア語)の競合性能を得る。
論文 参考訳(メタデータ) (2022-01-26T02:10:32Z) - LM-Critic: Language Models for Unsupervised Grammatical Error Correction [128.9174409251852]
文を文法的に判断する LM-Critic の定義において,事前訓練された言語モデル (LM) の活用法を示す。
このLM-Critic と BIFI と、ラベルなし文の集合を併用して、現実的な非文法的/文法的ペアをブートストラップし、修正子を訓練する。
論文 参考訳(メタデータ) (2021-09-14T17:06:43Z) - Towards Minimal Supervision BERT-based Grammar Error Correction [81.90356787324481]
我々は、事前訓練された言語モデルからコンテキスト情報を取り入れて、アノテーションを活用し、多言語シナリオの恩恵を得ようとしている。
その結果、文法的誤り訂正タスクにおいて、変換器(BERT)からの双方向表現の強い可能性を示す。
論文 参考訳(メタデータ) (2020-01-10T15:45:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。