論文の概要: Semantic Grading of Written Answers in Low-Resource Language Bangla Using a Fine-Tuned Lightweight Language Model
- arxiv url: http://arxiv.org/abs/2606.11931v1
- Date: Wed, 10 Jun 2026 11:03:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-11 16:42:38.425971
- Title: Semantic Grading of Written Answers in Low-Resource Language Bangla Using a Fine-Tuned Lightweight Language Model
- Title(参考訳): 微調整軽量言語モデルを用いた低音源言語バングラの文章解答のセマンティックグラフ化
- Authors: Meherun Farzana, Aniket Joarder, Mahmudul Hasan, Md. Mosaddek Khan,
- Abstract要約: 語彙重なりよりも意味的正しさを優先するバイリンガル(バングラ・イングリッシュ)評価システムを提案する。
提案手法は,質問文,参考回答,学生回答を用いて,各回答を分類する軽量言語モデルを微調整する。
QLoRAでチューニングしたQwen3-8Bは、プロプライエタリでオープンソースのLLMを統一プロトコルで評価し、一貫した改善を確認します。
- 参考スコア(独自算出の注目度): 1.2576200947106144
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Bangla is among the world's most widely spoken languages, yet it remains underserved in educational NLP research. In many remote and rural regions, access to qualified subject teachers is limited, and written answers are consequently graded largely by hand, restricting timely and consistent feedback. Automatic assessment is challenging because semantically correct responses can vary substantially in surface form. We present a bilingual (Bangla-English) evaluation system designed for low-resource educational settings that prioritizes semantic correctness over lexical overlap. Our approach fine-tunes a lightweight language model to grade each response using the question, reference answer, and student answer, producing a numeric score and concise, context-grounded feedback suitable for classroom deployment. We also construct a synthetic bilingual dataset to enable controlled training and evaluation. Across proprietary and open-source LLMs evaluated under a unified protocol, our QLoRA-tuned Qwen3-8B confirms consistent improvement by producing the most leakage-resistant feedback (RoRa = 0.819) in synthetic evaluation and the strongest agreement with human scores (rho = 0.936, MAE = 0.725) in a dedicated human study.
- Abstract(参考訳): バングラ語は世界でも最も広く話されている言語であるが、教育的なNLP研究には使われていない。
多くの遠隔地や農村地域では、資格のある教官へのアクセスは制限されており、その結果、文章による回答は、主に手作業で評価され、タイムリーで一貫したフィードバックが制限される。
意味的に正しい応答は表面形態で大きく変化するため、自動評価は困難である。
語彙重なりよりも意味的正しさを優先する低リソースな教育環境のためのバイリンガル(バングラ-英語)評価システムを提案する。
提案手法は,質問,参考回答,学生回答を用いて,各回答を分類する軽量言語モデルを微調整し,教室展開に適した数値スコアと簡潔な文脈フィードバックを生成する。
また、制御されたトレーニングと評価を可能にする合成バイリンガルデータセットを構築した。
QLoRAをチューニングしたQwen3-8Bは,一貫したプロトコルで評価されたプロプライエタリかつオープンソース LLM 全体で,最も漏れやすいフィードバック (RoRa = 0.819) を合成評価で生成し,ヒトのスコアとの強い一致 (rho = 0.936, MAE = 0.725) を専用の人体実験で生成することにより,一貫した改善を確認した。
関連論文リスト
- Crosslingual On-Policy Self-Distillation for Multilingual Reasoning [48.68444770923683]
Crosslingual On-Policy Self-Distillation (COPSD)は、モデル自身の高リソース推論動作を低リソース言語に転送する。
17の低リソースアフリカ言語に対する実験では、COPSDはモデルサイズ全体の低リソース数学的推論を一貫して改善している。
論文 参考訳(メタデータ) (2026-05-10T14:06:09Z) - BanglaSummEval: Reference-Free Factual Consistency Evaluation for Bangla Summarization [0.529335674224684]
本稿では,BanglaSummEvalについて紹介する。BanglaSummEvalは,Banglaの要約における事実整合性を評価するための質問応答ベースのフレームワークである。
単一の多言語命令チューニング言語モデルは、質問生成、質問応答、候補回答抽出、質問重要度重み付けを処理する。
教育・医療分野の人文要約300件についてBanglaSummEvalを検証した。
論文 参考訳(メタデータ) (2026-02-18T20:13:07Z) - Diacritic Restoration for Low-Resource Indigenous Languages: Case Study with Bribri and Cook Islands Māori [2.1900575893223526]
本稿では,自然言語処理(NLP)タスクに不可欠なテキスト正規化の形式であるダイアクリティカル修復の実験を行う。
本研究は,コスタ・リカで話されるチブチャン語であるブリブリ語と,クック諸島で話されるポリネシア語であるモリ語に焦点をあてる。
論文 参考訳(メタデータ) (2025-12-22T18:04:24Z) - Cross-Lingual Auto Evaluation for Assessing Multilingual LLMs [36.30321941154582]
Herculeは、英語で利用可能な参照回答に基づいて、応答にスコアを割り当てることを学ぶ言語間評価モデルである。
本研究は,LLMを用いた言語横断評価の総合的研究であり,多言語評価のためのスケーラブルで効果的なアプローチを提案する。
論文 参考訳(メタデータ) (2024-10-17T09:45:32Z) - Assessing Dialect Fairness and Robustness of Large Language Models in Reasoning Tasks [68.33068005789116]
本稿では、標準英語とAAVEで1.2K以上の並列クエリペアを含むベンチマークであるReDialを紹介する。
我々は、GPT、Claude、Llama、Mistral、Phiモデルファミリーなど、広く使われているモデルを評価した。
我々の研究は、方言クエリにおけるLLMバイアスを分析するための体系的で客観的な枠組みを確立する。
論文 参考訳(メタデータ) (2024-10-14T18:44:23Z) - How Does Quantization Affect Multilingual LLMs? [50.867324914368524]
量子化技術は、大規模な言語モデルの推論速度と展開を改善するために広く使われている。
量子化多言語LLMの徹底的な分析を行い、言語間の性能と様々なスケールに焦点をあてる。
論文 参考訳(メタデータ) (2024-07-03T15:39:40Z) - Data-Efficient Alignment of Large Language Models with Human Feedback
Through Natural Language [31.0723480021355]
自然言語による人間のフィードバックをモデル化する際のデータ効率について検討する。
オープンソースLLM(例えばFalcon-40B-Instruct)を、自然言語における人間のフィードバックの比較的少ない部分で微調整する。
このモデルは,最強のLLMでも応答の質を向上させることができることを示す。
論文 参考訳(メタデータ) (2023-11-24T15:20:36Z) - Using Natural Language Explanations to Rescale Human Judgments [81.66697572357477]
大規模言語モデル(LLM)を用いて順序付けアノテーションと説明を再スケールする手法を提案する。
我々は、アノテータのLikert評価とそれに対応する説明をLLMに入力し、スコア付けルーリックに固定された数値スコアを生成する。
提案手法は,合意に影響を及ぼさずに生の判断を再スケールし,そのスコアを同一のスコア付けルーリックに接する人間の判断に近づける。
論文 参考訳(メタデータ) (2023-05-24T06:19:14Z) - Benchmarking Large Language Models for News Summarization [79.37850439866938]
大規模言語モデル(LLM)は自動要約を約束しているが、その成功の背景にある理由はよく分かっていない。
LLMのゼロショット要約能力の鍵は、モデルサイズではなく、命令チューニングにある。
論文 参考訳(メタデータ) (2023-01-31T18:46:19Z) - No Language Left Behind: Scaling Human-Centered Machine Translation [69.28110770760506]
低レベルの言語と高レベルの言語のパフォーマンスギャップを狭めるためのデータセットとモデルを作成します。
何千ものタスクをトレーニングしながらオーバーフィッティングに対処するために,複数のアーキテクチャとトレーニングの改善を提案する。
本モデルでは,従来の最先端技術と比較して,BLEUの44%の改善を実現している。
論文 参考訳(メタデータ) (2022-07-11T07:33:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。