論文の概要: System Report for CCL25-Eval Task 5: New Dataset and LoRA-Fine-Tuned Qwen2.5
- arxiv url: http://arxiv.org/abs/2606.12392v1
- Date: Wed, 10 Jun 2026 17:54:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-11 16:42:38.609906
- Title: System Report for CCL25-Eval Task 5: New Dataset and LoRA-Fine-Tuned Qwen2.5
- Title(参考訳): CCL25-Eval Task 5 のシステム報告:新しいデータセットと LoRA-Fine-Tuned Qwen2.5
- Authors: Haotao Xie,
- Abstract要約: タスクを3つのサブタスク(用語解釈、意味解釈、感情推論)に分解する。
複数のオープンソースデータセットをベースとして,古典中国語教育ペアデータセットを構築するために,データのクリーニングとアライメントを行う。
次に、Low-Rank Adaptation (LoRA) を用いてQwen2.5-14Bモデルを微調整することで、ドメイン固有化LLM(PoetryQwen)を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Recently, large language models (LLMs) have achieved promising progress in the fields of classical Chinese translation and the generation of classical poetry. However, domain-specific research on precise translation and affective-semantic understanding of classical poetry remains limited. The main challenge is that most studies treat the poetic appreciation task as a general-domain problem, neglecting the distinctive features of poetic appreciation, while high-quality and domain-specific datasets are extremely limited. To address this limitation, we decompose the task into three subtasks: term interpretation, semantic interpretation, and emotional inference. Based on multiple open-source datasets, we perform data cleansing and alignment to construct the Classical Chinese Poetry Instruction Pair Dataset (CCPoetry-49K), which comprises 49,404 high-quality instruction-response pairs explicitly optimized for this domain. We then propose a domain-specialized LLM, called PoetryQwen, by applying Low-Rank Adaptation (LoRA) to fine-tune the Qwen2.5-14B model. Experimental results on the CCL25-Eval Task 5 benchmark demonstrate that PoetryQwen achieves a score of 0.757, representing a 9.7% improvement over the Qwen2.5-14B-Instruct baseline (0.690). These findings clearly indicate that PoetryQwen significantly enhances performance in precise translation and emotional understanding of classical poetry. We present new dataset and methodological considerations intended to support the domain-specific optimization of LLMs.
- Abstract(参考訳): 近年,漢訳の分野や古典詩の世代において,大きな言語モデル (LLMs) が有望な進歩を遂げている。
しかし、漢詩の正確な翻訳と情緒的意味理解に関するドメイン固有の研究は依然として限られている。
主な課題は、多くの研究が詩的な鑑賞課題を一般的なドメイン問題として扱い、詩的な鑑賞の特徴を無視しているのに対し、高品質でドメイン固有のデータセットは非常に限られていることである。
この制限に対処するために、タスクを項解釈、意味解釈、感情的推論の3つのサブタスクに分解する。
複数のオープンソースデータセットに基づいて、このドメインに最適化された49,404の高品質な命令応答ペアからなる古典中国語詩の命令ペアデータセット(CCPoetry-49K)を構築するために、データのクリーニングとアライメントを行う。
次に、Low-Rank Adaptation (LoRA) を用いてQwen2.5-14Bモデルを微調整することで、ドメイン固有化LLM(PoetryQwen)を提案する。
CCL25-Eval Task 5ベンチマークの実験結果によると、PoetryQwenのスコアは0.757で、Qwen2.5-14B-Instructベースライン(0.690)よりも9.7%向上している。
これらの結果は,古典詩の正確な翻訳や情緒的理解において,PoetryQwenが性能を著しく向上させることを示している。
LLMのドメイン固有最適化を支援するための新しいデータセットと方法論的考察を提案する。
関連論文リスト
- Who Wrote This Line? Evaluating the Detection of LLM-Generated Classical Chinese Poetry [45.27531384029669]
AIによる創作物は、文学界における創造的真正性と倫理に関する顕著な問題を提起している。
従来、AI生成テキストの検出には大きな進歩があったが、漢詩にはまだ対応していない。
LLM生成された漢詩を検出するためのベンチマークであるChangAnを紹介する。
論文 参考訳(メタデータ) (2026-04-11T08:52:08Z) - PARSI: Persian Authorship Recognition via Stylometric Integration [0.0]
我々は、67人の著名なペルシア人詩人の著者を決定するために、多入力のニューラル・フレームワークを使用している。
我々は、厳密な前処理と著者検証により、ガンジョーのデジタルコレクションの647,653節の膨大なコーパスをコンパイルし、データを検証した。
本研究は、著者属性の改善を目的とした、深層表現形式とドメイン固有の機能の統合に焦点を当てる。
論文 参考訳(メタデータ) (2025-06-27T01:08:52Z) - MERIT: Multilingual Semantic Retrieval with Interleaved Multi-Condition Query [91.01970848241075]
MERITは、インターリーブされたマルチ条件セマンティック検索のための最初の多言語データセットである。
本稿では,多条件セマンティック検索のための最初の多言語データセットであるMERITを紹介する。
論文 参考訳(メタデータ) (2025-06-03T17:59:14Z) - Discourse Features Enhance Detection of Document-Level Machine-Generated Content [53.41994768824785]
機械生成コンテンツは、学術プラジャリズムや誤報の拡散といった課題を提起する。
既存のMGC検出器は、しばしば表面レベルの情報のみに焦点を当て、暗黙的かつ構造的な特徴を見渡す。
これらの課題を克服するために、新しい方法論とデータセットを導入します。
論文 参考訳(メタデータ) (2024-12-17T08:47:41Z) - A Bayesian Approach to Harnessing the Power of LLMs in Authorship Attribution [57.309390098903]
著者の属性は、文書の起源または著者を特定することを目的としている。
大きな言語モデル(LLM)とその深い推論能力と長距離テキストアソシエーションを維持する能力は、有望な代替手段を提供する。
IMDbおよびブログデータセットを用いた結果, 著者10名を対象に, 著者1名に対して, 85%の精度が得られた。
論文 参考訳(メタデータ) (2024-10-29T04:14:23Z) - Large Language Models for Classical Chinese Poetry Translation: Benchmarking, Evaluating, and Improving [43.148203559785095]
印象的な多言語機能を持つ大規模言語モデル(LLM)は、この極端な翻訳要求を達成するための希望の光となるかもしれない。
本稿ではまず,各漢詩にエレガントな翻訳が認められた適切なベンチマーク(PoetMT)を紹介する。
本稿では,GPT-4に基づく新しい測定基準を提案し,現在のLCMがこれらの要求を満たす範囲を評価する。
論文 参考訳(メタデータ) (2024-08-19T12:34:31Z) - CCPM: A Chinese Classical Poetry Matching Dataset [50.90794811956129]
本稿では,詩のマッチングによるモデルの意味的理解を評価するための新しい課題を提案する。
この課題は、現代漢訳の漢詩では、4人の候補者の中から1行の漢詩を選ばなければならない。
このデータセットを構築するために、まず中国古典詩と現代中国語の翻訳の並列データを得る。
論文 参考訳(メタデータ) (2021-06-03T16:49:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。