論文の概要: Predicting Poets' Origins from Verse: A Computational Analysis of Regional Linguistic Fingerprints in the Complete Tang Poems
- arxiv url: http://arxiv.org/abs/2606.24093v1
- Date: Tue, 23 Jun 2026 03:17:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-24 22:16:48.752851
- Title: Predicting Poets' Origins from Verse: A Computational Analysis of Regional Linguistic Fingerprints in the Complete Tang Poems
- Title(参考訳): 詩の起源を動詞から予測する:全唐詩における地域言語的フィンガープリントの計算的分析
- Authors: Chi-Sheng Chen, Hung-Yun Liu,
- Abstract要約: 回路間の言語距離は地理的距離で増大する。
南と北の分離性は、高唐では可能であり、後期唐では最強である。
本研究は,文芸史の仮説生成手段として,解釈可能な機械学習を位置づけた。
- 参考スコア(独自算出の注目度): 1.1458853556386797
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We ask whether the geographic origin of Tang-dynasty poets leaves a detectable linguistic trace in their work. Aggregating every poem attributed to each author in the Complete Tang Poems (Quan Tang Shi) and linking poets to their administrative circuit of origin via the China Biographical Database (CBDB), we build a poet-level corpus of 357 poets across the ten Tang circuits and frame origin prediction as multi-class classification. Using character $n$-gram TF-IDF together with interpretable domain features (imagery, season, and allusion), classical and neural models predict a poet's broad region (South vs.\ North) at $0.69$ accuracy, well above the $0.53$ majority baseline, and finer circuit-level origin above chance. Beyond classification, three findings emerge. (i) Linguistic distance between circuits grows with geographic distance (Mantel $r=0.40$, $p\approx0.09$ over nine circuits), evidence of a distance-decay effect in poetic language. (ii) The signal interacts with time: South/North separability is at chance in the High Tang and strongest in the Late Tang, consistent with court-driven homogenization at the empire's height followed by regional divergence. (iii) The model's confident errors are historically meaningful -- in the Early Tang, every misclassification is a southern poet read as northern, reflecting the prestige of the northern court idiom. We further show that, when given the whole corpus through a hierarchical frozen-encoder representation, a classical-Chinese transformer (GuwenBERT) only matches -- not beats -- simple TF-IDF, and that combining them adds nothing, indicating that character $n$-grams already capture the regional signal. Our results position interpretable machine learning as a hypothesis generator for literary history.
- Abstract(参考訳): 我々は、唐代詩人の地理的起源が、その作品に検出可能な言語的痕跡を残しているかどうかを問う。
完全唐詩集(クァン・タン・シー)の各作者の詠んだ詩をまとめて、中国伝記データベース(CBDB)を通じて、歌人をその起源の行政的回路に結びつけることで、10の唐詩集に357人の歌人による詩レベルのコーパスを構築し、その起源予測を多種分類とした。
文字$n$-gramのTF-IDFと解釈可能なドメイン特徴(想像、季節、暗示)を使って、古典的およびニューラルネットワークは詩人の広い領域(南対南)を予測する。
精度は0.69ドルで、0.53ドルのベースラインよりはるかに高い。
分類以外にも3つの発見がある。
(i)回路間の言語的距離は、地理的距離(Mantel $r=0.40$, $p\approx0.09$ over 9 circuits)で増大する。
(二)南と北の分離性は、高唐において可能性があり、後期唐において最強であり、帝国の高度における宮廷主導の均質化と、それに続く地方分断とが一致している。
(三)モデルの確固たる誤りは歴史的に有意義であり、唐初期においては、あらゆる誤分類は北方として読み上げられた南方詩人であり、北朝の威信を反映している。
さらに、階層的な凍結エンコーダ表現によってコーパス全体を与えられると、古典中国語のトランスフォーマー(GuwenBERT)は、ビートではなく -- 一致し、単純なTF-IDFと組み合わせると何も加わらず、既に$n$-gramの文字が地域信号をキャプチャしていることが示される。
本研究は,文芸史の仮説生成手段として,解釈可能な機械学習を位置づけた。
関連論文リスト
- Who Wrote This Line? Evaluating the Detection of LLM-Generated Classical Chinese Poetry [45.27531384029669]
AIによる創作物は、文学界における創造的真正性と倫理に関する顕著な問題を提起している。
従来、AI生成テキストの検出には大きな進歩があったが、漢詩にはまだ対応していない。
LLM生成された漢詩を検出するためのベンチマークであるChangAnを紹介する。
論文 参考訳(メタデータ) (2026-04-11T08:52:08Z) - Echoes Across Centuries: Phonetic Signatures of Persian Poets [0.0]
この研究は、83人の詩人によって書かれた31,988首の詩から、1,116,306首のメスラスの大規模なコーパスを描いている。
各行は、グラフから音素への表現に変換され、6つの音韻指標を用いて分析される。
この研究はペルシャ詩における音声分析のためのコーパススケールの枠組みを確立する。
論文 参考訳(メタデータ) (2026-03-15T15:41:21Z) - Eigenmood Space: Uncertainty-Aware Spectral Graph Analysis of Psychological Patterns in Classical Persian Poetry [0.0]
我々は、詩人レベルの心理的分析のための不確実性を考慮した計算フレームワークを提案する。
各詩は、心理学的概念のセット、ラベルごとの信頼度スコア、そして不十分な証拠を示す棄権フラグに関連付けられている。
10人の詩人にまたがる61,573節のコーパスでは、22.2%の詩が禁じられ、不確実性の分析的重要性が強調されている。
論文 参考訳(メタデータ) (2026-02-18T23:53:07Z) - Metronome: tracing variation in poetic meters via local sequence alignment [0.18749305679160366]
本稿では,局所配列アライメントを用いて詩の構造的類似性を検出する教師なし手法を提案する。
この方法は詩のテキストを4文字のアルファベットを使って韻律的な特徴の文字列として符号化することに依存している。
これらの列は、重み付きシンボル(ミス)マッチングに基づいて距離測度を導出するように整列される。
論文 参考訳(メタデータ) (2024-04-26T11:37:45Z) - CMDAG: A Chinese Metaphor Dataset with Annotated Grounds as CoT for
Boosting Metaphor Generation [35.14142183519002]
本稿では,28Kの文からなる中国語メタファーコーパスについて紹介する。
アノテーションの正確性と一貫性を確保するため、包括的なガイドラインのセットを導入します。
伝統を破り、メタファー生成への我々のアプローチは、従来のテナーと車両の組み合わせよりも、その基盤と特徴を強調します。
論文 参考訳(メタデータ) (2024-02-20T17:00:41Z) - PoetryDiffusion: Towards Joint Semantic and Metrical Manipulation in
Poetry Generation [58.36105306993046]
制御可能なテキスト生成は自然言語生成(NLG)において困難かつ有意義な分野である
本稿では,ソネット生成のための拡散モデルと中国語のSongCi詩の創始について述べる。
本モデルでは,人的評価だけでなく,意味的,計量的,総合的な性能の自動評価において,既存のモデルよりも優れる。
論文 参考訳(メタデータ) (2023-06-14T11:57:31Z) - CCPM: A Chinese Classical Poetry Matching Dataset [50.90794811956129]
本稿では,詩のマッチングによるモデルの意味的理解を評価するための新しい課題を提案する。
この課題は、現代漢訳の漢詩では、4人の候補者の中から1行の漢詩を選ばなければならない。
このデータセットを構築するために、まず中国古典詩と現代中国語の翻訳の並列データを得る。
論文 参考訳(メタデータ) (2021-06-03T16:49:03Z) - Metrical Tagging in the Wild: Building and Annotating Poetry Corpora
with Rhythmic Features [0.0]
英語とドイツ語に大規模な詩コーパスを提供し,コーパス駆動ニューラルモデルを訓練するためのコーパスを小型化した韻律的特徴をアノテートする。
音節埋め込みを用いた BiLSTM-CRF モデルは, CRF ベースラインと異なるBERT ベースアプローチよりも優れていることを示す。
論文 参考訳(メタデータ) (2021-02-17T16:38:57Z) - Generating Major Types of Chinese Classical Poetry in a Uniformed
Framework [88.57587722069239]
GPT-2に基づく漢詩の主要なタイプを生成するフレームワークを提案する。
予備的な結果は、この強化されたモデルが、形も内容も質の高い大型漢詩を生成できることを示している。
論文 参考訳(メタデータ) (2020-03-13T14:16:25Z) - MixPoet: Diverse Poetry Generation via Learning Controllable Mixed
Latent Space [79.70053419040902]
多様な要素を吸収し,多様なスタイルを創出し,多様性を促進する新しいモデルであるMixPoetを提案する。
半教師付き変分オートエンコーダに基づいて、我々のモデルは潜在空間をいくつかの部分空間に切り離し、それぞれが敵の訓練によって1つの影響因子に条件付けされる。
中国詩の実験結果は、MixPoetが3つの最先端モデルに対して多様性と品質の両方を改善していることを示している。
論文 参考訳(メタデータ) (2020-03-13T03:31:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。