論文の概要: Detecting Historical Turning Points in Italian Media: A Complex Systems Approach to a Diachronic News Corpus
- arxiv url: http://arxiv.org/abs/2606.14348v1
- Date: Fri, 12 Jun 2026 11:02:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-15 16:00:42.870865
- Title: Detecting Historical Turning Points in Italian Media: A Complex Systems Approach to a Diachronic News Corpus
- Title(参考訳): イタリアメディアにおける歴史的転回点の検出--ダイアクロニックニュースコーパスへの複雑システムアプローチ
- Authors: Dario Zarcone, Salvatore Miccichè, David Sanchez,
- Abstract要約: イタリアの新聞『La Repubblica』の約60万記事のダイアクロニックコーパスの再構築と探索に基づく歴史的分析への定量的アプローチを提案する。
NLP技術を用いて,テキストを語彙レベルと意味レベルの両方で分析し,メディア談話の経時変化をトレースする。
これにより、第1共和政からイタリア第2共和政への移行、湾岸戦争やコソボ戦争のような国際紛争といった重要な移行期間を、事前のラベル付けに頼ることなく検出することができる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The increasing availability of large-scale textual corpora has opened new possibilities for data-driven, quantitative approaches to historical analysis using Natural Language Processing (NLP). However, diachronic corpora with historical relevance from the pre-digital era remain scarce and often incomplete. We present a quantitative approach to historical analysis based on the reconstruction and exploration of a diachronic corpus of around 600,000 articles from the Italian newspaper "La Repubblica", covering all the articles published from the 1st of January 1985 to the 31st of December 2000 - a period of major political, social, and geopolitical change in Italy and globally. Using NLP techniques, we analyze the text at both lexical and semantic levels; we then apply tools from complex systems and statistical physics to trace shifts in media discourse over time. This allows us to detect key transition periods, such as the transition from the First Republic to the Second Republic in Italy, or major international conflicts like the Gulf War or the Kosovo War, without relying on prior labeling. The results show how combining computational linguistics with ideas from complex systems can offer new quantitative insight into historical changes, opening up new paths for studying the dynamics of media and society through large-scale textual data.
- Abstract(参考訳): 大規模テキストコーパスの利用可能化が進み、自然言語処理(NLP)を用いた履歴解析へのデータ駆動的、定量的アプローチの新たな可能性が高まった。
しかし、デジタル時代以前の歴史に関連のあるダイアクロニックコーパスはほとんどなく、しばしば不完全である。
本稿では,1985年1月1日から2000年12月31日までのイタリアにおける主要な政治的・社会的・地政学的変化の期間を網羅した,イタリアの新聞「La Repubblica」の約60万記事のダイアクロニックコーパスの再構築と調査に基づく,歴史的分析への定量的アプローチについて述べる。
NLP技術を用いて、語彙レベルと意味レベルの両方でテキストを分析し、複雑なシステムや統計物理学のツールを時間とともにメディアの言論の推移に応用する。
これにより、第1共和政からイタリア第2共和政への移行、湾岸戦争やコソボ戦争のような国際紛争といった重要な移行期間を、事前のラベル付けに頼ることなく検出することができる。
その結果、計算言語学と複雑なシステムからのアイデアを組み合わせることで、歴史的変化に対する新たな定量的洞察が得られ、大規模テキストデータを通してメディアや社会のダイナミクスを研究するための新たな道が開かれた。
関連論文リスト
- Analyzing Political Text at Scale with Online Tensor LDA [53.16930342547758]
本稿では,数十億の文書に線形にスケールするトピックモデリング手法を提案する。
本手法は, 並列化遅延ディリクレ割当法(LDA法)の3,4倍の高速化を実現するため, 計算処理とメモリ効率がよいことを示す。
我々は、政治科学者に2つの実世界、大規模な新しい研究を行ないました。
論文 参考訳(メタデータ) (2025-11-11T03:58:48Z) - CrossNews-UA: A Cross-lingual News Semantic Similarity Benchmark for Ukrainian, Polish, Russian, and English [53.32175252285023]
言語間のニュース比較は、情報の検証に有望なアプローチを提供する。
既存の言語間ニュース分析用のデータセットは、ジャーナリストや専門家によって手作業でキュレートされた。
我々は、多言語間ニュース類似性評価のためのスケーラブルで説明可能なクラウドソーシングパイプラインを導入する。
論文 参考訳(メタデータ) (2025-10-22T14:23:50Z) - LLM Agents for Interactive Exploration of Historical Cadastre Data: Framework and Application to Venice [2.03659124799413]
カダストラルデータは、都市の歴史的組織に関する重要な情報を明らかにするが、多種多様なフォーマットや人間のアノテーションのために、しばしば標準化されていない。
我々は1740年から1808年までの臨界期におけるヴェネツィアの都市史を調査する。
この時代の複雑なカダストラルデータは、その体積と均一な構造が欠如していることが特徴であり、我々のアプローチが順応的にナビゲートする固有の課題を示している。
論文 参考訳(メタデータ) (2025-05-22T08:45:15Z) - Southern Newswire Corpus: A Large-Scale Dataset of Mid-Century Wire Articles Beyond the Front Page [0.0]
1960-1975年のアメリカ南部新聞から、新しい大規模なワイヤー記事のデータセットを紹介します。
フロントページのコンテンツに焦点を当てた以前の作業とは異なり、このデータセットは新聞全体の記事をキャプチャし、中世紀の南部に関する広範な洞察を提供する。
論文 参考訳(メタデータ) (2025-02-17T14:57:47Z) - AgoraSpeech: A multi-annotated comprehensive dataset of political discourse through the lens of humans and AI [1.3060410279656598]
アゴラ・スペーチ(AgoraSpeech)は、ギリシャ国民選挙中の2023年の6つの政党による171の政治演説を精巧にキュレートした高品質なデータセットである。
このデータセットには、テキスト分類、トピック識別、感情分析、名前付きエンティティ認識、分極、ポピュリズム検出の6つの自然言語処理(NLP)タスクのためのアノテーション(1段落)が含まれている。
論文 参考訳(メタデータ) (2025-01-09T18:17:59Z) - P^3SUM: Preserving Author's Perspective in News Summarization with Diffusion Language Models [57.571395694391654]
既存のアプローチは、要約の50%以上で、ニュース記事の政治的意見やスタンスを変えている。
政治的視点分類器によって制御される拡散モデルに基づく要約手法であるP3SUMを提案する。
3つのニュース要約データセットの実験により、P3SUMは最先端の要約システムより優れていることが示された。
論文 参考訳(メタデータ) (2023-11-16T10:14:28Z) - Multilingual estimation of political-party positioning: From label
aggregation to long-input Transformers [3.651047982634467]
我々は、政党マニフェストの自動スケーリング分析に2つのアプローチを実装し、比較する。
このタスクは最先端のモデルによって効率よく解決でき、ラベルアグリゲーションが最良の結果をもたらすことが判明した。
論文 参考訳(メタデータ) (2023-10-19T08:34:48Z) - X-PARADE: Cross-Lingual Textual Entailment and Information Divergence across Paragraphs [55.80189506270598]
X-PARADEは、段落レベルの情報の分岐の最初の言語間データセットである。
アノテーションは、対象言語における段落をスパンレベルでラベル付けし、ソース言語における対応する段落に対して評価する。
アライメントされた段落は、異なる言語のウィキペディアページから引用される。
論文 参考訳(メタデータ) (2023-09-16T04:34:55Z) - Topic Modelling of Swedish Newspaper Articles about Coronavirus: a Case
Study using Latent Dirichlet Allocation Method [8.405827390095064]
トピックモデリング(TM)は、自然言語理解(NLU)と自然言語処理(NLP)の研究分野からのものである。
本研究では,LDA(Latent Dirichlet Allocation)法を用いて,コロナウイルスに関するスウェーデンの新聞記事の話題変化をモデル化する。
我々は,2020年1月17日から2021年3月13日までの約1年2ヶ月間のトピック変更に関する6515の論文,適用方法,統計データを含むコーパスについて述べる。
論文 参考訳(メタデータ) (2023-01-08T12:33:58Z) - A Greek Parliament Proceedings Dataset for Computational Linguistics and
Political Analysis [4.396860522241306]
我々は,1989年から2020年までの期間を経時的に延ばす,ギリシャ議会紀要のキュレートされたデータセットを紹介した。
5,355の議会記録ファイルから抽出された、100万以上のスピーチと豊富なメタデータで構成されている。
論文 参考訳(メタデータ) (2022-10-23T23:23:28Z) - O-Dang! The Ontology of Dangerous Speech Messages [53.15616413153125]
O-Dang!:The Ontology of Dangerous Speech Messages, a systematic and interoperable Knowledge Graph (KG)
O-Dang!は、Lingguistic Linked Open Dataコミュニティで共有されている原則に従って、イタリアのデータセットを構造化されたKGにまとめ、整理するように設計されている。
ゴールド・スタンダードとシングル・アノテータのラベルをKGにエンコードするモデルを提供する。
論文 参考訳(メタデータ) (2022-07-13T11:50:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。