論文の概要: The Dynamics of Human and AI-Generated Language: How Semantics Fluctuates across Different Timescales
- arxiv url: http://arxiv.org/abs/2606.11371v1
- Date: Tue, 09 Jun 2026 18:54:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-11 16:42:38.14566
- Title: The Dynamics of Human and AI-Generated Language: How Semantics Fluctuates across Different Timescales
- Title(参考訳): 人間とAI生成言語のダイナミクス:様々な時間スケールでセマンティックスがどのように変動するか
- Authors: Han-Jen Chang, Yasir Çatal, Angelika Wolman, Agustín Ibáñez, David Smith, I-Wen Su, Kai-Yuan Cheng, Georg Northoff,
- Abstract要約: 本稿では,単語レベルのテキストをタイムスタンプで意味的時系列に変換するセマンティック・タイムスケール分析パイプラインを提案する。
それぞれの話し言葉について,WordNetに基づく単語深度と(ii)SBERT埋め込みを用いた文脈的類似度を用いて意味的特異性を計算する。
次に、語彙の同一性、時間順、単語長を選択的に破壊するシャッフル制御と比較する。
- 参考スコア(独自算出の注目度): 0.05621251909851629
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Spoken language, whether produced by humans or large language models (LLM), unfolds over time with varying semantic content. However, we still lack simple, interpretable time-series features that capture how generic versus specific content is distributed over time, and that can be used to compare human and AI-generated speech. We introduce a semantic-timescale analysis pipeline that turns word-level transcripts with timestamps into semantic time-series. For each spoken narrative, we compute (i) semantic specificity using WordNet-based word depth and (ii) contextual similarity using SBERT embeddings and quantify their temporal dependence using autocorrelation-window measures (ACW-0 and related metrics). We then compare original speech to multiple shuffled controls that selectively disrupt lexical identity, temporal order, and word duration. Across human-read autobiographical narratives, TTS readings, and LLM-generated texts rendered with TTS, we find that segments with longer ACW-0 in the semantic time-series tend to contain more generic vocabulary, whereas segments with shorter ACW-0 are enriched in more specific words. These associations are strongly attenuated or abolished when word order and timing are randomized, indicating that ACW-based measures capture non-trivial temporal organization of semantic content beyond static lexical distributions. Our results suggest that ACW-based semantic timescales are a useful family of features for analyzing and comparing the temporal structure of human and AI-generated speech.
- Abstract(参考訳): 人間や大型言語モデル(LLM)が生成するスポーク言語は、時間とともに様々なセマンティックな内容で展開される。
しかし、時間が経つにつれて、一般的なコンテンツと特定のコンテンツがどのように分散しているかをキャプチャする、単純で解釈可能な時系列機能はいまだに欠けており、人間とAIが生成した音声を比較するのに使用できる。
本稿では,単語レベルのテキストをタイムスタンプで意味的時系列に変換するセマンティック・タイムスケール分析パイプラインを提案する。
話し言葉ごとに計算する
(i)WordNetを用いた単語深度と意味的特異性
(II)SBERT埋め込みを用いた文脈的類似性(ACW-0とその関連指標)を用いて時間的依存度を定量化する。
次に,語彙的同一性,時間的順序,単語長を選択的に破壊する複数のシャッフル制御と比較する。
人読み自伝的物語, TTS 読み, LLM 生成テキストを TTS で表現したところ, 意味的時系列においてより長い ACW-0 のセグメントはより汎用的な語彙を含む傾向があり, 短い ACW-0 のセグメントはより具体的な単語に富んでいることがわかった。
これらの関連性は、単語の順序とタイミングがランダム化されると強く減衰または排除され、ACWベースの尺度が静的語彙分布を超えて意味的コンテンツの非自明な時間的構造を捉えていることを示す。
以上の結果から,ACWに基づく意味的時間尺度は,人間とAIが生成する音声の時間構造を分析し比較する上で有用な特徴の1つであることが示唆された。
関連論文リスト
- Temporal Flattening in LLM-Generated Text: Comparing Human and LLM Writing Trajectories [7.8363070295415165]
2012年から2024年にかけての412人の著者と6,086件の文書からなる時系列データセットの構築と公開を行った。
意味的・語彙的・認知的感情的表現に対するドリフトと分散に基づく指標を用いて,LLM生成テキストに時間的平坦化が認められる。
このギャップは、合成トレーニングデータや長手テキストモデリングのような、真正の時間構造を必要とするアプリケーションに直接的な意味を持つ。
論文 参考訳(メタデータ) (2026-04-13T22:13:41Z) - Speech Codec Probing from Semantic and Phonetic Perspectives [49.01048570474675]
音声トークン化器は,マルチモーダルシステムにおいて,音声を大言語モデル (LLM) に接続するために必須である。
新たな証拠は、音声表現において「意味」と呼ばれるものは、テキスト由来の意味論と一致しないことを示している。
論文 参考訳(メタデータ) (2026-03-11T03:32:25Z) - TS-Haystack: A Multi-Scale Retrieval Benchmark for Time Series Language Models [4.387988928531881]
時系列言語モデル(TSLM)は、自然言語における連続的な信号の推論のための統一モデルとして登場している。
既存のモデルは通常、短いシーケンスでトレーニングされ、評価されるが、現実の時系列センサーストリームは数百万のデータポイントにまたがる。
TS-Haystackは4つのカテゴリにまたがる10のタスクタイプからなる長期コンテキストの時間的評価ベンチマークである。
論文 参考訳(メタデータ) (2026-02-15T15:50:02Z) - VITRO: Vocabulary Inversion for Time-series Representation Optimization [21.338428379212704]
本稿では,自然言語の離散的,意味的な性質と時系列データの連続的,数値的性質とのギャップを埋めるために,VITROを提案する。
学習可能な時系列固有の擬単語埋め込みは、既存の汎用言語モデル語彙よりも時系列データの表現が優れていることを示す。
論文 参考訳(メタデータ) (2024-12-23T19:24:51Z) - Tomato, Tomahto, Tomate: Measuring the Role of Shared Semantics among Subwords in Multilingual Language Models [88.07940818022468]
エンコーダのみの多言語言語モデル(mLM)におけるサブワード間の共有セマンティクスの役割を測る第一歩を踏み出した。
意味的に類似したサブワードとその埋め込みをマージして「意味トークン」を形成する。
グループ化されたサブワードの検査では 様々な意味的類似性を示します
論文 参考訳(メタデータ) (2024-11-07T08:38:32Z) - A Systematic Analysis on the Temporal Generalization of Language Models in Social Media [12.035331011654078]
本稿では,ソーシャルメディア,特にTwitterの時間的変化に注目した。
本研究では,言語モデル(LM)の性能を時間的シフトで評価するための統一評価手法を提案する。
論文 参考訳(メタデータ) (2024-05-15T05:41:06Z) - Contextualized Semantic Distance between Highly Overlapped Texts [85.1541170468617]
テキスト編集や意味的類似性評価といった自然言語処理タスクにおいて、ペア化されたテキストに重複が頻繁に発生する。
本稿では,マスク・アンド・予測戦略を用いてこの問題に対処することを目的とする。
本稿では,最も長い単語列の単語を隣接する単語とみなし,その位置の分布を予測するためにマスク付き言語モデリング(MLM)を用いる。
セマンティックテキスト類似性の実験では、NDDは様々な意味的差異、特に高い重なり合うペアテキストに対してより敏感であることが示されている。
論文 参考訳(メタデータ) (2021-10-04T03:59:15Z) - Weakly Supervised Temporal Adjacent Network for Language Grounding [96.09453060585497]
本稿では,時間的言語接地のための新しい教師付き時間的隣接ネットワーク(WSTAN)を提案する。
WSTANは、複数のインスタンス学習(MIL)パラダイムにおいて、時間的隣接ネットワークを活用することで、モーダル間のセマンティックアライメントを学習する。
MILブランチと補完ブランチの両方で、自己監督による意味的識別を強化するために、追加の自己識別損失が考案された。
論文 参考訳(メタデータ) (2021-06-30T15:42:08Z) - Temporal Common Sense Acquisition with Minimal Supervision [77.8308414884754]
この研究は、時間的常識の明示的で暗黙的な言及を活用する新しいシーケンスモデリング手法を提案する。
本手法は,時間的共通感覚の様々な次元の質予測を行う。
また、時間比較、親子関係、イベントコア参照、時間的QAなど、関連するタスクに対するイベントの表現も生成する。
論文 参考訳(メタデータ) (2020-05-08T22:20:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。