論文の概要: Measuring language complexity from hierarchical reuse of recurring patterns
- arxiv url: http://arxiv.org/abs/2606.11531v1
- Date: Wed, 10 Jun 2026 00:29:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-11 16:42:38.223531
- Title: Measuring language complexity from hierarchical reuse of recurring patterns
- Title(参考訳): 繰り返しパターンの階層的再利用による言語複雑性の測定
- Authors: Junyi Zhou, Rui Liu, Pengyu Liu, Yu Liu,
- Abstract要約: 本稿では,アルゴリズム情報理論に基づく言語複雑性の尺度として,ラグパス指数を導入する。
並列ユニバーサル依存データセットから,21個の並列コーパスにラグパスアプローチを適用した。
- 参考スコア(独自算出の注目度): 7.624027042732245
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We introduce the ladderpath index as a measure of language complexity grounded in algorithmic information theory. It counts the minimum steps needed to reconstruct a sequence through hierarchical reuse of repeated substructures, capturing an exactly computable but constrained form of algorithmic compressibility related to, but distinct from, Kolmogorov complexity. We apply the ladderpath approach to 21 parallel corpora from the Parallel Universal Dependencies dataset. The ladderpath index is approximately invariant across the languages, and varies much less than the corpus length. This is more pronounced when all corpora are mapped to a unified binary representation, providing evidence for the equi-complexity hypothesis from a representation-independent perspective. We also observe trade-offs between character inventory size and corpus length, and between vocabulary-level and corpus-level reconstruction complexity, supporting the trade-off hypothesis that total complexity is conserved and redistributed across linguistic levels. The reusable substructures identified by the ladderpath approach, without any linguistic input, overlap with words and morphological components attested in the natural vocabulary. The hierarchical reuse captured by the ladderpath approach parallels the chunking mechanisms proposed in cognitive science, where the human cognitive system compresses linguistic input into nested, reusable units under shared memory and processing constraints. This connection between cognitive chunking and the ladderpath approach provides a new interpretation for the equi-complexity and trade-off hypotheses, grounding both in the shared cognitive architecture that underlies language processing across human languages.
- Abstract(参考訳): 本稿では,アルゴリズム情報理論に基づく言語複雑性の尺度として,ラグパス指数を導入する。
これは、繰り返しる部分構造の階層的再利用を通じて配列を再構築するために必要な最小のステップを数え、正確に計算可能で制約されたアルゴリズム圧縮の形式を、コルモゴロフ複雑性(英語版)(Kolmogorov complexity)とは独立に捉えている。
並列ユニバーサル依存データセットから,21個の並列コーパスにラグパスアプローチを適用した。
ラダーパス指数は言語間でほぼ不変であり、コーパス長よりもはるかに少ない。
これは、すべてのコーパスが統一二項表現に写像され、表現非依存の観点からの同複素性仮説の証拠を提供するときにより顕著である。
また,文字の在庫規模とコーパスの長さ,語彙レベルとコーパスレベルの再構築複雑性のトレードオフも観察し,総複雑性が言語レベルで保存され再分配されるというトレードオフ仮説を支持した。
ランダーパスアプローチによって同定された再利用可能なサブ構造は、言語的な入力なしに、自然語彙で証明された単語や形態的要素と重複する。
階層的な再利用は、認知科学において提案されたチャンキング機構と平行して行われ、人間の認知システムは、共有メモリと処理制約の下で、ネストされた再利用可能な単位に言語入力を圧縮する。
この認知的チャンキングとラダーパスアプローチの関連性は、言語処理を人間言語に根ざした共有認知アーキテクチャの両方に基礎を置いて、等価複雑性とトレードオフ仮説の新たな解釈をもたらす。
関連論文リスト
- Grokers: Bottom-Up Inductive Comprehension and Write-Time Intelligence over Typed Knowledge Graphs [0.0]
Grokersは、型付き知識グラフの永続的で構造化された理解を構築するためのアーキテクチャである。
自律的なGrokerエージェントは、型付きストリームグラフのノードを分析し、制御された言語モデル呼び出しを通じて構造化属性を抽出する。
論文 参考訳(メタデータ) (2026-05-07T17:28:36Z) - Correlation Dimension of Auto-Regressive Large Language Models [11.183390901786659]
大規模言語モデル(LLM)は、自然言語生成において顕著な進歩を遂げた。
彼らは、低難易度を示すときでさえ、繰り返しや不整合のようなファジィな行動を示し続けている。
本稿では,テキストの複雑さを定量化するために,自己相似性のフラクタル幾何学的尺度である相関次元を導入する。
論文 参考訳(メタデータ) (2025-10-24T08:42:23Z) - LLM-guided Hierarchical Retrieval [54.73080745446999]
LATTICEは階層的な検索フレームワークであり、LLMは対数探索の複雑さで大きなコーパスを推論し、ナビゲートすることができる。
LLM誘導探索における中心的な課題は、モデルの関連性判断がノイズが多く、文脈に依存し、階層性に気付かないことである。
我々のフレームワークは、推論集約型BRIGHTベンチマークで最先端のゼロショット性能を実現する。
論文 参考訳(メタデータ) (2025-10-15T07:05:17Z) - Training Neural Networks as Recognizers of Formal Languages [87.06906286950438]
ニューラルネットワークを文字列のバイナリ分類器として直接訓練し評価する。
3つのニューラルアーキテクチャに対して、チョムスキー階層の様々な言語について結果を提供する。
我々の貢献は、将来の研究において、言語認識の主張を理論的に健全に検証するのに役立つだろう。
論文 参考訳(メタデータ) (2024-11-11T16:33:25Z) - GSSF: Generalized Structural Sparse Function for Deep Cross-modal Metric Learning [51.677086019209554]
ペアワイド類似性学習のためのモダリティ間の強力な関係を捕捉する汎用構造スパースを提案する。
距離メートル法は、対角線とブロック対角線の2つの形式を微妙にカプセル化する。
クロスモーダルと2つの余分なユニモーダル検索タスクの実験は、その優位性と柔軟性を検証した。
論文 参考訳(メタデータ) (2024-10-20T03:45:50Z) - Linguistic Structure from a Bottleneck on Sequential Information Processing [5.850665541267672]
予測情報によって制約されたコードに自然言語のような体系性が生じることを示す。
人間の言語は、音韻学、形態学、構文学、意味論のレベルにおいて、低い予測情報を持つように構成されている。
論文 参考訳(メタデータ) (2024-05-20T15:25:18Z) - Inducing Systematicity in Transformers by Attending to Structurally
Quantized Embeddings [60.698130703909804]
トランスフォーマーは、複雑なデータセットでトレーニングされた後、構造と実体の新規な構成に一般化する。
本稿では,SQ-Transformerを提案する。
SQ-Transformerは,複数の低複雑さ意味解析および機械翻訳データセット上で,バニラ変換器よりも強い構成一般化を実現することを示す。
論文 参考訳(メタデータ) (2024-02-09T15:53:15Z) - Modeling Hierarchical Reasoning Chains by Linking Discourse Units and
Key Phrases for Reading Comprehension [80.99865844249106]
本稿では,論理的推論の基盤として,対話レベルと単語レベルの両方の文脈を扱う総合グラフネットワーク(HGN)を提案する。
具体的には、ノードレベルの関係とタイプレベルの関係は、推論過程におけるブリッジと解釈できるが、階層的な相互作用機構によってモデル化される。
論文 参考訳(メタデータ) (2023-06-21T07:34:27Z) - ROSE: A Neurocomputational Architecture for Syntax [0.0]
本稿では,ROSEモデルと呼ばれる構文のニューロ計算アーキテクチャを提案する。
ROSEでは、構文の基本データ構造は原子的特徴、心的表現のタイプ(R)であり、単一ユニットとアンサンブルレベルでコード化されている。
低周波カップリングと位相振幅カップリング(pSTS-IFGによるデルタ-テータカップリング、IFGによるテータ-ガンマカップリングから概念ハブへのテータ-ガンマカップリング)の識別形式は、これらの構造を異なるワークスペースにエンコードする(E)。
論文 参考訳(メタデータ) (2023-03-15T18:44:37Z) - Hierarchical Poset Decoding for Compositional Generalization in Language [52.13611501363484]
出力が部分的に順序付けられた集合(命題)である構造化予測タスクとして人間の言語理解を形式化する。
現在のエンコーダ・デコーダアーキテクチャは意味論のポーズ構造を適切に考慮していない。
本稿では,言語における合成一般化のための新しい階層型ポーズデコーディングパラダイムを提案する。
論文 参考訳(メタデータ) (2020-10-15T14:34:26Z) - SPARQA: Skeleton-based Semantic Parsing for Complex Questions over
Knowledge Bases [27.343078784035693]
本稿では,複雑な質問の高次構造を表現するために,新しいスケルトン文法を提案する。
BERTをベースとしたパースアルゴリズムを用いたこの厳密な形式化は、下流の微細なセマンティック解析の精度を向上させるのに役立つ。
このアプローチは、いくつかのデータセットで有望なパフォーマンスを示す。
論文 参考訳(メタデータ) (2020-03-31T05:12:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。