論文の概要: Words as Difference Makers: How Large Language Models Determine Causal Structure in Text
- arxiv url: http://arxiv.org/abs/2606.22430v1
- Date: Sun, 21 Jun 2026 10:40:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-25 18:19:46.97028
- Title: Words as Difference Makers: How Large Language Models Determine Causal Structure in Text
- Title(参考訳): 違い要因としての単語:大言語モデルがテキストの因果構造をいかに決定するか
- Authors: Wolfgang Pietsch,
- Abstract要約: 私は、大きな言語モデル(LLM)は差分論理に基づく特定の帰納的アプローチを採用していると論じます。
LLMの特定のアーキテクチャ特性を分析し、変動誘導におけるそれらの役割を解明する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Because large language models (LLMs) are impressively successful in predicting text, it appears that they must have access to a 'world model' representing causal and definitional structure. However, the dominant formalisms of modern causal inference -- Judea Pearl's interventionist approach and the Neyman-Rubin potential outcomes framework -- struggle to illuminate how LLMs learn causal structure. I resolve this puzzle by arguing that LLMs employ a specific inductive approach based on a difference-making logic -- sometimes called variational induction. I demonstrate how central aspects of this logic are realized during training, where LLMs require enormous amounts of text data from a wide range of contexts to identify difference- and indifference-makers within word sequences. Furthermore, I analyze specific architectural features of LLMs -- such as token embeddings and self-attention -- to determine their roles in variational induction. The difference-making logic of LLMs fundamentally parallels the experimental method, where causal relations are derived by systematically varying individual circumstances to determine their influence on a phenomenon.
- Abstract(参考訳): 大きな言語モデル(LLM)はテキストの予測に驚くほど成功したため、因果的構造と定義的構造を表す「世界モデル」にアクセスできなければならない。
しかし、現代の因果推論の卓越した形式主義(ジューデア・パールの介入主義的アプローチとナイマン・ルービンの潜在的な結果の枠組み)は、LLMが因果構造を学ぶ方法の解明に苦慮している。
LLMは、差分生成論理に基づく特定の帰納的アプローチ(時として変分帰納法と呼ばれる)を採用する、と論じることで、この問題を解決する。
この論理の中枢的な側面が、学習中にどのように実現されるかを示す。そこでは、LLMは、単語列内の差分と差分を識別するために、幅広い文脈から大量のテキストデータを必要とする。
さらに、トークン埋め込みや自己アテンションなど、LLMの特定のアーキテクチャの特徴を分析して、変分誘導におけるそれらの役割を判断します。
LLMの差分論理は、因果関係が系統的に異なる個別の状況によって引き起こされ、その現象への影響を決定する実験手法を根本的に平行にしている。
関連論文リスト
- Human-Level Reasoning: A Comparative Study of Large Language Models on Logical and Abstract Reasoning [2.430913933033485]
本研究では,Large Language Models (LLM) の論理的および抽象的推論スキルを8つのカスタム設計の推論質問を用いて比較した。
結果は、同じタスクにおける人間のパフォーマンスに対してベンチマークされ、大きな違いと、LLMが推論に苦しむ領域を示す。
論文 参考訳(メタデータ) (2025-10-28T14:02:58Z) - Computation Mechanism Behind LLM Position Generalization [59.013857707250814]
大規模言語モデル(LLM)は、テキストの位置を扱う際の柔軟性を示す。
彼らは位置摂動のあるテキストを理解し、より長いテキストに一般化することができる。
この研究は言語現象とLLMの計算機構を結びつける。
論文 参考訳(メタデータ) (2025-03-17T15:47:37Z) - LogiDynamics: Unraveling the Dynamics of Inductive, Abductive and Deductive Logical Inferences in LLM Reasoning [74.0242521818214]
本稿では,大言語モデル(LLM)におけるインダクティブ(システム1)と帰納的/帰納的(システム2)の推論の比較力学を体系的に検討する。
我々は、制御されたアナログ推論環境、多様度(テキスト、視覚、記号)、難易度、タスク形式(MCQ/フリーテキスト)を利用する。
我々の分析によると、System 2のパイプラインは一般的に、特に視覚的/象徴的なモダリティや難しいタスクにおいて優れており、System 1はテキストやより簡単な問題に対して競争力がある。
論文 参考訳(メタデータ) (2025-02-16T15:54:53Z) - Failure Modes of LLMs for Causal Reasoning on Narratives [51.19592551510628]
世界の知識と論理的推論の相互作用について検討する。
最先端の大規模言語モデル(LLM)は、しばしば表面的な一般化に依存している。
タスクの単純な再構成により、より堅牢な推論行動が引き起こされることを示す。
論文 参考訳(メタデータ) (2024-10-31T12:48:58Z) - Towards LogiGLUE: A Brief Survey and A Benchmark for Analyzing Logical Reasoning Capabilities of Language Models [56.34029644009297]
大規模言語モデル(LLM)は、形式的知識表現(KR)システムの様々な制限を克服する能力を示した。
LLMは誘導的推論において最も優れているが、誘導的推論では最も効果が低い。
モデルの性能を評価するため,シングルタスクトレーニング,マルチタスクトレーニング,および「チェーンオブ思考」知識蒸留細調整技術について検討した。
論文 参考訳(メタデータ) (2023-10-02T01:00:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。