論文の概要: Nothing from Something: Can a Language Model Discover 0?
- arxiv url: http://arxiv.org/abs/2606.17289v2
- Date: Thu, 18 Jun 2026 21:31:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-23 13:41:30.840804
- Title: Nothing from Something: Can a Language Model Discover 0?
- Title(参考訳): 言語モデルは0を発見できるのか?
- Authors: Phoebe Zeng, Thomas L. Griffiths, Brenden M. Lake,
- Abstract要約: 我々は、現代のAIモデルが数学的地平線をどのように広げるかを調べるためのケーススタディとして、単純な算術を用いる。
GPT-2サイズの言語モデルは、言語事前学習にかかわらず、テスト時にこの一般化を行うことができないことを示す。
言語事前学習は、必要なサンプルの数を約50%削減し、言語能力がニューラルネットワークで数学的発見を足場にすることができることを示す。
- 参考スコア(独自算出の注目度): 9.459481698149597
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: AI systems based on artificial neural networks are being developed with aspirations of pushing the boundary of human mathematical knowledge. A key question for these systems is how much they can reach beyond their training data. Mathematical discovery requires a strong form of out of distribution generalization; the ability to hypothesize genuinely new - and potentially logically more powerful - mathematical structures. It has been hypothesized that language abilities support such generalizations in human cognition. In this work, we use simple arithmetic as a case study for examining how modern AI models could expand their mathematical horizons, evaluating whether these models can independently discover the concept of "zero". We show that (1) language models of a GPT-2 size are unable to perform this generalization at test time regardless of language pretraining, but (2) models can improve substantially after training on tens or hundreds of examples of zero. Additionally, we find that language pretraining reduces the number of required examples by approximately $50\%$, showing that language abilities can scaffold mathematical discovery in neural models.
- Abstract(参考訳): 人工ニューラルネットワークに基づくAIシステムは、人間の数学的知識の境界を押し上げるという試みによって開発されている。
これらのシステムにとって重要な疑問は、トレーニングデータを超えてどこまで到達できるかということだ。
数学的発見には、分布の一般化の強力な形態が必要であり、真に新しい、あるいは論理的により強力な数学的構造を仮説化できる能力が必要である。
言語能力は人間の認知におけるそのような一般化を支持すると仮定されている。
本研究では,現代のAIモデルが数学的地平線をいかに拡張できるかを検証し,これらのモデルが「ゼロ」の概念を独立に発見できるかどうかを評価するために,単純な算術を用いる。
1) GPT-2 サイズの言語モデルでは,言語事前学習にかかわらず,テスト時にこの一般化を行うことができないが,(2) ゼロの数十から数百の例でトレーニングした後,大幅に改善できることが示される。
さらに、言語事前学習は、必要なサンプルの数を約50 %$に減らし、言語能力がニューラルネットワークで数学的発見を足場化できることが示される。
関連論文リスト
- AI Agents as Universal Task Solvers [94.49762121230042]
我々は,過去のデータを用いて,普遍的な解法が達成できる最適なスピードアップが,アルゴリズム情報と密接な関係があることを示す。
我々は、推論モデルをスケールする際に最適化する重要な量は時間であり、学習における重要な役割は、これまでは間接的にのみ考慮されてきたと論じている。
論文 参考訳(メタデータ) (2025-10-14T02:17:54Z) - From Prediction to Understanding: Will AI Foundation Models Transform Brain Science? [37.27364085324663]
生成事前学習(ChatGPTの「GPT」)は、人間の監督なしに大量のインターネットテキストから言語モデルを学習することを可能にする。
ファンデーションモデルという用語は、ドメイン内およびドメイン間の幅広いタスクに適応可能な、大規模な事前訓練されたシステムを指す。
これらのモデルは強い予測精度を達成し、計算原理を照らすことを期待する。
ここでは、ファンデーションモデルが脳科学に生産的に統合される方法について概説し、彼らの約束と限界の両方を強調します。
論文 参考訳(メタデータ) (2025-09-21T23:39:04Z) - Language Models Encode the Value of Numbers Linearly [28.88044346200171]
数学の基本要素である数値を言語モデルでエンコードする方法を考察する。
実験結果は,大規模言語モデルにおける符号付き数値の存在を支持する。
我々の研究は、LLMが数値を線形にエンコードする証拠を提供する。
論文 参考訳(メタデータ) (2024-01-08T08:54:22Z) - Physics of Language Models: Part 3.2, Knowledge Manipulation [51.68385617116854]
本稿では,4つの基本的な知識操作タスクについて検討する。
言語モデルは知識検索に優れるが、最も単純な分類や比較タスクにも耐え難い。
また, GPT-4のような近代的な事前学習言語モデルにも適用できる。
論文 参考訳(メタデータ) (2023-09-25T17:50:41Z) - Are Emergent Abilities in Large Language Models just In-Context Learning? [46.561464069450444]
創発的能力を説明する新しい理論を提示する。
以上の結果から,創発能力は真に創発的ではなく,文脈内学習,モデル記憶,言語知識の組み合わせによるものであることが示唆された。
論文 参考訳(メタデータ) (2023-09-04T20:54:11Z) - A Sentence is Worth a Thousand Pictures: Can Large Language Models Understand Hum4n L4ngu4ge and the W0rld behind W0rds? [2.7342737448775534]
LLM(Large Language Models)は、人間の言語的パフォーマンスに関する主張と関連付けられている。
対象認知システムの理論的に有意な表現としてLLMの寄与を分析する。
我々は,より高い処理レベルからのトップダウンフィードバックを通じて,モデルが全体像を見る能力を評価する。
論文 参考訳(メタデータ) (2023-07-26T18:58:53Z) - State space models can express n-gram languages [51.823427608117626]
我々は、n-gramルールから生成された言語に対して、次の単語予測タスクを解くことのできる状態空間言語モデルを構築している。
我々の証明は、SSMがn-gramルールをその能力に関する新たな理論的結果を用いてエンコードする方法を示している。
n-gramルールから生成された小さなデータセットを用いて実験を行い、勾配に基づく最適化によって得られたSSMやRNNにフレームワークをどのように適用できるかを示す。
論文 参考訳(メタデータ) (2023-06-20T10:41:23Z) - Emergent Analogical Reasoning in Large Language Models [1.5469452301122177]
GPT-3は、多くの設定において、抽象的なパターン誘導、マッチング、さらには人間の能力を超える、驚くほど強力な能力を持っていることを示す。
以上の結果から, GPT-3のような大規模言語モデルでは, 幅広い類似問題に対するゼロショット解を求める能力が得られている。
論文 参考訳(メタデータ) (2022-12-19T00:04:56Z) - Discovering Latent Knowledge in Language Models Without Supervision [72.95136739040676]
既存の言語モデルをトレーニングするテクニックは、真実と正しく一致していない可能性がある。
本稿では,言語モデルの内部アクティベーション内部の潜伏知識を,純粋に教師なしの方法で直接見つけることを提案する。
本手法は, 教師なし, モデル出力がないにもかかわらず, 大規模言語モデルで表される多様な知識を復元できることを示す。
論文 参考訳(メタデータ) (2022-12-07T18:17:56Z) - Towards Zero-shot Language Modeling [90.80124496312274]
人間の言語学習に誘導的に偏りを持つニューラルモデルを構築した。
類型的に多様な訓練言語のサンプルからこの分布を推測する。
我々は、保留言語に対する遠隔監視として、追加の言語固有の側情報を利用する。
論文 参考訳(メタデータ) (2021-08-06T23:49:18Z) - Leap-Of-Thought: Teaching Pre-Trained Models to Systematically Reason
Over Implicit Knowledge [96.92252296244233]
大規模な事前学習言語モデル(LM)は推論能力を得るが、制御は困難である。
本研究では,暗黙的,事前学習された知識と明示的な自然言語文を併用して,体系的推論を確実に行うことができることを示す。
我々の研究は、シンプルな自然言語文を追加することで、モデルを簡単に修正できるユーザと対話することで、常に改善されるオープンドメインシステムへの道を開く。
論文 参考訳(メタデータ) (2020-06-11T17:02:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。