論文の概要: Multi-Hop Knowledge Composition is Bound by Pretraining Exposure
- arxiv url: http://arxiv.org/abs/2606.09338v1
- Date: Mon, 08 Jun 2026 11:05:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:06.934264
- Title: Multi-Hop Knowledge Composition is Bound by Pretraining Exposure
- Title(参考訳): マルチホップ知識構成は露光の事前訓練によって境界づけられる
- Authors: Yannis Karmim, Luis Marti, Djamé Seddah, Valentin Barrière,
- Abstract要約: 本研究では、事前学習中に構成文脈に曝される個人と、そのような文脈に現れない個人とを厳格に分離した制御された自然言語環境における障害について検討する。
本研究では,9種類のデータ中心の強化形式を提案し,被曝者に対する未知の質問に対する構成事前学習の伝達について検討した。
- 参考スコア(独自算出の注目度): 4.649827808431771
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models fail at implicit multi-hop reasoning: a model answers "When was $X$ born?" and "Who is $Y$'s closest friend?" correctly but fails on "When was $Y$'s closest friend born?" in a single forward pass, even when both facts are perfectly memorized and individually retrievable. We study this failure in a controlled natural language setting with a strict separation between individuals exposed to compositional contexts during pretraining and those that never appear in any such context. We confirm that compositional failure persists even at 97% 1-hop accuracy, establishing the gap as a pretraining failure rather than a knowledge absence. We propose and test nine data-centric augmentation formats and find that compositional pretraining transfers to unseen questions for exposed individuals, but never to individuals absent from compositional pretraining, suggesting that exposure to compositional contexts during pretraining is a necessary condition for implicit multi-hop reasoning.
- Abstract(参考訳): 大きな言語モデルは暗黙のマルチホップ推論で失敗する: あるモデルは「いつ$X$が誕生したのか?」と答え、「Who is $Y$が一番近い友人だったのか?
本研究では、事前学習中に構成文脈に曝される個人と、そのような文脈に現れない個人とを厳格に分離した制御された自然言語環境において、この失敗について検討する。
構成的故障が97%の精度でも持続していることを確認し,そのギャップは知識の欠如というよりも,事前学習の失敗として確立した。
本研究では,9種類のデータ中心強化形式を提案し,被曝者に対する未知の質問に対する構成的事前学習の伝達が,構成的事前学習に欠席した個人に対して行われないことを見いだし,事前学習中の構成的文脈への露出が暗黙のマルチホップ推論の必要条件であることを示唆した。
関連論文リスト
- Pre-training and Diagnosing Knowledge Base Completion Models [58.07183284468881]
我々は,事実の集合から他の集合への知識伝達へのアプローチを,エンティティや関係マッチングを必要とせずに導入し,分析する。
主な貢献は、構造化されていないテキストから収集された事実の大規模事前学習を利用する方法である。
得られた事前学習モデルをよりよく理解するために,オープン知識ベースコンプリートのための事前学習モデルの解析のための新しいデータセットを導入する。
論文 参考訳(メタデータ) (2024-01-27T15:20:43Z) - Physics of Language Models: Part 3.1, Knowledge Storage and Extraction [51.68385617116854]
大規模言語モデル(LLM)は膨大な量の世界の知識を格納することができ、しばしば質問応答によって抽出できる。
モデルが知識を抽出する能力と,トレーニングデータの多様な多様性尺度との間には,強い相関関係が認められた。
論文 参考訳(メタデータ) (2023-09-25T17:37:20Z) - Why Is Public Pretraining Necessary for Private Model Training? [50.054565310457306]
公開データに対する事前トレーニングは、非プライベートな設定よりも顕著な利益をもたらすことを示す。
トレードオフは、アルゴリズムが2つのフェーズを通過する必要のある、より深い損失モデルかもしれない、と私たちは主張する。
直観によって導かれた理論的な構成は、公的な事前訓練なしでの私的分離を確実に実証するものである。
論文 参考訳(メタデータ) (2023-02-19T05:32:20Z) - ALERT: Adapting Language Models to Reasoning Tasks [43.8679673685468]
ALERTは、言語モデルの推論能力を評価するためのベンチマークと分析スイートである。
ALERTは、あらゆる言語モデルに対して、きめ細かい推論スキルを評価するためのテストベッドを提供する。
言語モデルは、事前学習状態と比較して、微調整段階の推論スキルを学習する。
論文 参考訳(メタデータ) (2022-12-16T05:15:41Z) - Preventing Verbatim Memorization in Language Models Gives a False Sense
of Privacy [91.98116450958331]
我々は、動詞の暗記の定義があまりに制限的であり、より微妙な暗記の形式を捉えることができないと論じる。
具体的には、全ての動詞の暗記を完全に防止する効率的な防御を設計し、実装する。
我々は、潜在的な代替定義について議論し、なぜ記憶の定義がニューラルネットワークモデルにとって難しいが決定的なオープンな問題であるのかを論じる。
論文 参考訳(メタデータ) (2022-10-31T17:57:55Z) - Overprotective Training Environments Fall Short at Testing Time: Let
Models Contribute to Their Own Training [6.02280861819024]
その理由は、異なるトレーニング条件とテスト条件にあると推測する。
このギャップを埋めるために、人間と機械生成の対話のサンプルを含む混合バッチでモデルをトレーニングすることを提案します。
論文 参考訳(メタデータ) (2021-03-20T09:55:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。