論文の概要: Streaming Knowledge Compilation: Proactive Materiality-Scored Pinning for Time-Evolving LLM Wikis
- arxiv url: http://arxiv.org/abs/2606.09877v1
- Date: Wed, 03 Jun 2026 01:07:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-10 15:40:57.989527
- Title: Streaming Knowledge Compilation: Proactive Materiality-Scored Pinning for Time-Evolving LLM Wikis
- Title(参考訳): ストリーミング知識コンパイル: 時間進化型LLMウィキのためのアクティブマテリアルマークピンニング
- Authors: Juan M. Huerta,
- Abstract要約: ストリーミング知識のコンパイルは、完全なフォアビジョンを持つオフラインのオラクルに対する累積的後悔を最小限にする。
金融は、冷凍Llama 3.1 8B分類ヘッドによって予測される異常な株価変動である。
財務累積的後悔は-20.0(-0.12/step)に収束し、ウィキペディアは+16.0(+0.13/step)に収束する
O(sqrtTlog K)$の保証は、ストリーミング信号から知識ギャップを予測するあらゆる領域に適用できる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LLM wiki systems compile knowledge into pre-filled KV caches for efficient inference, but assume a static corpus -- an assumption that fails whenever the underlying information landscape evolves. We formalize Streaming Knowledge Compilation: given a document stream, a fixed token budget, and future queries unknown at ingestion time, maintain a compiled wiki that minimizes cumulative regret against an offline oracle with perfect foresight. The enabling insight is a materiality signal $φ_t(k,n)\in[0,1]$ that scores document importance for entity $k$ at time $t$, acting as a query-relevance surrogate for proactive pinning before queries arrive; we prove an $O(\sqrt{T\log K})$ regret bound where $\varepsilon=\mathbb{E}[|φ_t-\hatφ_t|]$ is the only domain-specific quantity. We instantiate in two domains: finance, where $φ_t$ is abnormal stock volatility predicted by frozen Llama 3.1 8B classification head (AUROC = 0.728 on 76K articles, strict temporal split; $1.49\times$ higher realized forward volatility for predicted-material articles); and Wikipedia, where $φ_t$ is the Abnormal Edit Ratio (AER), a cross-sectionally normalized edit velocity -- showing the same algorithm generalizes beyond the finance domain. End-to-end QA evaluation on 173 matched pairs (finance) and 119 (Wikipedia) reveals a pervasive LLM-as-judge confound on post-training knowledge, establishing that regret analysis -- not absolute QA scores -- is the reliable evaluation metric for compiled knowledge systems. Finance cumulative regret converges to -20.0 (-0.12/step); Wikipedia to +16.0 (+0.13/step), with the positive sign confirming that Wikipedia edit content is genuinely post-training -- richer context consistently improves scores (No Wiki 3.80 vs. Oracle 4.74) -- and eliminates this confound. The $O(\sqrt{T\log K})$ guarantee applies to any domain where knowledge gaps can be predicted from streaming signals.
- Abstract(参考訳): LLM wikiシステムは、知識を効率的な推論のためにプリフィルされたKVキャッシュにコンパイルするが、静的コーパスを仮定する。
ストリームの知識コンパイルを形式化する: ドキュメントストリーム、固定トークン予算、そして取り込み時に未知の将来のクエリを与えられた場合、完全なフォアビジョンを持つオフラインのオラクルに対する累積的後悔を最小限に抑えるコンパイルされたwikiを維持する。
実現可能な洞察は、物質性信号$φ_t(k,n)\in[0,1]$で、クエリが到着する前にプロアクティブピンニングのためのクエリ関連サロゲートとして機能するエンティティ$k$のドキュメント重要性をスコアする。
ファイナンス:$φ_t$は冷凍Llama 3.1 8Bの分類ヘッドによって予測される異常なストックボラティリティ(AUROC = 0.728、76Kの記事は厳密な時間分割; $1.49\times$ 予測対象記事はより高い実現された前方ボラティリティ)、ウィキペディア:$φ_t$が異常編集比(AER)である。
173組のマッチングペア(ファイナンス)と119組(Wikipedia)のエンドツーエンドのQA評価では、学習後の知識に基づいて広範にLLM-as-judgeが混ざり合っており、絶対的なQAスコアではなく後悔の分析が、コンパイルされた知識システムに対する信頼性評価指標であることを証明している。
財務累積的後悔は-20.0(-0.12/step)、ウィキペディアは+16.0(+0.13/step)に収束し、ウィキペディアの編集コンテンツが真にポストトレーニング中であることを確証する肯定的なサインは、常にスコアを改善する(No Wiki 3.80 vs. Oracle 4.74)。
O(\sqrt{T\log K})$の保証は、ストリーミング信号から知識ギャップを予測できる領域に適用される。
関連論文リスト
- Scaling Laws for Agent Harnesses via Effective Feedback Compute [53.68149869349268]
emphEffective Feedback Compute (EFC)は、情報的、有効、非冗長な場合にのみフィードバックを信用し、その後の決定のために保持するトレースレベルのスケーリング座標である。
EFCベースの座標は、生の計算ベースラインよりも失敗率を常に予測する。
論文 参考訳(メタデータ) (2026-05-28T09:45:47Z) - Representation Without Reward: A JEPA Audit for LLM Fine-Tuning [1.2691047660244335]
JEPA(Joint-embedding predictive Architectures)は、モデルが観測された出力よりも遅延表現を予測できるように訓練された時に、より有用な抽象化を学ぶべきであることを提案している。
自己回帰型言語モデルの微調整には、この原理はより厳密な要件を必要とする。
我々は、Llama-3.2-1B-Instruct LoRA を用いて、自然言語からレジェックス生成におけるその要件を検証した。
論文 参考訳(メタデータ) (2026-05-14T20:27:32Z) - WiCER: Wiki-memory Compile, Evaluate, Refine Iterative Knowledge Compilation for LLM Wiki Systems [0.0]
我々は17のRepLiQAドメイン間のコンパイルギャップを特徴付ける(6,800の質問)。
本稿では,このギャップを埋める反例誘導抽象化改良(CEGAR)にインスパイアされた反復アルゴリズムであるWiCERを提案する。
全17項目のアブレーションにより、汎用ピンニング(+0.16)ではなく、ターゲット診断(+0.95)がゲインを駆動していることが確認された。
論文 参考訳(メタデータ) (2026-05-08T00:25:16Z) - PRCD-MAP: Learning How Much to Trust Imperfect Priors in Causal Discovery [0.0]
本稿では,エッジ単位の信頼度を不完全に割り当てるソフトな事前消費層であるPRCD-MAPを提案する。
信頼度は経験的ベイズによってラプラス近似の限界確率で調整される。
実際のCausalTimeデータでは、PRCD-MAPは情報的LLMプリエンスを利用する。
論文 参考訳(メタデータ) (2026-05-03T01:48:45Z) - $λ_A$: A Typed Lambda Calculus for LLM Agent Composition [2.1900658889606097]
エージェント合成のための計算である$_A$を提示し、単に型付けされた計算をオラクルコール、有界固定点、可変環境で拡張する。
動作意味論から構造的構成誤差を直接検出するlintツールを作成した。
LLMエージェント合成のための統一計算として、$_A$が$_A$のフラグメントを埋め込み、$_A$を確立する。
論文 参考訳(メタデータ) (2026-04-13T17:39:23Z) - Selective Memory for Artificial Intelligence: Write-Time Gating with Hierarchical Archiving [0.0]
パラメトリックアプローチは、選択的な更新を前に、知識を重みに圧縮する。
合成サリエンススコアを用いて、入ってくる知識オブジェクトをフィルタリングする書き込み時間ゲーティングを導入する。
論文 参考訳(メタデータ) (2026-03-16T23:06:44Z) - p-Mean Regret for Stochastic Bandits [52.828710025519996]
単純で統一された UCB ベースのアルゴリズムを導入し、新しい$p$-mean の後悔境界を実現する。
我々の枠組みは、特別な場合として、平均的な累積的後悔とナッシュ後悔の両方を包含する。
論文 参考訳(メタデータ) (2024-12-14T08:38:26Z) - WikiContradict: A Benchmark for Evaluating LLMs on Real-World Knowledge Conflicts from Wikipedia [59.96425443250666]
Retrieval-augmented Generation (RAG) は,大規模言語モデル(LLM)の限界を緩和する,有望なソリューションとして登場した。
本研究では,ウィキペディアからの矛盾文に基づく質問に対するLLM生成回答の総合評価を行う。
我々は、単一のパスを持つRAGと2つの矛盾するパスを持つRAGを含む、様々なQAシナリオ下で、クローズドおよびオープンソース両方のLSMをベンチマークする。
論文 参考訳(メタデータ) (2024-06-19T20:13:42Z) - Corruption-Robust Algorithms with Uncertainty Weighting for Nonlinear
Contextual Bandits and Markov Decision Processes [59.61248760134937]
本稿では,$tildeO(sqrtT+zeta)$を後悔するアルゴリズムを提案する。
提案アルゴリズムは、最近開発された線形文脈帯域からの不確実性重み付き最小二乗回帰に依存する。
本稿では,提案アルゴリズムをエピソディックなMDP設定に一般化し,まず汚職レベル$zeta$への付加的依存を実現する。
論文 参考訳(メタデータ) (2022-12-12T15:04:56Z) - Fast Rates for the Regret of Offline Reinforcement Learning [69.23654172273085]
無限水平割引決定プロセス(MDP)における固定行動ポリシーによって生成されたオフラインデータからの強化学習の後悔について検討する。
最適品質関数 $Q*$ に対する任意の推定が与えられたとき、定義するポリシーの後悔は、$Q*$-estimate の点収束率の指数によって与えられる速度で収束することを示す。
論文 参考訳(メタデータ) (2021-01-31T16:17:56Z) - A new regret analysis for Adam-type algorithms [78.825194932103]
理論的には、オンライン凸最適化に対する後悔の保証は、急速に崩壊する$beta_1to0$スケジュールを必要とする。
最適なデータ依存リセット境界を一定の$beta_1$で導出できる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2020-03-21T19:19:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。