論文の概要: Benchmarking Knowledge Editing using Logical Rules
- arxiv url: http://arxiv.org/abs/2606.10554v1
- Date: Tue, 09 Jun 2026 08:21:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-10 15:40:58.388573
- Title: Benchmarking Knowledge Editing using Logical Rules
- Title(参考訳): 論理規則を用いた知識編集のベンチマーク
- Authors: Tatiana Moteu Ngoli, NDah Jean Kouagou, Hamada M. Zahera, Axel-Cyrille Ngonga Ngomo,
- Abstract要約: 本稿では,知識編集手法が単一事実編集の論理的結果をどのように扱うかを評価するための新しいベンチマークを提案する。
既存の知識編集手法は, LLMに直接アサーションを正確に挿入できるが, 必要な知識を注入できない場合が多いことが示唆された。
これは知識編集におけるセマンティクスを意識した評価フレームワークの重要性を浮き彫りにする。
- 参考スコア(独自算出の注目度): 6.42566059684319
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) are increasingly deployed in real-world applications that require access to up-to-date knowledge. However, retraining LLMs is computationally expensive. Therefore, knowledge editing techniques are crucial for maintaining current information and correcting erroneous assertions within pre-trained models. Current benchmarks for knowledge editing primarily focus on recalling edited facts, often neglecting their logical consequences. To address this limitation, we introduce a new benchmark designed to evaluate how knowledge editing methods handle the logical consequences of a single fact edit. Our benchmark extracts relevant logical rules from a knowledge graph for a given edit. Then, it generates multi-hop questions based on these rules to assess the impact on logical consequences. Our findings indicate that while existing knowledge editing approaches can accurately insert direct assertions into LLMs, they frequently fail to inject entailed knowledge. Specifically, experiments with popular methods like ROME and FT reveal a substantial performance gap, up to 24%, between evaluations on directly edited knowledge and on entailed knowledge. This highlights the critical need for semantics-aware evaluation frameworks in knowledge editing.
- Abstract(参考訳): 大規模言語モデル(LLM)は、最新の知識へのアクセスを必要とする現実世界のアプリケーションにますます多くデプロイされている。
しかし、再学習 LLM は計算コストが高い。
したがって、知識編集技術は、事前訓練されたモデル内で、現在の情報を維持し、誤った主張を修正するために不可欠である。
知識編集の現在のベンチマークは、主に編集された事実のリコールに焦点を当てており、しばしばその論理的な結果を無視している。
この制限に対処するために,知識編集手法が単一事実編集の論理的結果をどのように扱うかを評価するために設計された新しいベンチマークを導入する。
本ベンチマークでは,知識グラフから関連する論理ルールを抽出して編集する。
そして、これらのルールに基づいてマルチホップ質問を生成し、論理的結果への影響を評価する。
既存の知識編集手法は, LLMに直接アサーションを正確に挿入できるが, 必要な知識を注入できない場合が多いことが示唆された。
具体的には、ROMEやFTといった一般的な手法による実験では、直接編集された知識と関連する知識の評価の間に、パフォーマンスのギャップが最大24%あることが示されている。
これは知識編集におけるセマンティクスを意識した評価フレームワークの重要性を浮き彫りにする。
関連論文リスト
- Retention analysis of edited knowledge after fine-tuning [5.1877231178075425]
大規模な言語モデル(LLM)には膨大な量の知識が格納されており、事実の誤りを訂正したり、新たに取得した情報を組み込んだり、モデルの振る舞いを適応させたりする必要があることが多い。
モデル編集手法はこのような更新の効率的な解法として登場し、局所的で正確な知識修正を連続的な訓練よりも大幅に少ない計算コストで提供する。
しかし、これまで編集された知識に対する微調整の効果はよく分かっていない。
論文 参考訳(メタデータ) (2025-07-14T15:51:19Z) - ThinkEval: Practical Evaluation of Knowledge Leakage in LLM Editing using Thought-based Knowledge Graphs [3.9295613363026174]
モデル編集における間接的知識漏洩とリップル効果を定量化するフレームワークであるThinkEvalを提案する。
ThinkEvalは、編集前後の事実の因果構造を分析するために、専門知識グラフを構築し、採用する。
我々はAlphaEdit, RECT, ROME, MEMIT, PRUNEの5つの編集技術を評価する。
論文 参考訳(メタデータ) (2025-06-02T07:24:12Z) - Knowledge Updating? No More Model Editing! Just Selective Contextual Reasoning [38.018263569983226]
信頼性,一般化,局所性,可搬性という4次元の10種類のモデル編集手法の評価を行った。
次に、知識更新のためのSCR(Selective Contextual Reasoning)という簡単な手法を提案する。
論文 参考訳(メタデータ) (2025-03-07T08:04:25Z) - A Comprehensive Study of Knowledge Editing for Large Language Models [82.65729336401027]
大規模言語モデル(LLM)は、人間のコミュニケーションを忠実に反映したテキストの理解と生成の素晴らしい能力を示している。
本稿では,知識編集の問題を定義し,最先端アプローチの包括的レビューを行う。
我々は,代表的知識編集アプローチの総合的評価のための新しいベンチマークであるKnowEditを紹介した。
論文 参考訳(メタデータ) (2024-01-02T16:54:58Z) - DocTER: Evaluating Document-based Knowledge Editing [53.14000724633775]
本稿では,手作業で3つの文書をラベル付けするのではなく,簡単にアクセスできる文書を用いた知識編集について検討する。
総合的な4つのパースペクティブ評価: 編集成功、局所性、推論、言語間移動。
一般的な知識編集手法の実験は、文書による編集が三重項を使用するよりもはるかに大きな課題を示すことを示した。
論文 参考訳(メタデータ) (2023-08-19T09:17:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。