論文の概要: Right Knowledge, Wrong Answer: Test-Time Steering for Temporal Fact Conflicts in Open-Weight Language Models
- arxiv url: http://arxiv.org/abs/2606.20959v1
- Date: Thu, 18 Jun 2026 21:56:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-26 11:36:14.640207
- Title: Right Knowledge, Wrong Answer: Test-Time Steering for Temporal Fact Conflicts in Open-Weight Language Models
- Title(参考訳): 正しい知識、間違った答え:オープンウェイト言語モデルにおける時間的Fact Conflictに対するテストタイムステアリング
- Authors: Elias Hossain, Sourav Saha, Umesh Chandra Biswas, Sanjeda Sara Jennifer,
- Abstract要約: 大規模な言語モデルは、時代遅れの事実と、より新しい上位の事実の両方をパラメータに格納することができるが、標準のプロンプトは依然として時代遅れの回答を引き出す可能性がある。
私たちはこの問題をPTC(Parametric Temporal Conflict)として定式化し、TAS(Tarator Steering)を導入します。
TASは、潜在的な競合を検出し、競合クリティカルな層を特定し、再トレーニングや外部検索なしに、隠れた状態を新しいファクト表現に向けて操る。
- 参考スコア(独自算出の注目度): 2.11832654407998
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models can store both outdated facts and newer superseding facts in their parameters, but standard prompting may still elicit the outdated answer. We formalize this problem as Parametric Temporal Conflict (PTC) and introduce Temporal Attractor Steering (TAS), a three-stage test-time intervention that detects likely conflicts, identifies a conflict-critical layer, and steers hidden states toward newer-fact representations without retraining or external retrieval. We construct an 8,746-record verified benchmark across five Wikidata relations and evaluate four open-weight language models from three families: Qwen-2.5-1.5B/7B, Mistral-7B-v0.3, and Llama-3.1-8B. Single-layer activation patching achieves answer-flip rates of 0.72-0.85 across all models. End-to-end TAS resolves 29-57% of PTC cases while preserving 85-99% accuracy on non-conflict queries, outperforming a matched ITI baseline on three of four models. These results show that outdated parametric knowledge can be selectively overridden at inference time.
- Abstract(参考訳): 大規模な言語モデルは、時代遅れの事実と、より新しい上位の事実の両方をパラメータに格納することができるが、標準のプロンプトは依然として時代遅れの回答を引き出す可能性がある。
本稿では、この問題をPTC(Parametric Temporal Conflict)として定式化するとともに、競合を検知し、競合クリティカルな層を識別し、新たなファクト表現をリトレーニングや外部検索なしにステアリングする3段階テストタイム介入である、テンポラルアトラクタステアリング(TAS)を導入する。
我々は,5つのウィキデータ関係にまたがる8,746個の検証済みベンチマークを構築し,Qwen-2.5-1.5B/7B,Mistral-7B-v0.3,Llama-3.1-8Bの3つの言語モデルを評価する。
単層アクティベーションパッチは全モデルで0.72-0.85の解答フリップ率を達成する。
エンドツーエンドのTASは、PSCケースの29~57%を解決し、85~99%の精度で非競合クエリを保存し、4つのモデルのうち3つのモデルで一致したITIベースラインを上回っている。
これらの結果は,古くなったパラメトリック知識を推論時に選択的にオーバーライド可能であることを示す。
関連論文リスト
- Large Language Model-Powered Query-Driven Event Timeline Summarization in Industrial Search [49.02761046363752]
本稿では、Baidu Search上にデプロイされた実運用システムであるQDET(Query-Driven Event Timeline Summarization)を紹介する。
QDETは、毎日取得された数百万のドキュメントによって形成されたノイズの多い候補セットから、クエリに密接に関連するサブイベントを特定し、整理する。
Baidu SearchのオンラインA/Bテストでは、現実世界の有効性が検証され、CTRが5.5%改善し、居住時間が4.6%長く、4.4%深かった。
論文 参考訳(メタデータ) (2026-05-26T14:16:27Z) - Beyond Inference-Only Deployment: Comparing Weight-Based Consolidation Against Cascading Compaction [1.6214121783846343]
本研究は,1つのコンシューマ上でのLow-Rank Adaptation (LoRA)ファインチューニングにより,インタラクション知識をモデルウェイトに夜間に集約することを評価する。
10つの現実的なソフトウェア開発の会話の中で、カスケードのコンパクト化は36.8 +/-3.0%の知識を保持する。
LoRAは、相互作用知識を合成、合成、Low-Rank Adaptation (LoRA)ファインチューニングを通じてモデルウェイトに集約する。
論文 参考訳(メタデータ) (2026-05-23T16:57:25Z) - PBT-Bench: Benchmarking AI Agents on Property-Based Testing [29.035258104995204]
PBT-Benchは、40の実際のPythonライブラリにまたがる100のプロパティベースのテスト問題のベンチマークである。
各問題は1つ以上のセマンティックなバグ(総数365、平均3.65)を注入し、デフォルトのストラテジーなランダムな入力がほとんど起こらないように設計する。
PBT指導によるバグリコールは42.1%から83.4%の範囲で、オープンエンドベースラインでは31.4%から76.7%である。
論文 参考訳(メタデータ) (2026-05-13T18:01:05Z) - Three Regimes of Context-Parametric Conflict: A Predictive Framework and Empirical Validation [0.0]
大規模言語モデルが学習知識と矛盾する文書の相違にどのように対処するかを考察する。
本稿では,Regime 1 (単一ソース更新),Regime 2 (競合統合),Regime 3 (タスクに適した選択)という3つの登録フレームワークを提案する。
我々はClaude Sonnet 4.6、GPT-5.5、Gemini 2.5 Flash、Llama 4 Maverick、DeepSeek V3の3つの実験段階で9,970のAPIコールを使用してフレームワークを検証する。
論文 参考訳(メタデータ) (2026-05-12T06:00:48Z) - ClawArena: Benchmarking AI Agents in Evolving Information Environments [61.664633997138004]
ClawArenaは、進化する情報環境におけるAIエージェントの評価のためのベンチマークである。
それぞれのシナリオは、エージェントをノイズ、部分的、時には矛盾するトレースだけに露呈しながら、完全に隠された地上の真実を維持します。
評価は、マルチソースコンフリクト推論、動的信念修正、暗黙のパーソナライゼーションという3つの複合的な課題に基づいて構成される。
論文 参考訳(メタデータ) (2026-04-05T17:55:23Z) - OrgForge-IT: A Verifiable Synthetic Benchmark for LLM-Based Insider Threat Detection [0.0]
本稿では,決定論的シミュレーションエンジンが基底真理を維持し,言語モデルが表面の散文のみを生成する検証可能な合成ベンチマークを提案する。
コーパスは51日の模擬日、2,904回のテレメトリ記録を96.4%のノイズレートで記録し、単面と単日のトリアージ戦略を破るために設計された4つの検出シナリオをカバーしている。
論文 参考訳(メタデータ) (2026-03-23T19:03:53Z) - AdaCAD: Adaptively Decoding to Balance Conflicts between Contextual and Parametric Knowledge [57.66282463340297]
知識の衝突は、大きな言語モデルの文脈における情報と、そのパラメータに格納された知識との相違から生じる。
コンフリクトの度合いに基づいて動的に調整の重みを推定する,AdaCADと呼ばれる細粒度なインスタンスレベルのアプローチを提案する。
ADACADは静的コントラストベースラインよりも平均QA精度14.21%(絶対)のデコードベースラインを一貫して上回り、要約の事実性を6.19倍(AlignScore)向上させることを示す。
論文 参考訳(メタデータ) (2024-09-11T16:35:18Z) - How Can We Know When Language Models Know? On the Calibration of
Language Models for Question Answering [80.82194311274694]
言語モデルがいつ、自信を持って、特定のクエリに対する答えを知っているか、どのように知ることができるか?
我々は,T5,BART,GPT-2の3つの強力な生成モデルを検討した。
次に、そのようなモデルの校正方法を検討し、その信頼性スコアを正しさの確率と相関させる。
論文 参考訳(メタデータ) (2020-12-02T03:53:13Z) - TACRED Revisited: A Thorough Evaluation of the TACRED Relation
Extraction Task [80.38130122127882]
TACREDはリレーショナル抽出(RE)において最も大きく、最も広く使われているクラウドソースデータセットの1つである
パフォーマンスの天井に到達したのか、改善の余地はあるのか?
ラベルエラーは絶対F1テストエラーの8%を占めており、例の50%以上を可逆化する必要がある。
論文 参考訳(メタデータ) (2020-04-30T15:07:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。