論文の概要: TriggerBench: Investigating Prospective Memory for Large Language Models
- arxiv url: http://arxiv.org/abs/2606.23459v1
- Date: Mon, 22 Jun 2026 15:07:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-24 18:55:27.976964
- Title: TriggerBench: Investigating Prospective Memory for Large Language Models
- Title(参考訳): TriggerBench: 大規模言語モデルの予見メモリの調査
- Authors: Tianhua Zhang, Xinjiang Wang, Qianxi Zhang, Qi Chen, Kun Li, Yaoqi Chen, Dingdong Wang, Helen Meng, Yan Lu,
- Abstract要約: 我々は、Prospective memory(PM)のベンチマークであるTriggerBenchを紹介する。
PMは正確なリコールトレードオフと注意欠陥を示している。
PMはRMよりも特に困難で、同じ文脈では100Kのトークンがほぼ飽和し、PMは文脈長のスケールで急激に崩壊する。
- 参考スコア(独自算出の注目度): 61.96701552522981
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While Large Language Models (LLMs) are increasingly deployed in long interactions, existing evaluations focus predominantly on retrospective memory (RM) via explicit queries. Prospective memory (PM), the critical ability to spontaneously recall and act on latent constraints without direct prompts, remains largely unevaluated. We introduce TriggerBench, a comprehensive PM benchmark spanning five dimensions across both daily assistants and professional workflows. TriggerBench pairs scenarios with matched RM controls, contrastive positive/negative variants, and overloaded triggers, enabling fine-grained measurement of proactive recall, false-alarm rate, and attentional robustness under a single protocol. Our evaluation yields three key findings. (i) PM shows a precision-recall trade-off and attentional fragility. Though enhanced reasoning significantly improves proactive recall, models may overfit to an "always-remind" heuristic. Furthermore, PM accuracy degrades substantially under implicit constraints or triggers overloaded by concurrent user requests, indicating that robust PM remains an open challenge. (ii) PM is notably harder than RM: on identical contexts, RM near-saturates up to 100K tokens, while PM decays sharply as context length scales. (iii) PM may serve as a behavioral probe of spare reasoning capacity. Pairing PM scenarios with AIME-2025 math problems reveals that successful trajectories yield higher PM accuracy than failed ones at the same context length, showing PM tracks spare reasoning budget that token count obscures. Project page: https://github.com/KristenZHANG/TriggerBench-Official.
- Abstract(参考訳): 大きな言語モデル(LLM)は、長いインタラクションにますますデプロイされているが、既存の評価は主に明示的なクエリによるレトロスペクティブメモリ(RM)に焦点を当てている。
直接的プロンプトなしで自発的にリコールし、潜伏した制約に作用する能力である前向き記憶(PM)は、大半が未評価のままである。
TriggerBenchは、日々のアシスタントとプロのワークフローの両方にわたって5次元にまたがる包括的なPMベンチマークです。
TriggerBenchは、一致したRM制御、対照的な正・負の変種、過剰なトリガーと組み合わせ、単一のプロトコル下でのプロアクティブリコール、偽アラームレート、注意力のきめ細かい測定を可能にする。
私たちの評価は3つの重要な結果をもたらす。
(i)PMは、正確なリコールトレードオフと注意欠陥を示す。
強化された推論は積極的リコールを大幅に改善するが、モデルは「常に抑制された」ヒューリスティックに過度に適合する可能性がある。
さらに、PMの精度は暗黙の制約や同時ユーザ要求による過負荷の下で著しく低下し、堅牢なPMは依然としてオープンな課題であることを示している。
(ii)PMはRMよりも特に難しい:同じ文脈では、RMは100Kのトークンをほぼ飽和し、PMは文脈長のスケールで急激に崩壊する。
三 PMは、余剰推論能力の行動プローブとして機能することができる。
AIME-2025数学問題によるPMシナリオのペアリングは、成功軌道が同じ文脈で失敗した場合よりも高いPM精度が得られることを示している。
プロジェクトページ: https://github.com/KristenZHANG/TriggerBench-Official.com
関連論文リスト
- LLMs Know When They Know, but Do Not Act on It: A Metacognitive Harness for Test-time Scaling [26.999207995495354]
我々は,大規模言語モデル (LLM) が有効なテスト時間制御に変換できる潜在メタ認知能力を持っているかどうかを問う。
認知心理学からネルソン=ナレンズ理論に触発された我々は、モニタリングと推論を分離するメタ認知的ハーネスを提案する。
論文 参考訳(メタデータ) (2026-05-13T23:09:25Z) - Reasoning Theater: Disentangling Model Beliefs from Chain-of-Thought [11.955186033088351]
推論モデルにおける行動連鎖(CoT)の証拠を提供する。
アクティベーションプロービング、早期強制応答、および2つの大きなモデルにわたるCoTモニターを比較した。
難解なマルチホップGPQA-ダイアモンド問題における真の推論とは対照的である。
論文 参考訳(メタデータ) (2026-03-05T18:55:16Z) - CORE: Context-Robust Remasking for Diffusion Language Models [51.59514489363897]
我々は、推論時リビジョンのためのトレーニング不要フレームワークであるContext-Robust Remasking (CORE)を提案する。
静的トークンの確率を信頼するのではなく、COREは、ターゲットとなるマスク付きコンテキストの摂動に対する感受性を示すことによって、コンテキスト不安定なトークンを識別する。
LLaDA-8B-Baseでは、COREは推論とコードベンチマークの間で一貫した改善を行い、計算に適合したベースラインを上回り、MBPPを最大9.2%改善した。
論文 参考訳(メタデータ) (2026-02-04T00:12:30Z) - The 'Sure' Trap: Multi-Scale Poisoning Analysis of Stealthy Compliance-Only Backdoors in Fine-Tuned Large Language Models [10.377264470934843]
大きな言語モデルに対するバックドア攻撃は、通常、暗黙の悪意のある出力に秘密のトリガーを伴います。
我々はコンプライアンスのみのバックドアを導入し、ほぼ良質なデータセットで教師付き微調整を行い、プロンプトの小さなサブセットを任意の単一ワードトリガでサフィックスする。
本研究は, 毒性予算, 総微調整データセットサイズ, モデルサイズにまたがる, この良性ラベル中毒行動のマルチスケール解析を行った。
論文 参考訳(メタデータ) (2025-11-16T02:01:58Z) - Do LLMs Know They Are Being Tested? Evaluation Awareness and Incentive-Sensitive Failures in GPT-OSS-20B [1.948261185683419]
本研究では,「評価香り」がコンメンシュレート能力を得ることなく測定性能を膨らませるかどうかを考察する。
6つのペアのA/Bシナリオを実行し、タスク内容を保持し、フレーミングの異なる状態でデコードします。
再現可能なA/Bフレームワーク(バンキング、バリデータ、ラン毎のスコア、スクリプト)と実践的なガイダンスを提供する。
論文 参考訳(メタデータ) (2025-10-08T09:49:05Z) - SEAL: Steerable Reasoning Calibration of Large Language Models for Free [58.931194824519935]
大規模言語モデル(LLM)は、拡張チェーン・オブ・ソート(CoT)推論機構を通じて複雑な推論タスクに魅力的な機能を示した。
最近の研究では、CoT推論トレースにかなりの冗長性が示されており、これはモデル性能に悪影響を及ぼす。
我々は,CoTプロセスをシームレスに校正し,高い効率性を示しながら精度を向上する,トレーニング不要なアプローチであるSEALを紹介した。
論文 参考訳(メタデータ) (2025-04-07T02:42:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。