Fugu-MT 論文翻訳(概要): PreAct-Bench: Benchmarking Predictive Monitoring in LLMs

論文の概要: PreAct-Bench: Benchmarking Predictive Monitoring in LLMs

arxiv url: http://arxiv.org/abs/2606.09890v1
Date: Wed, 03 Jun 2026 13:26:41 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-10 15:40:58.013361
Title: PreAct-Bench: Benchmarking Predictive Monitoring in LLMs
Title（参考訳）: PreAct-Bench: LLMのベンチマーク予測監視
Authors: Hainiu Xu, Italo Luis da Silva, Jiangnan Ye, Yuhao Wang, Wei Liu, Linyi Yang, Jonathan Richard Schwarz, Nicola Paoletti, Yulan He, Hanqi Yan,
Abstract要約: 我々は,予測モニタリング(Predictive Monitoring)と呼ばれる,重要かつ見落とされがちな安全タスクについて検討する。モデルは、オーバートアクションが実行される前に非倫理的なアクションで終わるかどうかを推測できますか? PreActBenchは、5つのドメインにまたがる倫理的および非倫理的行動軌跡の1000のベンチマークである。結果は、人間が有望なパフォーマンスを達成する一方で、強力なモデルであっても予測的なモニタリングは困難であることを示している。
参考スコア（独自算出の注目度）: 36.98978443442419
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Large language models (LLMs) are increasingly deployed as autonomous agents capable of executing multi-step action trajectories toward a given objective. While existing safety research has focused on detecting unethical behavior from complete trajectories, this paradigm is fundamentally retrospective: it identifies harm only after it has already occurred. In this work, we study a critical yet overlooked safety task, which we term Predictive Monitoring: given only a partial action trajectory, can a model infer whether it will culminate in an unethical action before the overt action is executed? To support this task, we present PreActBench, a benchmark of 1,000 paired ethical and unethical action trajectories spanning five domains. We evaluate a range of LLMs, safety guardrail models, and latent probing methods across varying fractions of the action trajectory using our Prefix Foresight F1 metric. Results show that while humans achieve promising performance, predictive monitoring remains challenging even for strong models, highlighting the need for future-oriented risk reasoning in LLM safety.
Abstract（参考訳）: 大規模言語モデル(LLM)は、特定の目的に向けて多段階のアクショントラジェクトリを実行することができる自律エージェントとして、ますます多くデプロイされている。既存の安全研究は、完全な軌道から非倫理的行動を検出することに重点を置いているが、このパラダイムは基本的には振り返りである。本研究では、予測監視(Predictive Monitoring):部分的な行動軌跡のみを考慮すれば、モデルがオーバートアクションの実行前に非倫理的な行動に終止符を打つかどうかを推測できるか。このタスクをサポートするために、5つのドメインにまたがる1000の倫理的および非倫理的行動軌跡のベンチマークであるPreActBenchを紹介する。我々は, プレフィックスフォアシットF1測定値を用いて, 動作軌跡の様々な分節にわたるLLM, 安全ガードレールモデル, 潜時探傷手法について検討した。結果は、人間が有望なパフォーマンスを達成する一方で、強力なモデルであっても予測監視は困難であり、LLMの安全性における将来的なリスク推論の必要性を強調している。

論文の概要: PreAct-Bench: Benchmarking Predictive Monitoring in LLMs

関連論文リスト