論文の概要: PreAct-Bench: Benchmarking Predictive Monitoring in LLMs
- arxiv url: http://arxiv.org/abs/2606.09890v1
- Date: Wed, 03 Jun 2026 13:26:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-10 15:40:58.013361
- Title: PreAct-Bench: Benchmarking Predictive Monitoring in LLMs
- Title(参考訳): PreAct-Bench: LLMのベンチマーク予測監視
- Authors: Hainiu Xu, Italo Luis da Silva, Jiangnan Ye, Yuhao Wang, Wei Liu, Linyi Yang, Jonathan Richard Schwarz, Nicola Paoletti, Yulan He, Hanqi Yan,
- Abstract要約: 我々は,予測モニタリング(Predictive Monitoring)と呼ばれる,重要かつ見落とされがちな安全タスクについて検討する。
モデルは、オーバートアクションが実行される前に非倫理的なアクションで終わるかどうかを推測できますか?
PreActBenchは、5つのドメインにまたがる倫理的および非倫理的行動軌跡の1000のベンチマークである。
結果は、人間が有望なパフォーマンスを達成する一方で、強力なモデルであっても予測的なモニタリングは困難であることを示している。
- 参考スコア(独自算出の注目度): 36.98978443442419
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Large language models (LLMs) are increasingly deployed as autonomous agents capable of executing multi-step action trajectories toward a given objective. While existing safety research has focused on detecting unethical behavior from complete trajectories, this paradigm is fundamentally retrospective: it identifies harm only after it has already occurred. In this work, we study a critical yet overlooked safety task, which we term Predictive Monitoring: given only a partial action trajectory, can a model infer whether it will culminate in an unethical action before the overt action is executed? To support this task, we present PreActBench, a benchmark of 1,000 paired ethical and unethical action trajectories spanning five domains. We evaluate a range of LLMs, safety guardrail models, and latent probing methods across varying fractions of the action trajectory using our Prefix Foresight F1 metric. Results show that while humans achieve promising performance, predictive monitoring remains challenging even for strong models, highlighting the need for future-oriented risk reasoning in LLM safety.
- Abstract(参考訳): 大規模言語モデル(LLM)は、特定の目的に向けて多段階のアクショントラジェクトリを実行することができる自律エージェントとして、ますます多くデプロイされている。
既存の安全研究は、完全な軌道から非倫理的行動を検出することに重点を置いているが、このパラダイムは基本的には振り返りである。
本研究では、予測監視(Predictive Monitoring):部分的な行動軌跡のみを考慮すれば、モデルがオーバートアクションの実行前に非倫理的な行動に終止符を打つかどうかを推測できるか。
このタスクをサポートするために、5つのドメインにまたがる1000の倫理的および非倫理的行動軌跡のベンチマークであるPreActBenchを紹介する。
我々は, プレフィックスフォアシットF1測定値を用いて, 動作軌跡の様々な分節にわたるLLM, 安全ガードレールモデル, 潜時探傷手法について検討した。
結果は、人間が有望なパフォーマンスを達成する一方で、強力なモデルであっても予測監視は困難であり、LLMの安全性における将来的なリスク推論の必要性を強調している。
関連論文リスト
- Monitoring the Internal Monologue: Probe Trajectories Reveal Reasoning Dynamics [42.27928681606673]
大規模推論モデル (LRM) は, 思考の連鎖 (CoT) 推論を通じて, 安全監視のための新たな機会を導入する。
本研究では,LRMの隠れ表現について検討し,今後の挙動をプロンプトおよびCoT表現から予測できるかどうかを検証した。
将来のモデル行動は, 単一の静的予測より, 完全な軌道上での検証において, より区別し易いことが判明した。
論文 参考訳(メタデータ) (2026-05-18T15:29:04Z) - Seeing Farther and Smarter: Value-Guided Multi-Path Reflection for VLM Policy Optimization [41.15414881730464]
VLM(Vision-Language Models)は、この目標に対して、一般的なパーセプティブ・レアソン・アクティベート・フレームワークを提供する。
従来のアプローチは、ノイズの多い予見予測から状態値の非効率で、しばしば不正確な暗黙の学習に依存していた。
動作生成から状態評価を分離する新しいテスト時間計算フレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-22T22:53:16Z) - ManagerBench: Evaluating the Safety-Pragmatism Trade-off in Autonomous LLMs [48.50397204177239]
大きな言語モデル(LLM)が進化するにつれて、その行動の安全性を評価することが重要になる。
現実的な人為的な管理シナリオにおけるLCM意思決定を評価するベンチマークである ManagerBench を紹介する。
潜在的な害が無生物にのみ向けられる並列制御セットは、モデルのプラグマティズムを測定し、過度に安全である傾向を特定する。
論文 参考訳(メタデータ) (2025-10-01T13:08:33Z) - Saffron-1: Safety Inference Scaling [69.61130284742353]
SAFFRONは、安全保証のために明示的に調整された、新しい推論スケーリングパラダイムである。
我々のアプローチの中心は、要求される報酬モデルの評価を著しく削減する乗算報酬モデル(MRM)の導入である。
トレーニング済みの多機能報酬モデル(Saffron-1)とそれに伴うトークンレベルの安全報酬データセット(Safety4M)を公開します。
論文 参考訳(メタデータ) (2025-06-06T18:05:45Z) - Adversarial Alignment for LLMs Requires Simpler, Reproducible, and More Measurable Objectives [52.863024096759816]
相反する研究目的は、過去10年間に敵対的堅牢性研究の進展を妨げてきた。
我々は、対立するアライメントの有意義な進展には、リアライメントの目的が必要であると論じる。
論文 参考訳(メタデータ) (2025-02-17T15:28:40Z) - Deception in LLMs: Self-Preservation and Autonomous Goals in Large Language Models [0.0]
大規模言語モデルの最近の進歩には、計画と推論能力が組み込まれている。
これにより、数学的および論理的タスクにおける誤りを低減し、精度を向上した。
本研究では,OpenAIのo1に似た推論トークンを出力するモデルであるDeepSeek R1について検討した。
論文 参考訳(メタデータ) (2025-01-27T21:26:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。