論文の概要: Safety-Aware Evaluation of LLM-Generated Driver Intervention Messages through Multi-Task Risk Fusion
- arxiv url: http://arxiv.org/abs/2606.22706v1
- Date: Sun, 21 Jun 2026 22:50:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-25 07:24:26.745077
- Title: Safety-Aware Evaluation of LLM-Generated Driver Intervention Messages through Multi-Task Risk Fusion
- Title(参考訳): マルチタスクリスク融合によるLCM生成ドライバ干渉メッセージの安全性評価
- Authors: Keito Inoshita,
- Abstract要約: BLEUやBERTScoreのような汎用メトリクスは、リスク・緊急アライメント、認知負荷、ドライバーの受け入れ可能性など、介入固有の品質次元をキャプチャできない。
本稿では,ハイブリッドアーキテクチャによる5次元評価を行うドメイン固有測度であるドライバ・セーフティ・アウェア・インターベンションスコア(DSAIS)を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing driver intervention systems rely on auditory alerts and fixed templates, failing to leverage multi-task recognition outputs. General-purpose metrics such as BLEU and BERTScore cannot capture intervention-specific quality dimensions including risk-urgency alignment, cognitive load, and driver acceptability. In this paper, we propose the Driver Safety-Aware Intervention Score (DSAIS), a domain-specific metric evaluating five dimensions through a hybrid architecture combining lightweight rule-based computation with LLM Judge evaluation, together with an end-to-end framework integrating four-task recognition outputs into an LLM through risk fusion, state history management, and dynamic prompt construction. Experiments on the AIDE dataset with five models and seven conditions demonstrate that DSAIS achieves ICC 0.798-0.840 across three architecturally distinct judges and Cohen's d > 1.5 across all control conditions. Multi-dimensional sub-score analysis quantifies the contextual adaptability gap between rule-based and LLM-based systems, revealing that multi-task integration improves contextual relevance by 9.1% over rule-based baselines. Ablation experiments demonstrate that each framework component contributes to contextual relevance, with sub-score decomposition revealing gains that aggregate scoring masks. Driver emotion recognition is identified as the most critical upstream factor, and compact local LLMs (7B--9B parameters) achieve quality superior to API-based models, providing practical design guidelines for in-vehicle deployment.
- Abstract(参考訳): 既存のドライバー介入システムは、マルチタスク認識出力の活用に失敗した聴覚警告と固定テンプレートに依存している。
BLEUやBERTScoreのような汎用メトリクスは、リスク・緊急アライメント、認知負荷、ドライバーの受け入れ可能性など、介入固有の品質次元をキャプチャできない。
本稿では, リスク融合, 状態履歴管理, 動的プロンプト構築により, 4タスク認識出力をLLMに統合したエンドツーエンドのフレームワークとともに, LLM判定と軽量ルールベース計算を組み合わせたハイブリッドアーキテクチャにより, 5次元を評価可能なドメイン固有測度であるドライバ・セーフ・アウェア・インターベンションスコア(DSAIS)を提案する。
AIDEデータセットの5つのモデルと7つの条件による実験により、DSAISは3つのアーキテクチャ上の異なる判断に対してCC 0.798-0.840を達成し、Cohenのd > 1.5を全ての制御条件で達成した。
多次元サブスコア分析は、ルールベースとLCMベースのシステム間のコンテキスト適応性ギャップを定量化し、マルチタスク統合がルールベースベースベースラインよりも9.1%のコンテキスト適合性を改善することを示した。
アブレーション実験では、各フレームワークコンポーネントが文脈的関連性に寄与し、サブスコア分解によってスコアマスクを集約するゲインが明らかになる。
ドライバの感情認識は、最も重要な上流因子として認識され、コンパクトなローカルLCM(7B-9Bパラメータ)は、APIベースのモデルよりも優れた品質を実現し、車内デプロイメントのための実用的な設計ガイドラインを提供する。
関連論文リスト
- A Unified Framework for the Evaluation of LLM Agentic Capabilities [36.43241368835721]
LLMエージェント能力の公平な評価のための統一的なフレームワークを提案する。
統合された構成システムによって駆動されるこのフレームワークは、様々なベンチマークを標準化された命令-ツール-環境フォーマットに統合する。
我々は15モデルで400Kロールアウトと5Bトークンに対して大規模な実証分析を行う。
論文 参考訳(メタデータ) (2026-05-27T03:20:45Z) - RPA-Check: A Multi-Stage Automated Framework for Evaluating Dynamic LLM-based Role-Playing Agents [4.07447364754644]
本稿では,LLM ベースの RPA の性能を客観的に評価する多段階自動評価フレームワーク RPA-Check を紹介する。
我々は,この枠組みを,いくつかの定量化ローカルモデルを含む法医学的な訓練のための真剣なゲームであるLLM Courtに適用することで検証する。
論文 参考訳(メタデータ) (2026-04-13T16:08:03Z) - A Generalizable Framework for Building Executable Domain-Specific LLMs under Data Scarcity: Demonstration on Semiconductor TCAD Simulation [20.174394305112198]
低リソース環境下でコンパクトで実行可能なドメイン固有LLMを構築するためのフレームワークを提案する。
半導体コンピュータ支援設計(TCAD)のためのTcadGPTのインスタンス化によるフレームワークの実証
1.5Mの合成QAペアとIR駆動のDPOデータセットを使用して、TcadGPTはSDE実行可能性テストにおいて85.6%のセマンティック精度と80.0%の構文パスレートを達成した。
論文 参考訳(メタデータ) (2026-01-15T07:13:34Z) - DarkPatterns-LLM: A Multi-Layer Benchmark for Detecting Manipulative and Harmful AI Behavior [0.0]
textbfDarkPatterns-LLMは,操作内容の詳細な評価を行うための総合的なベンチマークデータセットと診断フレームワークである。
本フレームワークでは,多階層検出(MGD),多スケールインテント分析(MSIAN),Threat Harmonization Protocol(THP),Deep Contextual Risk Alignment(DCRA)の4層解析パイプラインを実装している。
データセットには、インストラクション-レスポンスペアとエキスパートアノテーションを備えた401の厳密にキュレートされた例が含まれている。
論文 参考訳(メタデータ) (2025-12-27T05:05:46Z) - An Agentic Framework with LLMs for Solving Complex Vehicle Routing Problems [66.60904891478687]
複雑な車両ルーティング問題を解決するために,LLM (AFL) を用いたエージェントフレームワークを提案する。
AFLは生の入力から知識を直接抽出し、自己完結型コード生成を可能にする。
AFLは、コード信頼性とソリューション実現性の両方において、既存のLCMベースのベースラインを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2025-10-19T03:59:25Z) - AutoSCORE: Enhancing Automated Scoring with Multi-Agent Large Language Models via Structured Component Recognition [27.312190686305588]
大規模言語モデル(LLM)は、自動スコアリングにおいて大きな可能性を示している。
エンド・ツー・エンドのレーダとしての使用は、低い正確性、迅速な感度、限定的な解釈可能性、ルーリックなミスアライメントといった課題に直面している。
本稿では,多エージェント LLM フレームワークである AutoSCORE を提案する。
論文 参考訳(メタデータ) (2025-09-26T05:45:14Z) - Graft: Integrating the Domain Knowledge via Efficient Parameter Synergy for MLLMs [56.76586846269894]
MLLM(Multimodal Large Language Models)は、様々な領域で成功している。
その重要性にもかかわらず、ドメイン固有のMLLM間の知識共有の研究はほとんど未調査のままである。
専門家機能のモジュール構成を可能にする統一パラメータ統合フレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-30T15:07:41Z) - OmniEval: An Omnidirectional and Automatic RAG Evaluation Benchmark in Financial Domain [62.89809156574998]
金融分野において全方向自動RAGベンチマークであるOmniEvalを導入する。
我々のベンチマークは多次元評価フレームワークによって特徴づけられる。
実験では、広範囲なテストデータセットを含むOmniEvalの包括性を実証した。
論文 参考訳(メタデータ) (2024-12-17T15:38:42Z) - SeCodePLT: A Unified Platform for Evaluating the Security of Code GenAI [58.29510889419971]
コード生成大型言語モデル(LLM)のセキュリティリスクと能力を評価するための既存のベンチマークは、いくつかの重要な制限に直面している。
手動で検証し、高品質なシード例から始める、汎用的でスケーラブルなベンチマーク構築フレームワークを導入し、ターゲット突然変異を通じて拡張する。
このフレームワークをPython、C/C++、Javaに適用すると、44のCWEベースのリスクカテゴリと3つのセキュリティ機能にまたがる5.9k以上のサンプルデータセットであるSeCodePLTが構築されます。
論文 参考訳(メタデータ) (2024-10-14T21:17:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。