論文の概要: Benchmarking Large Language Models for Safety Data Extraction
- arxiv url: http://arxiv.org/abs/2606.11204v1
- Date: Wed, 22 Apr 2026 12:12:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-15 07:09:36.831143
- Title: Benchmarking Large Language Models for Safety Data Extraction
- Title(参考訳): 安全データ抽出のための大規模言語モデルのベンチマーク
- Authors: Jonas Grill, Thomas Bayer, Sören Berlinger,
- Abstract要約: 本研究では、SDSデータの自動抽出のための最先端の大規模言語モデル(LLM)をベンチマークする。
Gemini 1.5 Pro, GPT-4o, Claude 3.7 Sonnet, Llama 3.1-70Bの4つのモデルについて, 3つのプロンプト戦略について検討した。
その結果、テキストベースの抽出は、すべてのメトリクスでマルチモーダル処理を一貫して上回っていることがわかった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Accurate extraction of structured information from Safety Data Sheets (SDS) remains challenging in industrial safety due to heterogeneous document formats and the limitations of traditional rule-based methods. This study benchmarks state-of-the-art Large Language Models (LLMs) for automated SDS data extraction, comparing text-based and multimodal processing pipelines. We systematically evaluate four models: Gemini 1.5 Pro, GPT-4o, Claude 3.7 Sonnet, and Llama 3.1-70B, across three prompting strategies: zero-shot, few-shot, and chain-of-thought. The evaluation framework assessed accuracy, latency, and cost across more than 50,000 extracted data fields. Results show that text-based extraction consistently outperforms multimodal processing across all metrics. Gemini 1.5 Pro combined with a Chain-of-Thought prompt achieved the highest accuracy (84%), outperforming GPT-4o (81%) and Claude 3.7 Sonnet (79%). However, no model surpassed the 90% accuracy threshold commonly required for reliable real-world deployment. These findings indicate that general-purpose LLMs are not yet robust enough for unsupervised industrial use, though performance suggests strong potential with task-specific fine-tuning. Future research should focus on domain-adapted training, model calibration, and the integration of Human-in-the-Loop verification to ensure safety-critical reliability.
- Abstract(参考訳): 安全データシート(SDS)からの構造化情報の正確な抽出は、異質な文書フォーマットと従来のルールベースの手法の制限により、産業安全において依然として困難である。
本研究では、テキストベースとマルチモーダル処理パイプラインを比較し、SDSデータの自動抽出のための最先端の大規模言語モデル(LLM)をベンチマークする。
Gemini 1.5 Pro, GPT-4o, Claude 3.7 Sonnet, Llama 3.1-70Bの4つのモデルについて, ゼロショット, 少数ショット, チェーンオブ思想の3つの戦略を体系的に評価した。
評価フレームワークは,5万以上の抽出データフィールドの正確性,レイテンシ,コストを評価した。
その結果、テキストベースの抽出は、すべてのメトリクスでマルチモーダル処理を一貫して上回っていることがわかった。
Gemini 1.5 ProとChain-of-Thoughtの組み合わせは、最高精度(84%)、GPT-4o(81%)、Claude 3.7 Sonnet(79%)を上回った。
しかし、信頼性の高い実世界の展開に必要な90%の精度しきい値を超えるモデルはない。
これらの結果から, 汎用LLMは, 教師なし産業用としてはまだ十分に堅牢ではないが, タスク固有の微調整の可能性が示唆された。
今後の研究は、ドメイン適応トレーニング、モデルキャリブレーション、安全クリティカルな信頼性を確保するためのHuman-in-the-Loop検証の統合に焦点を当てるべきである。
関連論文リスト
- FORGE: Multi-Agent Graduated Exploitation and Detection Engineering [0.0]
本稿では,3つのサイロを橋渡しするマルチエージェントシステムFOGEについて述べる。
5つの特殊なエージェントが固定パイプラインで実行し、CVEメタデータからターゲットとする脆弱なアプリケーションを生成する。
階層化された知識アーキテクチャは、アセスメント、ビルド、エクスプロイトの経験をその後のCVEに転送するインテリジェンスを蓄積する。
論文 参考訳(メタデータ) (2026-06-02T10:32:28Z) - When Correct Isn't Usable: Improving Structured Output Reliability in Small Language Models [2.064923532131528]
デプロイされた言語モデルは、正しいものとフォーマットに準拠した出力を生成する必要がある。
本稿では,GSM8KとMATHという2つの数学的ベンチマークを用いて,この構造化出力信頼性ギャップについて検討する。
対象モデルへのブラックボックスAPIアクセスのみを必要とする反復的なシステムプロンプトであるAloLabを開発した。
論文 参考訳(メタデータ) (2026-05-04T09:07:44Z) - SecGoal: A Benchmark for Security Goal Extraction and Formalization from Protocol Documents [3.363429643522915]
SecGoalは15の広くデプロイされたプロトコルドキュメントをカバーする最初のエキスパートアノテーション付きベンチマークである。
我々は、タスクをコンテキスト対応のゴール抽出に分解するAI支援フレームワークであるSecGoalとAIFGを紹介する。
論文 参考訳(メタデータ) (2026-04-30T08:50:03Z) - Claw-Eval: Toward Trustworthy Evaluation of Autonomous Agents [66.97968363332465]
エージェントベンチマークの3つのギャップに対処するエンドツーエンド評価スイートであるClaw-Evalを紹介した。
Claw-Evalは3つのグループにまたがる9つのカテゴリにまたがる300の人間検証タスクで構成されている。
すべてのエージェントアクションは、3つの独立したエビデンスチャネルを通じて記録される。
論文 参考訳(メタデータ) (2026-04-07T17:43:18Z) - Benchmarking LLAMA Model Security Against OWASP Top 10 For LLM Applications [0.0]
本研究は,LLMアプリケーションフレームワークのトップ10に対して,さまざまなLlamaモデルの変種をベンチマークする。
5つの標準Llamaモデルと5つのLlama Guardを10の脆弱性カテゴリをカバーする100の逆プロンプトでテストした。
コンパクトなLlama-Guard-3-1Bモデルは、最小レイテンシで76%の最高検出率を達成した。
モデルサイズとセキュリティの有効性の逆関係を観察し、より小型の特殊なモデルがセキュリティタスクにおいてより大きな汎用モデルよりも優れていることを示唆する。
論文 参考訳(メタデータ) (2026-01-27T18:20:14Z) - DUAL-Bench: Measuring Over-Refusal and Robustness in Vision-Language Models [59.45605332033458]
安全メカニズムはバックファイアし、過剰な拒絶を引き起こし、モデルが過度に注意を払って良質な要求を減らします。
既存のベンチマークは、視覚的モダリティの過剰な拒絶に体系的に対処していない。
この設定は、命令が無害であるが付随する画像には有害な内容が含まれているというような、ユニークな課題をもたらす。
論文 参考訳(メタデータ) (2025-10-12T23:21:34Z) - Reliable Decision Support with LLMs: A Framework for Evaluating Consistency in Binary Text Classification Applications [0.7124971549479361]
本研究では,大言語モデル(LLM)のバイナリテキスト分類における一貫性を評価するフレームワークを提案する。
我々は,サンプルサイズ要件を定め,不適切な応答の指標を開発し,レータ内およびレータ間信頼性を評価する。
論文 参考訳(メタデータ) (2025-05-20T21:12:58Z) - Benchmarking Reasoning Robustness in Large Language Models [76.79744000300363]
新規データや不完全データでは,性能が著しく低下することがわかった。
これらの結果は、厳密な論理的推論に対するリコールへの依存を浮き彫りにした。
本稿では,情報不足によって引き起こされる幻覚を利用して推論ギャップを明らかにする,Math-RoBと呼ばれる新しいベンチマークを提案する。
論文 参考訳(メタデータ) (2025-03-06T15:36:06Z) - How Easy is It to Fool Your Multimodal LLMs? An Empirical Analysis on Deceptive Prompts [54.07541591018305]
提案するMAD-Benchは,既存のオブジェクト,オブジェクト数,空間関係などの5つのカテゴリに分割した1000の試験サンプルを含むベンチマークである。
我々は,GPT-4v,Reka,Gemini-Proから,LLaVA-NeXTやMiniCPM-Llama3といったオープンソースモデルに至るまで,一般的なMLLMを包括的に分析する。
GPT-4oはMAD-Bench上で82.82%の精度を達成するが、実験中の他のモデルの精度は9%から50%である。
論文 参考訳(メタデータ) (2024-02-20T18:31:27Z) - Prompting GPT-3 To Be Reliable [117.23966502293796]
この研究は信頼性を一般化可能性、公平性、校正性、事実性という4つの側面に分解する。
GPT-3はこれらすべての面において,より小型の教師付きモデルよりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-10-17T14:52:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。