論文の概要: Evaluating Open-Source LLMs for Multi-Label ATT&CK Technique Classification on CTI Reports
- arxiv url: http://arxiv.org/abs/2606.18166v1
- Date: Tue, 16 Jun 2026 17:04:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-17 17:15:32.561633
- Title: Evaluating Open-Source LLMs for Multi-Label ATT&CK Technique Classification on CTI Reports
- Title(参考訳): CTIレポートに基づくマルチラベルATT&CK技術分類のためのオープンソースLCMの評価
- Authors: Ahmed Ryan, Saad Sakib Noor, Md Erfan, Shaswata Mitra, Sudip Mittal, Md Rayhanur Rahman,
- Abstract要約: 敵戦術、技術、共通知識(ATT&CK)を用いたサイバー脅威インテリジェンス(CTI)の分類は、積極的な防御には不可欠であるが、歴史的には広範囲な人的努力を必要としている。
LLM(Pre-Large Language Model)の自動化は、このプロセスを加速させたが、構造化されていないCTIレポートに見られる複雑な言語と多段階の攻撃パターンを解決できなかった。
LLMは、文脈推論を用いて非構造化テキストを理解することで、以前の制限に対処した。
現在の評価は、実世界のCTIレポートの複雑さを無視する単純化された単一技術文に依存しており、その結果は膨らんだ結果をもたらすことが多い。
- 参考スコア(独自算出の注目度): 3.7098231493739764
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Classifying Cyber Threat Intelligence (CTI) using MITRE Adversarial Tactics, Techniques, and Common Knowledge (ATT&CK) is essential for proactive defense, but historically required extensive human effort. Pre-Large Language Model (LLM) automation sped up this process, but could not resolve the complex language and multi-step attack patterns found in unstructured CTI reports. LLMs addressed previous limitations by using contextual reasoning to understand unstructured text. However, current evaluations rely on simplified, single-technique sentences that ignore the complexity of real-world CTI reports, which often leads to inflated performance results. Consequently, the baseline performance of open-source LLMs on complex unstructured CTI reports remains unevaluated. To address this gap, we constructed a ground-truth dataset of 2,076 human-annotated sentences (1,281 technique-positive, 795 negative) from 83 complex unstructured CTI reports. These sentences were mapped to 114 unique ATT&CK techniques using a six-phase annotation process, achieving \k{appa} = 0.68 inter-annotator agreement. Using this dataset, we evaluated seven open-source LLMs ranging from 8B to 236B parameters across prompt strategy and temperature configurations. The highest-performing LLM achieved a micro-averaged F1 score of 0.22, establishing the empirical baseline for multi-label ATT&CK classification on complex unstructured CTI. Parameter size showed a statistically significant positive correlation with F1 score. Prompt strategy and temperature produced no statistically significant gains across model configurations. These results indicate that current open-source LLMs are insufficient for production-grade ATT&CK classification. The dataset, benchmark, and findings provide a reproducible foundation for future CTI research.
- Abstract(参考訳): MITRE Adversarial Tactics, Techniques, and Common Knowledge (ATT&CK) を用いたサイバー脅威インテリジェンス(CTI)の分類は、積極的な防御には不可欠であるが、歴史的には大規模な人的努力を必要としている。
LLM(Pre-Large Language Model)の自動化は、このプロセスを加速させたが、構造化されていないCTIレポートに見られる複雑な言語と多段階の攻撃パターンを解決できなかった。
LLMは、文脈推論を用いて非構造化テキストを理解することで、以前の制限に対処した。
しかし、現在の評価は、実世界のCTIレポートの複雑さを無視する単純化された単一技術文に依存しており、その結果は膨らませられることが多い。
その結果、複雑な構造化されていないCTIレポートに対するオープンソースのLCMのベースライン性能は未評価のままである。
このギャップに対処するため,83の複雑非構造化CTIレポートから,2,076の人文(1,281のテクニック陽性,795の否定)の基幹構造データセットを構築した。
これらの文は、6相アノテーションプロセスを用いて114種類のATT&CK技術にマッピングされ、c{appa} = 0.68のアノテーション間合意が得られた。
このデータセットを用いて,8Bパラメータから236Bパラメータまでの7つのオープンソースLCMを,迅速な戦略と温度設定で評価した。
最高性能のLLMはF1スコア0.22を達成し、複雑な非構造CTI上でのマルチラベルATT&CK分類の実証的ベースラインを確立した。
パラメータサイズはF1スコアと統計的に有意な正の相関を示した。
プロンプト戦略と温度は、モデル構成全体で統計的に有意な利得は得られなかった。
これらの結果から,現在のオープンソース LLM は生産レベルのATT&CK 分類に不十分であることが示唆された。
データセット、ベンチマーク、発見は、将来のCTI研究の再現可能な基盤を提供する。
関連論文リスト
- VLA-ATTC: Adaptive Test-Time Compute for VLA Models with Relative Action Critic Model [54.35791816657227]
適応型テスト時間計算でVLAモデルを実現するフレームワークである textbfVLA-ATTC' を導入する。
VLA-ATTCは、不確実性に基づく認知クラッチ'を用いて、反射的実行からTTC熟考フェーズへ動的に移行する。
LIBERO-LONGベンチマークでは、VLA-ATTCはSOTAモデルPI0.5の故障率を50%以上削減する。
論文 参考訳(メタデータ) (2026-05-02T02:13:11Z) - From Retrieval to Reasoning: A Framework for Cyber Threat Intelligence NER with Explicit and Adaptive Instructions [15.710492251334792]
TTPromptは暗黙のインジェクションから明示的なインストラクションへとシフトするフレームワークである。
FIRは、最小ラベル付きデータのエラーから学習することで、LLMがガイドラインを自己定義することを可能にする。
トレーニングデータの1%しか改善されていないTTPromptは、データセット全体を微調整したモデルに対抗している。
論文 参考訳(メタデータ) (2025-12-22T14:13:01Z) - Large Language Models as Universal Predictors? An Empirical Study on Small Tabular Datasets [0.0]
大規模言語モデル(LLM)は、下流タスクを明示的に微調整することなく、構造化された入力に対して予測タスクを実行することができる。
分類,回帰,クラスタリングタスクのための小規模構造化データセット上でのLCMの実証関数近似能力について検討した。
以上の結果から,LLMは構造化データの汎用的予測エンジンとして機能する可能性が示唆された。
論文 参考訳(メタデータ) (2025-08-24T15:00:51Z) - SynthCTI: LLM-Driven Synthetic CTI Generation to enhance MITRE Technique Mapping [1.2534672170380357]
我々は,表現不足のMITRE ATT&CK技術に対して,高品質な合成CTI文を生成するためのフレームワークであるSynthCTIを提案する。
本手法では,学習データから意味コンテキストを抽出するためにクラスタリングベースの戦略を用いる。
利用可能な2つのCTIデータセットであるCTI-to-MITREとTRAM上で,異なる容量のLLMを用いてSynthCTIを評価する。
論文 参考訳(メタデータ) (2025-07-21T09:22:39Z) - LRCTI: A Large Language Model-Based Framework for Multi-Step Evidence Retrieval and Reasoning in Cyber Threat Intelligence Credibility Verification [7.608817324043705]
マルチステップCyber Threat Intelligence 信頼性検証のためのフレームワーク LRCTI を提案する。
このフレームワークはまず、複雑なインテリジェンスレポートを簡潔で行動可能な脅威クレームに抽出するために、テキスト要約モジュールを使用する。
次に、適応的な多段階証拠検索機構を使用して、CTI固有のコーパスからの情報を反復的に識別し、洗練する。
CTI-200 と PolitiFact の2つのベンチマークデータセットによる実験では、RCTI は F1-Macro と F1-Micro のスコアを 5% 以上改善し、それぞれ 90.9% と 93.6% に達した。
論文 参考訳(メタデータ) (2025-07-15T13:42:32Z) - Table-r1: Self-supervised and Reinforcement Learning for Program-based Table Reasoning in Small Language Models [52.94091440130039]
表推論(TR)は、半構造化データに対する構造化推論を必要とする。
小型言語モデル(SLM)は、大きなLM(LLM、例えばGPT-4o)と比較して限られた能力を持つ。
実行可能プログラムを生成することで、テキストベースTR(T-TR)の鍵となる制限を回避するプログラムベースTR(P-TR)を提案する。
4つのTRベンチマークの実験により、Table-r1は全てのSLMベースの手法より優れていることが示された。
論文 参考訳(メタデータ) (2025-06-06T14:52:19Z) - Context is Key: A Benchmark for Forecasting with Essential Textual Information [87.3175915185287]
コンテキスト is Key" (CiK) は、数値データを多種多様なテキストコンテキストと組み合わせた予測ベンチマークである。
我々は,統計モデル,時系列基礎モデル,LLMに基づく予測モデルなど,さまざまなアプローチを評価する。
提案手法は,提案するベンチマークにおいて,他の試験手法よりも優れる簡易かつ効果的なLCMプロンプト法である。
論文 参考訳(メタデータ) (2024-10-24T17:56:08Z) - BooookScore: A systematic exploration of book-length summarization in the era of LLMs [53.42917858142565]
我々は,識別されたエラータイプを一切含まない要約文の割合を計測する自動測度BooookScoreを開発した。
GPT-4 や 2 のようなクローズドソース LLM は,オープンソースモデルよりも BooookScore の高いサマリーを生成することがわかった。
論文 参考訳(メタデータ) (2023-10-01T20:46:44Z) - IDIAPers @ Causal News Corpus 2022: Efficient Causal Relation
Identification Through a Prompt-based Few-shot Approach [3.4423596432619754]
我々は、微調整言語モデル(LM)のための単純だが相補的手法のセットを活用することで、因果関係同定(CRI)タスクに対処する。
我々は、CRIタスクをマスキング言語モデリング問題(MLM)として扱う微調整LMのプロンプトベースの予測手法に従う。
本手法の性能を,データセット全体で訓練されたアンサンブル手法と比較する。
論文 参考訳(メタデータ) (2022-09-08T16:03:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。