論文の概要: MASCOT-Android: A Curated Dataset and Automated Collection Pipeline for Android Malware Source Code Specimens
- arxiv url: http://arxiv.org/abs/2606.16072v2
- Date: Tue, 16 Jun 2026 15:25:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-17 15:01:46.818134
- Title: MASCOT-Android: A Curated Dataset and Automated Collection Pipeline for Android Malware Source Code Specimens
- Title(参考訳): MASCOT-Android: AndroidのMalwareソースコードサンプルのための、キュレートされたデータセットと自動コレクションパイプライン
- Authors: Bojing Li, Duo Zhong, Prajna Bhandary, Raguvir S, Charles Maxa, Robert J Joyce, Charles Nicholas,
- Abstract要約: MASCOT-Androidは、Androidのマルウェアソースコードのキュレートされたデータセットであり、GitHub上でスケーラブルなマルウェアソースコードを見つけるための自動収集フレームワークである。
本モデルでは,8,772のマルウェアと25,747の良質な文書から文字レベルのTF-IDF機能を抽出し,マルウェアリポジトリを識別するためにLinearSVCを訓練する。
- 参考スコア(独自算出の注目度): 2.365610178729227
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Compared with binaries and decompiled code, malware source code more directly reflects the attackers' original intent. However, the scarcity of source code and the high cost of manual review make such datasets difficult to build and maintain. We propose MASCOT-Android, a curated dataset of Android malware source code and an automated collection framework for scalable malware source code discovery on GitHub. A key finding of our work is that repository-level documentation alone provides a strong signal for malware source code collection. Our model extracts character-level TF-IDF features from 8,772 malware and 25,747 benign README documents and trains a LinearSVC classifier to distinguish malware repositories. This README-only model achieves an accuracy of 96.28\% and an FPR of 1.06\% in local evaluation. In addition, the model outputs confidence scores, allowing users to adjust the decision threshold to balance FPR and coverage, which is practical in real-world malware source code collection.
- Abstract(参考訳): バイナリや逆コンパイルされたコードと比較すると、マルウェアのソースコードは攻撃者の意図を直接反映している。
しかし、ソースコードの不足と手作業によるレビューのコストが高いため、そのようなデータセットの構築とメンテナンスは困難である。
我々は,Android マルウェアソースコードのキュレートされたデータセット MASCOT-Android と,GitHub 上でスケーラブルなマルウェアソースコード発見のための自動収集フレームワークを提案する。
私たちの研究の重要な発見は、リポジトリレベルのドキュメンテーションだけで、マルウェアのソースコード収集に強力なシグナルを与えていることです。
本モデルでは,8,772のマルウェアと25,747のREADME文書から文字レベルTF-IDFの特徴を抽出し,LinearSVC分類器を訓練してマルウェアリポジトリを識別する。
このREADMEのみのモデルは96.28\%の精度とFPR1.06\%の局所評価を達成する。
さらに、信頼性スコアを出力し、ユーザはFPRとカバレッジのバランスを取るために決定しきい値を調整することができる。
関連論文リスト
- Correct Code, Vulnerable Dependencies: A Large Scale Measurement Study of LLM-Specified Library Versions [52.50730821321986]
大規模言語モデル(LLM)におけるバージョンレベルのリスクの大規模評価を初めて行った。
我々は1000のStack OverflowプログラミングタスクのベンチマークであるPinTrace上で10のLLMを評価した。
LLM バージョン選択は LLM ベース開発における第1級, 以前は見落とされたリスクサーフェスとして確認された。
論文 参考訳(メタデータ) (2026-05-07T13:52:59Z) - Self-Supervised Learning for Android Malware Detection on a Time-Stamped Dataset [0.8739101659113154]
我々は、良質で悪意のあるAndroidアプリのタイムスタンプデータセットを構築し、時間的正確性を保証するためのタイムスタンプ検証手順を導入しました。
次に,自己教師付き事前学習を用いて難読化耐性表現を学習する検出フレームワークを提案する。
タイムアウェア評価では、98%の精度と89%のF1を達成する。
論文 参考訳(メタデータ) (2026-04-24T21:24:48Z) - MalCVE: Malware Detection and CVE Association Using Large Language Models [3.6704226968275253]
MalはCVEとバイナリマルウェアを関連付ける最初のツールで、recall@10の65%を達成した。
また、CVEとバイナリマルウェアを関連付ける最初のツールでもある。
論文 参考訳(メタデータ) (2025-10-17T11:55:46Z) - D-LiFT: Improving LLM-based Decompiler Backend via Code Quality-driven Fine-tuning [49.16469288280772]
逆コンパイラは、バイナリから可読なソースコードを再構築する。
近年の進歩にもかかわらず、そのアウトプットは構文上の誤りや意味的な誤りに悩まされ、読みにくいままである。
大規模言語モデル (LLMs) の出現により、研究者は逆コンパイラ出力を洗練するためのLLMの可能性を探り始めた。
D-LIFTは、微調整強化学習を施した拡張逆コンパイラLLMパイプラインである。
論文 参考訳(メタデータ) (2025-06-11T19:09:08Z) - Malware Detection based on API calls [0.48866322421122627]
我々は、マルウェアの脅威を検出し緩和するための軽量でオーダー不変なアプローチを探究する。
我々は、良心または悪意のある活動を示すラベルを付した、300万以上のサンプルの公開データセットを公開します。
ランダムな森林のような機械学習アルゴリズムを活用し、API呼び出しシーケンスのパターンや異常を調べて行動分析を行う。
論文 参考訳(メタデータ) (2025-02-18T13:51:56Z) - Multi-label Classification for Android Malware Based on Active Learning [7.599125552187342]
本稿ではMLCDroidを提案する。MLCDroidは、事前に定義された悪意のある動作の存在を直接示すことができるマルチラベル分類手法である。
我々は,70のアルゴリズム組み合わせの結果を比較し,有効性(73.3%)を評価する。
これは、きめ細かい悪意のある振る舞いについて、より詳細な情報を提供することを目的とした、最初のマルチラベルAndroidマルウェア分類アプローチである。
論文 参考訳(メタデータ) (2024-10-09T01:09:24Z) - DRSM: De-Randomized Smoothing on Malware Classifier Providing Certified
Robustness [58.23214712926585]
我々は,マルウェア検出領域の非ランダム化スムース化技術を再設計し,DRSM(De-Randomized Smoothed MalConv)を開発した。
具体的には,実行可能ファイルの局所構造を最大に保ちながら,逆数バイトの影響を確実に抑制するウィンドウアブレーション方式を提案する。
私たちは、マルウェア実行ファイルの静的検出という領域で、認証された堅牢性を提供する最初の人です。
論文 参考訳(メタデータ) (2023-03-20T17:25:22Z) - Flexible Android Malware Detection Model based on Generative Adversarial
Networks with Code Tensor [7.417407987122394]
既存のマルウェア検出方法は、既存の悪意のあるサンプルのみを対象としている。
本稿では,マルウェアとその変異を効率的に検出する新しい手法を提案する。
論文 参考訳(メタデータ) (2022-10-25T03:20:34Z) - Being Single Has Benefits. Instance Poisoning to Deceive Malware
Classifiers [47.828297621738265]
攻撃者は、マルウェア分類器を訓練するために使用されるデータセットをターゲットとした、高度で効率的な中毒攻撃を、どのように起動できるかを示す。
マルウェア検出領域における他の中毒攻撃とは対照的に、我々の攻撃はマルウェアファミリーではなく、移植されたトリガーを含む特定のマルウェアインスタンスに焦点を当てている。
我々は、この新たに発見された深刻な脅威に対する将来の高度な防御に役立つ包括的検出手法を提案する。
論文 参考訳(メタデータ) (2020-10-30T15:27:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。