論文の概要: TopVenues: A Reproducible Corpus and Tooling Substrate for Cybersecurity Literature Reviews
- arxiv url: http://arxiv.org/abs/2606.18320v1
- Date: Tue, 16 Jun 2026 13:54:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-18 17:16:50.823683
- Title: TopVenues: A Reproducible Corpus and Tooling Substrate for Cybersecurity Literature Reviews
- Title(参考訳): TopVenues:サイバーセキュリティ文献レビューのための再現可能なコーパスとツールベース
- Authors: Sidnei Barbieri, Ágney Lopes Roth Ferraz, Lourenço Alves Pereira Júnior,
- Abstract要約: 本稿では,コーパス構築をアーティファクトとして実現したオープンソースシステムであるTopVenuesについて述べる。
2017年から2026年までの11のサイバーセキュリティソースから9,925件の論文があり、99.86%の要約と99.99%のBibVenueカバレッジがある。
固定分母は、また測定が可能であり、2024年から2025年の4つの上位セキュリティ会議からの29.2%の論文は、出版の5ヶ月前のarXivプリプリントとして表示され、前者が記録したフィルターは、後に同じ会場に表示される16.5倍の精度でトリアージプリプリントを取得できる。
- 参考スコア(独自算出の注目度): 0.589889361990138
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Cybersecurity literature reviews require a reproducible denominator: the set of papers that a protocol includes before screening and synthesis begin. Today, that denominator is often reconstructed from publisher portals, bibliographic indices, and scholarly application programming interfaces (APIs) whose coverage, formats, and query semantics change over time. This paper presents TopVenues, an open-source system that materializes corpus construction as a versioned research artifact. TopVenues declares a venue and year scope, uses DBLP Computer Science Bibliography (DBLP) as the metadata spine, enriches records with abstracts and BibTeX entries via open scholarly APIs and publisher-specific extractors, and stores the results in a monotonic SQLite snapshot, accessible via a command-line interface (CLI), a web interface, and export paths for review workflows. The May 2026 snapshot contains 9,925 papers from 11 cybersecurity sources over 2017 to 2026, with 99.86% abstract coverage and 99.99% BibTeX coverage; keyword search over the full corpus completes in under 31 ms, and a 250-test suite validates the data-integrity invariants. The fixed denominator also enables repeatable measurement: 29.2% of 2024 to 2025 papers from the four top-ranked security conferences in our scope appear as arXiv preprints, with a median of five months before publication, and a prior-author-track-record filter yields a 16.5x precision gain at 90% recall for triaging preprints that later appear in the same venue set. TopVenues links corpus construction to auditable cybersecurity measurement by making the corpus itself executable, inspectable, and citable. The artifact is available at https://github.com/sidneibarbieri/topVenues.
- Abstract(参考訳): サイバーセキュリティの文献レビューは再現可能な識別器を必要とする: プロトコルに含まれる一連の論文は、スクリーニングと合成が始まる前に含まれる。
今日、その分母は出版社のポータル、書誌のインデックス、学術的なアプリケーション・プログラミング・インタフェース(API)から再構築され、その範囲、形式、クエリ・セマンティクスは時間とともに変化する。
本稿では,コーパス構築をバージョニングされた研究成果物として実現したオープンソースシステムであるTopVenuesについて述べる。
TopVenuesは、場所と年次スコープを宣言し、DBLP Computer Science Bibliography (DBLP) をメタデータのスピンとして使用し、オープンな学術的APIとパブリッシャ固有の抽出子を通じて、抽象とBibTeXエントリによるレコードを強化し、結果をモノトニックなSQLiteスナップショットに保存し、コマンドラインインターフェース(CLI)、Webインターフェース、レビューワークフローのエクスポートパスを通じてアクセスすることができる。
2017年から2026年にかけて、11のサイバーセキュリティソースから9,925の論文があり、99.86%が抽象的カバレッジ、99.99%がBibTeXカバレッジ、31ミリ秒未満で全コーパスのキーワード検索、250テストスイートがデータ統合不変性を検証している。
固定分母は、また、繰り返し測定が可能であり、2024年から2025年の4つの上位セキュリティ会議からの29.2%の論文は、出版の5ヶ月前のarXivプレプリントとして表示され、前者のトラック記録フィルターは、後に同じ会場に現れるトリアージプレプリントに対して、90%のリコールで16.5倍の精度で取得される。
TopVenuesはコーパスの構成を監査可能なサイバーセキュリティ測定にリンクし、コーパス自体を実行可能で、検査可能で、検証可能である。
アーティファクトはhttps://github.com/sidneibarbieri/topVenues.comで入手できる。
関連論文リスト
- Towards Retrieving Interaction Spaces for Agentic Search [62.666902610940525]
最近の直接コーパス(DCI)の研究は、エージェントが5.4のインタラクションやファイル読み取りといったシェルツールを通じて生コーパスと対話できることを示している。
エージェント検索における検索の役割は, LLMコンテキストウィンドウに適合する文書を選択することだけではなく, インタラクション空間を構築することにある。
論文 参考訳(メタデータ) (2026-06-05T03:47:40Z) - DeepXiv-SDK: An Agentic Data Interface for Scientific Literature [60.19264121557117]
DeepXiv-SDKは科学文献のための3層エージェントデータインタフェースである。
DeepXiv-SDKは完全なArXivコーパスをサポートし、毎日同期して新しいリリースを組み込む。
論文 参考訳(メタデータ) (2026-02-14T23:07:28Z) - You Have Been LaTeXpOsEd: A Systematic Analysis of Information Leakage in Preprint Archives Using Large Language Models [1.0268444449457959]
衛生がなければ、投稿者はオープンソースインテリジェンスを使って敵が収穫できる機密情報を開示することができる。
我々は,10万件のarXiv提出資料から1.2TB以上のソースデータを解析し,初版アーカイブの大規模セキュリティ監査を行った。
我々は,研究コミュニティとレポジトリオペレーターに,これらの隠れたセキュリティギャップを埋めるために直ちに行動するよう促す。
論文 参考訳(メタデータ) (2025-10-04T10:03:17Z) - Transform Before You Query: A Privacy-Preserving Approach for Vector Retrieval with Embedding Space Alignment [7.491164990682839]
STEER(textbfSecure textbfTransformed textbfEmbedding vtextbfEctortextbf Retrieval)は、プライベートベクトル検索フレームワークである。
検索精度を維持しながら、クエリテキストのプライバシを保護します。
論文 参考訳(メタデータ) (2025-07-24T15:41:34Z) - Discourse Features Enhance Detection of Document-Level Machine-Generated Content [53.41994768824785]
機械生成コンテンツは、学術プラジャリズムや誤報の拡散といった課題を提起する。
既存のMGC検出器は、しばしば表面レベルの情報のみに焦点を当て、暗黙的かつ構造的な特徴を見渡す。
これらの課題を克服するために、新しい方法論とデータセットを導入します。
論文 参考訳(メタデータ) (2024-12-17T08:47:41Z) - Mens Sana In Corpore Sano: Sound Firmware Corpora for Vulnerability Research [1.1101390076342181]
本稿では,問題空間を解析し,その研究への影響について検討する。
我々は、コーパスの複製性や代表性を育成するのに役立つガイドラインを導出する。
我々はガイドラインの実現可能性を示し、Linuxファームウェアの大規模解析のための新しいレプリカブルコーパスLFwCを構築した。
論文 参考訳(メタデータ) (2024-04-18T08:14:40Z) - ICDAR 2023 Competition on Structured Text Extraction from Visually-Rich
Document Images [198.35937007558078]
大会は2022年12月30日に開かれ、2023年3月24日に閉幕した。
トラック1には35人の参加者と91人の有効な応募があり、トラック2には15人の参加者と26人の応募がある。
提案手法の性能によると, 複雑なシナリオやゼロショットシナリオにおいて, 期待される情報抽出性能にはまだ大きなギャップがあると考えられる。
論文 参考訳(メタデータ) (2023-06-05T22:20:52Z) - DAPR: A Benchmark on Document-Aware Passage Retrieval [57.45793782107218]
我々は,このタスクemphDocument-Aware Passage Retrieval (DAPR)を提案する。
State-of-The-Art(SoTA)パスレトリバーのエラーを分析しながら、大きなエラー(53.5%)は文書コンテキストの欠如に起因する。
提案するベンチマークにより,検索システムの開発・比較を今後行うことができる。
論文 参考訳(メタデータ) (2023-05-23T10:39:57Z) - unarXive 2022: All arXiv Publications Pre-Processed for NLP, Including
Structured Full-Text and Citation Network [0.0]
我々は、unarXiveというデータセットの新バージョンを提案する。
得られたデータセットは、複数の分野にまたがる1.9Mの出版物と32年からなる。
データセットに加えて、引用レコメンデーションとIMRaD分類のための準備の整ったトレーニング/テストデータを提供する。
論文 参考訳(メタデータ) (2023-03-27T07:40:59Z) - Generate rather than Retrieve: Large Language Models are Strong Context
Generators [74.87021992611672]
本稿では,文書検索を大規模言語モデル生成器に置き換えることで,知識集約型タスクを解く新しい視点を提案する。
我々は,提案手法をgenRead (genRead) と呼び,まず大きな言語モデルに対して,与えられた質問に基づいて文脈文書を生成し,次に生成された文書を読み出して最終回答を生成する。
論文 参考訳(メタデータ) (2022-09-21T01:30:59Z) - Documenting the English Colossal Clean Crawled Corpus [28.008953329187648]
この作業は、Common Crawlの単一のスナップショットにフィルターのセットを適用することによって作成されたデータセットであるColossal Clean Crawled Corpus(C4; Raffel et al., 2020)の最初のドキュメントを提供します。
まず、テキストがどこから来ていつ書き込まれたかの分布を含む、データのハイレベルな要約から始めます。
次に、最も頻繁なテキストソースを含む、このデータの突出した部分に関するより詳細な分析を行う。
論文 参考訳(メタデータ) (2021-04-18T07:42:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。