論文の概要: Beyond Classification Accuracy: An Exploration-Range Evaluation of Adaptive Crawling for Fake Shopping Sites
- arxiv url: http://arxiv.org/abs/2606.21353v2
- Date: Tue, 23 Jun 2026 00:58:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-24 22:16:48.334073
- Title: Beyond Classification Accuracy: An Exploration-Range Evaluation of Adaptive Crawling for Fake Shopping Sites
- Title(参考訳): 分類精度を超えて:フェイクショッピング場における適応クロールの探索・ラウンジ評価
- Authors: K. Karasawa, K. Takeshige, S. Matsugaya, M. Shimamura, M. Hashimoto,
- Abstract要約: 近年、SEO中毒による検索エンジンの上位に、日本人ユーザーを対象とした偽のショッピングサイトが出現している。
偽サイト分類器のページレベルの出力を次のサイクルの検索クエリに組み込むクローズドループクローラを提案する。
検索クエリは、正のページから抽出された特徴語と偽のショッピングコンテキストから抽出されたシード語を組み合わせた、シード複合戦略によって生成される。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, fake shopping sites targeting Japanese users have appeared in the top results of search engines through SEO poisoning, causing increasing damage. Conventional collection methods rely on fixed keywords and cannot keep up with evolving attack campaigns, delaying the discovery of new sites. We propose a closed-loop crawler that incorporates the page-level outputs of a fake-site classifier (fastText+LightGBM) into the search queries of the next cycle. Search queries are generated by a seed-compound strategy that combines characteristic words extracted from positive pages with seed words from the fake-shopping context (e.g., ``deep discount,'' ``official''). To complement evaluations that tend to focus on classifier accuracy, we also introduce per-cycle new-host counts and cumulative unique-host counts as exploration-range metrics. In a comparative experiment ($n=3$ for the proposed method, $n=2$ for the baseline), the fixed-keyword baseline yielded zero new-host acquisition from cycle 2 onward, indicating complete stagnation, whereas the proposed method continued to discover new hosts and, at cycle 3, achieved a cumulative unique-host count approximately 7.6 times that of the baseline on average.
- Abstract(参考訳): 近年、SEO中毒による検索エンジンのトップに、日本人ユーザーをターゲットにした偽のショッピングサイトが登場し、被害が増加している。
従来の収集方法は固定キーワードに依存しており、攻撃キャンペーンの進行に遅れず、新しいサイトの発見を遅らせることはできない。
偽サイト分類器(fastText+LightGBM)のページレベルの出力を次のサイクルの検索クエリに組み込むクローズドループクローラを提案する。
検索クエリは、正のページから抽出された特徴語と偽のショッピングコンテキスト(例: ``deep discount,''`official'')から抽出されたシードワードとを結合したシード複合戦略によって生成される。
また,分類器の精度に注目する評価を補完するため,探索範囲の指標として,サイクルごとの新規ホスト数と累積的一意ホスト数も導入する。
提案手法の比較実験 (n=3$, $n=2$, the baseline) において, 固定キーワードベースラインはサイクル2からゼロの新宿主獲得を実現し, 完全に停滞を示す一方, 提案手法は新たな宿主の発見を続け, サイクル3では, ベースラインの約7.6倍の累積的なユニークな宿主数を達成した。
関連論文リスト
- Closing the Indexing-Decoding Gap in Multimodal Generative Retrieval via Prefix Retention Optimization [68.48718919047127]
マルチモーダル生成検索式は、複数のモーダル検索を離散識別子生成として定義し、外部埋め込みよりも明示的な類似性探索を不要とする。
既存の手法では、残差量子化によって識別子を構築し、トリエ制約ビームサーチでデコードする。
この組み合わせは、インデックス化とデコーディングのギャップを導入している: 識別子学習の目的は、再構成や対照的な損失を含むが、デコーディング中にプレフィックスの識別性を明示的に強制しない。
1)プレフィックスの格付け蒸留は、リストワイドロスを用いた事前量子化埋め込みによって誘導されるプレフィックスと整合する; (ii)語彙スケジューリングは、コードブックを増大させる。
論文 参考訳(メタデータ) (2026-06-08T09:15:47Z) - Rethinking Deep Research from the Perspective of Web Content Distribution Matching [86.90255285277256]
WeDasは,検索空間の構造的特徴をエージェントの観察空間に組み込んだWebコンテンツ配信アウェアフレームワークである。
本稿では,Query-Result Alignment Scoreを反復的に推定する数ショットの探索機構を提案する。
プラグイン・アンド・プレイモジュールとして、WeDasは4つのベンチマークのサブゴール補完と精度を一貫して改善している。
論文 参考訳(メタデータ) (2026-03-07T14:51:17Z) - When Retriever Meets Generator: A Joint Model for Code Comment Generation [3.6781644685120924]
RAGSumは、単一のCodeT5バックボーンを使用して、ヒューズ検索と生成の上に構築されている。
対照的な事前学習フェーズは、最寄りの探索のためのコード埋め込みを形作る。
最終出力を研磨するために、軽量な自己精製ループが配置される。
論文 参考訳(メタデータ) (2025-07-16T18:12:27Z) - Neural Prioritisation for Web Crawling [23.013617933109526]
本稿では,クローリングの有効性を高めるために,セマンティックな品質駆動型優先順位付け手法を提案する。
クローリングプロセスに直接意味理解を組み込む。
実験の結果,既存のクロール法と比較して,ニューラルクロール法は収穫率,最大NDCG,探索効率を著しく向上することがわかった。
論文 参考訳(メタデータ) (2025-06-19T08:59:21Z) - Count-based Novelty Exploration in Classical Planning [5.893124686141782]
本稿では,一定数の新規性を持つ状態空間を探索することを目的とした,新しい新規性手法,古典的カウントベースノベルティを提案する。
また,ノードによって一定サイズを刈り取ることで,一定サイズを維持したトリミングオープンリストの形で,新規なコントリビューションも導入する。
論文 参考訳(メタデータ) (2024-08-25T04:25:10Z) - Learning to Rank in Generative Retrieval [62.91492903161522]
生成的検索は、検索対象として関連する通路の識別子文字列を生成することを目的としている。
我々はLTRGRと呼ばれる生成検索のための学習 torankフレームワークを提案する。
このフレームワークは、現在の生成的検索システムを強化するために、追加の学習からランクまでのトレーニングフェーズのみを必要とする。
論文 参考訳(メタデータ) (2023-06-27T05:48:14Z) - How Does Generative Retrieval Scale to Millions of Passages? [68.98628807288972]
各種コーパス尺度における生成的検索手法の実証的研究を行った。
我々は8.8Mパスのコーパスで数百万のパスに生成検索をスケールし、モデルサイズを最大11Bパラメータまで評価する。
生成的検索は、小さなコーパス上の最先端のデュアルエンコーダと競合するが、数百万のパスへのスケーリングは依然として重要で未解決の課題である。
論文 参考訳(メタデータ) (2023-05-19T17:33:38Z) - Progressive End-to-End Object Detection in Crowded Scenes [96.92416613336096]
以前のクエリベースの検出器は2つの欠点に悩まされていた: まず、複数の予測が1つのオブジェクトに対して推論される。
具体的には、まず受理されたクエリを選択して正の予測を生成し、その後、受理された予測に従って残雑音のあるクエリを精査する。
提案手法は,混み合ったシーンにおける問合せ型検出器の性能を大幅に向上させることができることを示す。
論文 参考訳(メタデータ) (2022-03-15T06:12:00Z) - Query Rewriting via Cycle-Consistent Translation for E-Commerce Search [13.723266150864037]
本稿では,新しいディープニューラルネットワークによる問合せ書き換え手法を提案する。
繰り返し機械翻訳問題にクエリ書き換えを定式化します。
最新の機械翻訳モデルと連動した、新しいサイクル整合性トレーニングアルゴリズムを紹介します。
論文 参考訳(メタデータ) (2021-03-01T06:47:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。