論文の概要: An Expanded Synthetic Conversation Dataset for Multi-Turn Smishing Detection
- arxiv url: http://arxiv.org/abs/2606.06879v1
- Date: Fri, 05 Jun 2026 03:46:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-08 14:33:29.553066
- Title: An Expanded Synthetic Conversation Dataset for Multi-Turn Smishing Detection
- Title(参考訳): マルチターンスミッシング検出のための拡張合成会話データセット
- Authors: Carl Lochstampfor, Ayan Roy,
- Abstract要約: 我々は,8つの年長ターゲット詐欺カテゴリにまたがる10,985の会話データセットであるCOVA-Xを提案する。
LongformerはXGBoostの精度を79.71%、マクロF1は0.7786、XGBoostは78.43%、マクロF1は0.7563となっている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Our prior work introduced COVA, a synthetically generated multi-turn conversational smishing dataset of 3,201 labeled conversations, establishing baseline detection benchmarks across eight models. While XGBoost with TF-IDF features achieved the best performance, with 72.5\% accuracy and 0.691 macro F1, transformer models underperformed, which was attributed to input truncation and insufficient training data. We present COVA-X, an expanded dataset of 10,985 conversations spanning eight elder-targeted scam categories, produced by an improved generation pipeline addressing contamination, label mismatch, stage-direction bleed, and prompt-design failures from the first iteration. Retraining all classifiers on the expanded dataset yields the central finding of this work: Longformer now surpasses XGBoost on all evaluation metrics, achieving 79.71\% accuracy and 0.7786 macro F1 compared with 78.43\% and 0.7563 for XGBoost. This directly confirms that transformer models require larger conversational corpora to realize their contextual advantages. We additionally document a quality life-cycle including a 12.7$\times$ improvement in label correction rate, from 49.8\% to 3.9\%, an architectural intervention reducing virtual-kidnapping artifact rates from 67.1\% to 46.5\%, and a per-scam-type outcome analysis showing that scam categories modulate results in mechanism-consistent ways. A pre/post-cleanup sensitivity analysis confirms that dataset refinement recovers genuine label-relevant signal across all three classifier architectures.
- Abstract(参考訳): これまでの作業では,3,201のラベル付き会話を合成的に生成したマルチターン会話スマイシングデータセットであるCOVAを導入し,8つのモデルでベースライン検出ベンチマークを構築した。
TF-IDF機能を備えたXGBoostは72.5\%の精度と0.691マクロF1で最高の性能を達成したが、トランスフォーマーモデルは性能が低かった。
今回提案するCOVA-Xは,ラベルミスマッチ,ステージ指向の出血,および第1イテレーションからの早期設計の失敗に対処する,改良された生成パイプラインによって生成される,8つの高齢者ターゲット詐欺カテゴリにまたがる10,985の会話データセットである。
Longformer は XGBoost の 78.43\% と 0.7563 に対して 79.71\% の精度と 0.7786 のマクロ F1 を達成した。
これは、変換器モデルが文脈的優位性を実現するためにより大きな会話コーパスを必要とすることを直接確認する。
また,12.7$\times$ラベル修正率(49.8\%から3.9\%)の改善,仮想キドネッピングアーティファクトレート(67.1\%から46.5\%)のアーキテクチャ的介入,詐欺的カテゴリが機構一貫性のある方法で変化することを示す詐欺的結果分析など,高品質なライフサイクルを文書化する。
プレ/ポストクリーンアップ感度分析により、データセットのリファインメントが3つの分類器アーキテクチャすべてにまたがる真のラベル関連信号を復元することを確認した。
関連論文リスト
- Models Can Model, But Can't Bind: Structured Grounding in Text-to-Optimization [54.749573452394664]
定式化自体が単純である場合でも、インスタンスデータが大きくなるにつれて精度が低下する。
我々は, 数値データを構造化ファイルに外部化する単純な推論時アプローチであるBINDを用いて, モデルがプロンプトプロンプトからではなく, データをバインドする。
我々は,モデルのみをバインディングのみに微調整することで仮説を検証し,3つの構造的に異なる最適化カテゴリにおいて,エンドツーエンドのSFTおよびRLよりも優れていることを示す。
論文 参考訳(メタデータ) (2026-05-20T21:25:41Z) - Feature-Augmented Transformers for Robust AI-Text Detection Across Domains and Generators [0.10923877073891443]
我々はHC3 PLUSで変圧器ベースの検出器を訓練し、ホールドアウト検証におけるバランスの取れた精度を最大化することにより、単一判定閾値を校正する。
HC3 PLUS の領域内、マルチドメインのマルチジェネレータ M4 ベンチマークへのクロスデータセット転送、および外部 AI-Text-Detection-Pile 上での評価を行う。
我々の最良のモデル(DeBERTa-v3-base+FeatAttn)はM4上で85.9%のバランスの取れた精度を達成する。
論文 参考訳(メタデータ) (2026-05-05T16:52:26Z) - AnomalyGen: Enhancing Log-Based Anomaly Detection with Code-Guided Data Augmentation [42.87177529900358]
AnomalyGenは、ラベル付きログシーケンスをソースコードから合成することによってトレーニングデータを増強する新しいフレームワークである。
12のさまざまな異常検出モデルに対するHDFSとZookeeperの評価は、AnomalyGenが一貫してパフォーマンスを改善していることを示している。
論文 参考訳(メタデータ) (2026-04-13T07:24:43Z) - Pioneer Agent: Continual Improvement of Small Language Models in Production [6.452260317191361]
小さな言語モデルは、低コスト、高速な推論、特殊化の容易さのために、製品展開にとって魅力的なものだ。
特定のタスクに小さな言語モデルを適用するプロセスを自動化するクローズドループシステムであるPioneer Agentを提案する。
論文 参考訳(メタデータ) (2026-04-10T18:13:09Z) - MinerU2.5-Pro: Pushing the Limits of Data-Centric Document Parsing at Scale [92.09717763663873]
我々は、データエンジニアリングとトレーニング戦略設計を通じて、純粋に最先端の技術を進化させるMinerU2.5-Proを提案する。
コアとなるのは、カバレッジ、情報性、アノテーションの正確性を中心に設計されたData Engineだ。
我々は,MinerU2.5-Pro が OmniDocBench v1.6 上で 95.69 を達成することを示す。
論文 参考訳(メタデータ) (2026-04-06T15:44:18Z) - Brevity Constraints Reverse Performance Hierarchies in Language Models [0.0]
ベンチマーク問題の7.7%では、より大きな言語モデルは10-100倍のパラメータにもかかわらず、より小さな言語モデルよりも28.4ポイント低い。
我々は,このメカニズムを,過度な作業を通じてエラーを発生させる自発的なスケール依存的冗長性として認識する。
この結果から,大規模モデルの性能を最大化するには,スケールアウェア・プロンプト・エンジニアリングが必要であることが判明した。
論文 参考訳(メタデータ) (2026-03-11T06:47:41Z) - Do Generative Metrics Predict YOLO Performance? An Evaluation Across Models, Augmentation Ratios, and Dataset Complexity [43.338311770275745]
本報告では, YOLOv11の合成増強の制御された評価法について述べる。
実際のトレーニングスプリットの10%から150%の増大率に対して, GAN, 拡散, ハイブリッドベースの6つのジェネレータをベンチマークした。
データセット生成/拡張設定毎に、マッチしたサイズのブートストラッププロトコルで事前トレーニングデータセットメトリクスを計算する。
論文 参考訳(メタデータ) (2026-02-20T03:02:36Z) - SEER: Spectral Entropy Encoding of Roles for Context-Aware Attention-Based Design Pattern Detection [0.0]
本稿では,ソースコードからGang of Four(GoF)デザインパターンを検出するために,従来のContext Is All You Needのアップグレード版を提案する。
SEERはこれらの制限に、(i)各クラスの相互作用グラフのラプラシアンスペクトルからメンバーごとのロール埋め込みを導出するスペクトルエントロピーロールエンコーダ、(ii)メソッドカテゴリに経験的校正期間を割り当てる時間重呼出コンテキストの2つの原則で対処する。
PyDesignNet上のSEER(1,832ファイル、35,000のシーケンス、23のGoFパターン)を評価し、以前のシステムよりも一貫した利得を観察する。
論文 参考訳(メタデータ) (2026-01-19T19:13:40Z) - A Comprehensive Forecasting-Based Framework for Time Series Anomaly Detection: Benchmarking on the Numenta Anomaly Benchmark (NAB) [0.0]
時系列異常検出は、現代のデジタルインフラにとって重要である。
本稿では,従来の手法をディープラーニングアーキテクチャと統合した予測ベースのフレームワークを提案する。
Numenta Anomaly Benchmark の最初の完全評価を行う。
論文 参考訳(メタデータ) (2025-10-13T08:31:42Z) - Benchmarking Reasoning Robustness in Large Language Models [76.79744000300363]
新規データや不完全データでは,性能が著しく低下することがわかった。
これらの結果は、厳密な論理的推論に対するリコールへの依存を浮き彫りにした。
本稿では,情報不足によって引き起こされる幻覚を利用して推論ギャップを明らかにする,Math-RoBと呼ばれる新しいベンチマークを提案する。
論文 参考訳(メタデータ) (2025-03-06T15:36:06Z) - Towards a Competitive End-to-End Speech Recognition for CHiME-6 Dinner
Party Transcription [73.66530509749305]
本稿では,難しい場合であっても,ハイブリッドベースラインに近い性能を示すエンドツーエンドアプローチについて論じる。
CTC-Attention と RNN-Transducer のアプローチと RNN と Transformer のアーキテクチャを比較し,解析する。
RNN-Transducerをベースとしたベストエンド・ツー・エンドモデルでは、ビームサーチの改善とともに、LF-MMI TDNN-F CHiME-6 Challengeのベースラインよりも品質が3.8%向上した。
論文 参考訳(メタデータ) (2020-04-22T19:08:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。