論文の概要: FineGen: A VLM-based Multi-Agent Framework for Fine-Grained Image-Text Dataset Construction
- arxiv url: http://arxiv.org/abs/2606.07645v1
- Date: Tue, 02 Jun 2026 01:10:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:05.181348
- Title: FineGen: A VLM-based Multi-Agent Framework for Fine-Grained Image-Text Dataset Construction
- Title(参考訳): FineGen: 微細画像テキストデータセット構築のためのVLMベースのマルチエージェントフレームワーク
- Authors: Chang Kong, Yuebing Li, Peng Mo, Haigang Zhang, Qiuming Luo,
- Abstract要約: FineGenは、自動データセット構築のためのVLMベースのMulti-Agentフレームワークである。
我々は,147,000以上の属性特異的な硬質負と,厳密な1:10の正負比を含む階層的データセットであるFineGen-100Kを構築した。
- 参考スコア(独自算出の注目度): 1.7344190176723686
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The scarcity of hard negative samples in current vision-language datasets significantly hinders fine-grained perception. To address this, we propose FineGen, a VLM-based Multi-Agent framework for automated dataset construction. By employing a collaborative Generation-Verification-Correction pipeline with a closed-loop feedback mechanism, FineGen ensures synthesized hard negatives are semantically valid yet strictly contradictory to visual content. Applying this to ImageNet, we construct FineGen-100K, a hierarchical dataset containing over 147,000 attribute-specific hard negatives with a rigorous 1:10 positive-to-negative ratio. Extensive evaluations confirm a 96.7% attribute validity rate. Crucially, downstream validation on the FG-OVD benchmark shows that fine-tuning on FineGen-100K yields a substantial +14.4% accuracy improvement on hard samples, significantly outperforming state-of-the-art methods.
- Abstract(参考訳): 現在の視覚言語データセットにおける強い負のサンプルの不足は、きめ細かい知覚を著しく妨げている。
これを解決するために、自動データセット構築のためのVLMベースのMulti-AgentフレームワークであるFineGenを提案する。
クローズドループフィードバック機構を備えたコラボレーティブなGeneration-Verification-Correctionパイプラインを使用することで、FineGenは、合成されたハードネガティブがセマンティックに有効であると同時に、ビジュアルコンテンツと厳密に矛盾することを保証します。
ImageNetにこれを適用することで、147,000以上の属性固有のハード負を厳密な1:10の正負比で含む階層的なデータセットであるFineGen-100Kを構築する。
総合評価では96.7%の属性妥当性が確認されている。
重要な点として、FG-OVDベンチマークの下流での検証では、FinGen-100Kの微調整によってハードサンプルの精度が14.4%向上し、最先端の手法よりも大幅に向上した。
関連論文リスト
- Code-Centric Detection of Vulnerability-Fixing Commits: A Unified Benchmark and Empirical Study [4.512751676075442]
本稿では,統合フレームワークによる言語モデルに基づくVFC検出の包括的評価を行う。
コードの変更だけで、モデルが転送可能なセキュリティ関連コードを理解する証拠は見つからない。
グループ階層評価は、ランダムスプリットに比べて約17%のパフォーマンス低下を露呈する。
論文 参考訳(メタデータ) (2026-05-13T08:05:14Z) - GATE-AD: Graph Attention Network Encoding For Few-Shot Industrial Visual Anomaly Detection [15.086082749099601]
Few-Shot Industrial Visual Anomaly Detection (FS-IVAD) は、現代の製造環境において重要な課題である。
本研究はGATE-ADと呼ばれる新しい再構築手法を提案する。
論文 参考訳(メタデータ) (2026-03-16T14:01:21Z) - Hybrid Synthetic Data Generation with Domain Randomization Enables Zero-Shot Vision-Based Part Inspection Under Extreme Class Imbalance [3.7696918637188817]
堅牢な機械学習モデルのトレーニングには、大量の高品質なラベル付きデータが必要である。
欠陥サンプルは本質的に稀であり、モデル性能を低下させる深刻なクラス不均衡を引き起こす。
合成データ生成は、大きく、バランスよく、完全に注釈付けされたデータセットの作成を可能にすることで、有望なソリューションを提供する。
論文 参考訳(メタデータ) (2025-11-28T05:30:49Z) - RAG-IGBench: Innovative Evaluation for RAG-based Interleaved Generation in Open-domain Question Answering [50.42577862494645]
本稿では,RAG-IG(Retrieval-Augmented Generation)に基づくインターリーブドジェネレーション(Interleaved Generation)の課題を評価するためのベンチマークであるRAG-IGBenchを提案する。
RAG-IGは、MLLM(Multimodal large language model)と検索機構を統合し、モデルがコヒーレントなマルチモーダルコンテンツを生成するための外部画像テキスト情報にアクセスできるようにする。
論文 参考訳(メタデータ) (2025-10-11T03:06:39Z) - A Label-Free Heterophily-Guided Approach for Unsupervised Graph Fraud Detection [60.09453163562244]
本稿では,非教師付きGFDのための非教師付きグラフ不正検出手法(HUGE)を提案する。
推定モジュールでは、GFD の臨界グラフ特性をキャプチャする HALO と呼ばれる新しいラベルフリーなヘテロフィリー計量を設計する。
アライメントに基づく不正検出モジュールにおいて、ランキング損失と非対称アライメント損失を有する合同GNNアーキテクチャを開発する。
論文 参考訳(メタデータ) (2025-02-18T22:07:36Z) - Task-oriented Embedding Counts: Heuristic Clustering-driven Feature Fine-tuning for Whole Slide Image Classification [1.292108130501585]
本稿では,クラスタリング駆動型機能微調整法(HC-FT)を提案する。
提案手法はCAMELYON16とBRACSの両方で評価され,それぞれ97.13%,85.85%のAUCが得られた。
論文 参考訳(メタデータ) (2024-06-02T08:53:45Z) - Deep Generative Attacks and Countermeasures for Data-Driven Offline Signature Verification [2.0368479127360093]
本研究では,データ駆動型オフライン署名検証(DASV)システムの生成攻撃に対する脆弱性について検討する。
本稿では,DASVシステムに挑戦する誤認識シグネチャを作成する上で,VAE(Variversaational Autoencoders)とCGAN(Conditional Generative Adrial Networks)の有効性について検討する。
論文 参考訳(メタデータ) (2023-12-02T00:58:34Z) - AMRFact: Enhancing Summarization Factuality Evaluation with AMR-Driven Negative Samples Generation [57.8363998797433]
抽象的意味表現(AMR)を用いた摂動要約を生成するフレームワークであるAMRFactを提案する。
提案手法は,AMRグラフに一貫した要約を解析し,制御された事実不整合を注入して負の例を生成し,一貫性のない事実不整合要約を高い誤差型カバレッジで生成する。
論文 参考訳(メタデータ) (2023-11-16T02:56:29Z) - Generative Modeling Helps Weak Supervision (and Vice Versa) [87.62271390571837]
本稿では,弱い監督と生成的敵ネットワークを融合したモデルを提案する。
弱い監督によるラベル推定と並行して、データの離散変数をキャプチャする。
これは、弱い教師付き合成画像と擬似ラベルによるデータ拡張を可能にする最初のアプローチである。
論文 参考訳(メタデータ) (2022-03-22T20:24:21Z) - Negative Data Augmentation [127.28042046152954]
負のデータ拡張サンプルは、データ分散のサポートに関する情報を提供することを示す。
我々は、NDAを識別器の合成データの追加源として利用する新しいGAN訓練目標を提案する。
実験により,本手法で訓練したモデルでは,異常検出能力の向上とともに条件付き・条件付き画像生成の改善を実現している。
論文 参考訳(メタデータ) (2021-02-09T20:28:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。