Fugu-MT 論文翻訳(概要): From Bounding Boxes to Visual Reasoning: An On-Policy Data Annotation Tool for Vision-Language Models

論文の概要: From Bounding Boxes to Visual Reasoning: An On-Policy Data Annotation Tool for Vision-Language Models

arxiv url: http://arxiv.org/abs/2606.18846v1
Date: Wed, 17 Jun 2026 09:25:59 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-18 17:16:51.08553
Title: From Bounding Boxes to Visual Reasoning: An On-Policy Data Annotation Tool for Vision-Language Models
Title（参考訳）: ボックス境界からビジュアル推論へ:ビジョン言語モデルのためのオンラインデータアノテーションツール
Authors: Like Zhang, Runliang Niu, Shiqi Wang, Xiyu Hu, Qianli Xing, Pan Wang, Qingzu He, Qi Wang,
Abstract要約: 視覚言語モデル(VLM)は、高度に構築された視覚的推論に向けて急速に進歩している。既存のデータアノテーションツールは、これらの複雑な要求を満たすことができない。オープンソースのアノテーションツールScreenAnnotatorを紹介します。
参考スコア（独自算出の注目度）: 12.46500416733569
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Vision-language models (VLMs) are rapidly advancing toward sophisticated grounded structured visual reasoning. Training models for such advanced capabilities demands a new genre of data that seamlessly unifies spatial coordinates, open-vocabulary descriptions, structured attributes, and topological relationships into a singular representation. However, existing data annotation tools fundamentally fail to meet these intricate demands, suffering from three systematic bottlenecks: limited expressiveness, severe annotation-training decoupling, and poor data reusability. To bridge this infrastructure gap, we introduce an open-source annotation tool, ScreenAnnotator. First, we define a unified annotation atom schema that binds spatial, semantic, and structural primitives into a single unit. Second, we implement an on-policy annotation loop embedded with a Bayesian Annotation Verifier (BAV). Finally, we design a template-driven multi-task data synthesis process dynamically transforms static atoms into diverse multi-dimensional reasoning tasks, eliminating redundant re-annotation. The on-policy loop drives the annotation accept rate to nearly 100% on flowcharts and 77% on GUI screenshots, while steadily reducing per-image annotation time as labeled data accumulate. In the flowchart scenario, fine-tuning a VLM yields 76.1% average accuracy, which is a 35.1% point absolute gain. Our code is available at: https://github.com/WnQinm/Annotator.
Abstract（参考訳）: 視覚言語モデル(VLM)は、高度に構築された視覚的推論に向けて急速に進歩している。このような高度な機能のためのトレーニングモデルは、空間座標、オープン語彙記述、構造化属性、トポロジ的関係をシームレスに単一の表現に統一する新しいジャンルのデータを必要とする。しかし、既存のデータアノテーションツールは、表現力の制限、厳格なアノテーショントレーニングの分離、データ再利用性の低さという3つの体系的なボトルネックに悩まされ、これらの複雑な要求を基本的に満たさない。このインフラストラクチャギャップを埋めるため、オープンソースのアノテーションツールScreenAnnotatorを導入しました。まず、空間的、意味的、構造的プリミティブを単一のユニットに結合する統一アノテーション原子スキーマを定義する。次に,Bayesian Annotation Verifier (BAV) を組み込んだオンラインアノテーションループを実装した。最後に、テンプレート駆動型マルチタスクデータ合成プロセスの設計を行い、静的な原子を多次元推論タスクに動的に変換し、冗長な再アノテーションを排除した。オンラインのループは、アノテーションの受け入れ率をフローチャートで100%近く、GUIスクリーンショットで77%、ラベル付きデータが蓄積されるにつれて画像毎のアノテーション時間を着実に削減する。フローチャートのシナリオでは、VLMを微調整すると平均精度76.1%となり、これは35.1%の絶対利得である。私たちのコードは、https://github.com/WnQinm/Annotator.comで利用可能です。

関連論文リスト

Memory-Augmented Vision-Language Agents for Persistent and Semantically Consistent Object Captioning [27.48318501076437]
VLM(Vision-Language Models)はしばしば、視点を越えて同じオブジェクトの一貫性のない記述をもたらす。本稿では,データアソシエーション,オブジェクトキャプション,探索ポリシを同時に処理するメモリ拡張型ビジョンランゲージエージェントを提案する。標準キャプションスコアでは+11.86%、ベースラインモデルでは+7.39%の改善が見られた。
論文参考訳（メタデータ） (2026-03-25T12:52:32Z)
RefAtomNet++: Advancing Referring Atomic Video Action Recognition using Semantic Retrieval based Multi-Trajectory Mamba [86.47790050206306]
RefAVA++は290万フレームと75.1kの注釈付き人で構成される。 RefAtomNet++は、多階層的なセマンティックアラインなクロスアテンションメカニズムを通じて、クロスモーダルトークンアグリゲーションを前進させる。実験によると、RefAtomNet++は新しい最先端の結果を確立している。
論文参考訳（メタデータ） (2025-10-18T10:41:19Z)
Mind-the-Glitch: Visual Correspondence for Detecting Inconsistencies in Subject-Driven Generation [120.23172120151821]
本稿では,事前学習した拡散モデルのバックボーンから視覚的特徴と意味的特徴を分離するための新しいアプローチを提案する。注釈付きセマンティックと視覚対応を備えた画像ペアを構築する自動パイプラインを導入する。被験者駆動画像生成における視覚的不整合を定量化する新しい指標であるビジュアルセマンティックマッチングを提案する。
論文参考訳（メタデータ） (2025-09-26T07:11:55Z)
Open-Vocabulary Octree-Graph for 3D Scene Understanding [54.11828083068082]
Octree-Graphはオープンな3Dシーン理解のための新しいシーン表現である。セマンティクスを記憶し、その形状に応じてオブジェクトの占有度を調節するアダプティブ・オクツリー構造を開発する。
論文参考訳（メタデータ） (2024-11-25T10:14:10Z)
Harlequin: Color-driven Generation of Synthetic Data for Referring Expression Comprehension [4.164728134421114]
Referring Expression(REC)は、自然言語表現によってシーン内の特定のオブジェクトを識別することを目的としており、視覚言語理解において重要なトピックである。このタスクの最先端のメソッドは、一般的に高価で手動でラベル付けされたアノテーションを必要とするディープラーニングに基づいている。テキストと視覚の両方を考慮したRECタスクのための人工データを生成する新しいフレームワークを提案する。
論文参考訳（メタデータ） (2024-11-22T09:08:36Z)
Open-Vocabulary Camouflaged Object Segmentation [66.94945066779988]
OVCOS(Open-vocabulary camouflaged Object segmentation)を導入した。我々は11,483個の手選択画像とそれに対応するオブジェクトクラスを含む大規模複合シーンデータセット(textbfOVCamo)を構築した。クラスセマンティック知識の指導とエッジ情報と深度情報からの視覚構造的手がかりの補足を統合することにより、提案手法は効率よくカモフラージュされたオブジェクトを捕捉できる。
論文参考訳（メタデータ） (2023-11-19T06:00:39Z)
Dynamic Graph Message Passing Networks for Visual Recognition [112.49513303433606]
長距離依存のモデリングは、コンピュータビジョンにおけるシーン理解タスクに不可欠である。完全連結グラフはそのようなモデリングには有益であるが、計算オーバーヘッドは禁じられている。本稿では,計算複雑性を大幅に低減する動的グラフメッセージパッシングネットワークを提案する。
論文参考訳（メタデータ） (2022-09-20T14:41:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。