論文の概要: ABACUS: Adapting Unified Foundation Model for Bridging Image Count Understanding and Generation
- arxiv url: http://arxiv.org/abs/2606.23835v1
- Date: Mon, 22 Jun 2026 18:16:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-24 22:16:48.623367
- Title: ABACUS: Adapting Unified Foundation Model for Bridging Image Count Understanding and Generation
- Title(参考訳): ABACUS:イメージカウントの理解と生成のための統一ファンデーションモデルの適用
- Authors: Anindya Mondal, Sauradip Nag, Anjan Dutta,
- Abstract要約: ABACUSは、オブジェクトカウント、群衆カウント、参照-表現カウント、およびカウント-忠実な画像生成を処理するビジョン言語モデルである。
ABACUSは7つのベンチマークで最先端の結果を達成し、タスク固有のスペシャリストとより大きなジェネラリストモデルの両方を上回っている。
- 参考スコア(独自算出の注目度): 11.232871074567656
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: ABACUS is a unified vision-language model that handles object counting, crowd counting, referring-expression counting, and count-faithful image generation without any benchmark-specific training required. Our model is built on existing 3B-parameter unified foundation model and is adapted for object localization tasks using three key innovations: density-aware adaptive zooming with objectness maps for spatial grounding; a boundary-aware count policy via GRPO to eliminate crop-boundary errors; and a cycle-consistent GRPO strategy where the understanding branch self-critiques generated outputs, closing the understanding-generation gap without any external annotations. ABACUS achieves state-of-the-art results across seven benchmarks, outperforming both task-specific specialists and larger generalist models.
- Abstract(参考訳): ABACUSは、オブジェクトカウント、群衆カウント、参照-表現カウント、および、ベンチマーク固有のトレーニングを必要とせずに、カウントフルな画像生成を処理する、統一された視覚言語モデルである。
我々のモデルは,既存の3Bパラメータ統一基盤モデルに基づいて構築され,空間的接地のためのオブジェクトネスマップを用いた高密度対応適応ズーム,作物境界誤差を解消するGRPOによる境界対応カウントポリシ,外部アノテーションを使わずに自己批判が生成されるサイクル一貫性GRPO戦略の3つの重要なイノベーションを用いてオブジェクトローカライゼーションタスクに適応する。
ABACUSは7つのベンチマークで最先端の結果を達成し、タスク固有のスペシャリストとより大きなジェネラリストモデルの両方を上回っている。
関連論文リスト
- Robust Zero-Shot Generalization for Open-Vocabulary Action Recognition via Task Arithmetic [45.298314099319775]
Open Vocabulary Action Recognition (OVAR)は、視覚言語表現を活用することで、新しい行動の認識を可能にする。
ターゲットドメインのトレーニングを回避し、既存のデータセットやモデルから知識を再結合する代替パラダイムを提案する。
本研究では,事前学習したベースモデルよりも優れたゼロショット一般化を達成できることを,アウト・オブ・ディストリビューション設定で示す。
論文 参考訳(メタデータ) (2026-06-17T14:16:12Z) - Towards Foundation Models for 3D Scene Understanding: Instance-Aware Self-Supervised Learning for Point Clouds [53.82500407523346]
PointINSは、幾何学的学習を通じてポイントクラウド表現を豊かにする、インスタンス指向の自己組織化フレームワークである。
PointINSは、屋内のインスタンスセグメンテーションで平均+3.5%のmAP改善、屋外のパン光学セグメンテーションで+4.1%のPQゲインを達成している。
論文 参考訳(メタデータ) (2026-03-26T08:31:06Z) - HeBA: Heterogeneous Bottleneck Adapters for Robust Vision-Language Models [3.8707695363745214]
HeBA(Heterogeneous Bottleneck Adapter)は、モダリティ固有の帰納バイアスを導入する統一アーキテクチャフレームワークである。
HeBAは2次元奥行き分離可能な畳み込みを通じて視覚トークンを処理し、空間的相関を保存する。
標準的な拡張アダプタとは異なり、HeBAは圧縮ボトルネックを採用し、モデルにコンパクトで堅牢な特徴を明示的に学習させる。
論文 参考訳(メタデータ) (2026-03-17T15:23:04Z) - AULLM++: Structural Reasoning with Large Language Models for Micro-Expression Recognition [30.62262381459829]
AULLM++は大規模言語モデル(LLM)を活用した推論指向フレームワークである
AU予測をエビデンス構築、構造モデリング、推論に基づく予測の3段階に定式化する。
AULLM++は、標準ベンチマークで最先端のパフォーマンスを実証する。
論文 参考訳(メタデータ) (2026-03-09T13:45:21Z) - UniG2U-Bench: Do Unified Models Advance Multimodal Understanding? [50.92401586025528]
統一マルチモーダルモデルは、最近強力な生成能力を示したが、生成が理解を改善したかどうかはまだ不明である。
提案するUniG2U-Benchは,G2U(Generation-to-understanding)評価を7つのシステマと30のサブタスクに分類する総合ベンチマークである。
論文 参考訳(メタデータ) (2026-03-03T18:36:16Z) - RAG-GFM: Overcoming In-Memory Bottlenecks in Graph Foundation Models via Retrieval-Augmented Generation [27.59455285600957]
Graph Foundation Models (GFMs) はグラフ学習のフロンティアとして登場し、さまざまなタスク間で伝達可能な表現を提供することが期待されている。
本稿では,パラメータから知識をオフロードする検索型生成支援グラフ基礎モデルであるRAG-GFMを提案する。
RAG-GFMは、クロスドメインノードとグラフ分類の両方において、13の最先端のベースラインを一貫して上回ることを示す。
論文 参考訳(メタデータ) (2026-01-21T16:02:43Z) - Generalized Decoupled Learning for Enhancing Open-Vocabulary Dense Perception [71.26728044621458]
DeCLIPは、CLIPを強化する新しいフレームワークで、自己認識モジュールを分離して、それぞれコンテンツ’と“コンテキスト’の機能を取得する。
2D検出とセグメンテーション、3Dインスタンスのセグメンテーション、ビデオインスタンスのセグメンテーション、6Dオブジェクトのポーズ推定など、幅広いタスクにわたる最先端のパフォーマンスを一貫して達成する。
論文 参考訳(メタデータ) (2025-08-15T06:43:51Z) - Occlusion-Aware 3D Hand-Object Pose Estimation with Masked AutoEncoders [29.274913619777088]
本稿では,HOMAEと呼ばれるマスク付きオートエンコーダを用いたオクルージョンを意識したポーズ推定手法を提案する。
我々は,デコーダから抽出したマルチスケール特徴を統合し,符号付き距離場(SDF)を予測する。
DexYCBとHO3Dv2ベンチマークに挑戦する実験は、HOMAEが手動ポーズ推定において最先端のパフォーマンスを達成することを示した。
論文 参考訳(メタデータ) (2025-06-12T15:30:47Z) - UGMAE: A Unified Framework for Graph Masked Autoencoders [67.75493040186859]
グラフマスク付きオートエンコーダのための統一フレームワークであるUGMAEを提案する。
まず,ノードの特異性を考慮した適応型特徴マスク生成器を開発した。
次に,階層型構造再構成と特徴再構成を併用し,総合的なグラフ情報を取得する。
論文 参考訳(メタデータ) (2024-02-12T19:39:26Z) - Grounding Everything: Emerging Localization Properties in
Vision-Language Transformers [51.260510447308306]
事前学習された視覚言語(VL)モデルでは、微調整なしでゼロショットのオープン語彙オブジェクトローカライゼーションが可能であることを示す。
本稿では,CLIPSurgeryが自己注意経路に導入した価値価値注意の考え方を一般化するグラウンドング・エコノミクス・モジュール(GEM)を提案する。
セマンティックセグメンテーションのための様々なベンチマークタスクとデータセットに基づいて提案したGEMフレームワークを評価する。
論文 参考訳(メタデータ) (2023-12-01T19:06:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。