論文の概要: Real-time pedestrian attribute recognition with YOLOv8 and ResNet18
- arxiv url: http://arxiv.org/abs/2606.21200v1
- Date: Fri, 19 Jun 2026 08:11:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-26 07:30:32.927204
- Title: Real-time pedestrian attribute recognition with YOLOv8 and ResNet18
- Title(参考訳): YOLOv8とResNet18を用いたリアルタイム歩行者属性認識
- Authors: Houssam El Mir,
- Abstract要約: 本稿では, 歩行者を検知し, ResNet18をベースとしたモデルで性別を分類し, 年齢を推定し, 各歩行者作物から61の2進属性を推定する2段階の枠組みを提案する。
PETAとPA-100Kはセマンティック属性マッピングによって結合され、100,000枚以上の歩行者画像の統合トレーニングコーパスを生成する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pedestrian attribute recognition (PAR) assigns semantic labels to detected pedestrians and is useful in surveillance, video retrieval, and human-centered graphics applications. This paper presents a two-stage framework in which YOLOv8n detects pedestrians and ResNet18-based models classify gender, estimate apparent age, and predict 61 binary attributes from each pedestrian crop. PETA and PA-100K are combined through semantic attribute mapping, producing a unified training corpus of more than 100,000 pedestrian images while retaining the PETA attribute space. On the reported test splits, the system obtains 99.89% gender classification accuracy, a 4.23-year apparent-age mean absolute error, and 89.96% multi-attribute accuracy with a 36.32% macro F1-score and 58.80% micro F1-score. Runtime measurements indicate 25-30 FPS on an NVIDIA RTX 5060 GPU. The results show that a lightweight detector-classifier pipeline can support real-time PAR, while low macro F1 indicates that rare attributes remain challenging.
- Abstract(参考訳): 歩行者属性認識(PAR)は、検出された歩行者に意味ラベルを割り当て、監視、ビデオ検索、人中心グラフィックアプリケーションに有用である。
本稿では, 歩行者を検知し, ResNet18をベースとしたモデルで性別を分類し, 年齢を推定し, 各歩行者作物から61の2進属性を推定する2段階の枠組みを提案する。
PETAとPA-100Kはセマンティック属性マッピングによって結合され、PETA属性空間を維持しながら10万以上の歩行者画像の統合トレーニングコーパスを生成する。
報告されたテスト分割では、99.89%の性別分類精度、4.23年の平均絶対誤差、89.96%のマルチ属性精度、36.32%のマクロF1スコア、58.80%のマイクロF1スコアが得られた。
実行時測定はNVIDIA RTX 5060 GPU上で25-30 FPSを示す。
その結果、軽量検出器分類器パイプラインがリアルタイムPARをサポートできることが示され、マクロF1は希少な特性が引き続き困難であることが示唆された。
関連論文リスト
- 8-Calves Image dataset [0.8233028449337972]
マルチアニマル検出、追跡、識別のための挑戦的なベンチマークである8-Calvesデータセットを紹介した。
バーに8匹のホルスタイン・フリーズ人の子牛の1時間のビデオが映し出され、頻繁にオクルージョン、動きのぼやけ、さまざまなポーズが収められている。
微調整されたYOLOv8検出器とByteTrackを使った半きめのパイプラインと手作業による修正により、537,000以上のバウンディングボックスと時間的アイデンティティラベルが提供される。
論文 参考訳(メタデータ) (2025-03-17T23:47:52Z) - SequencePAR: Understanding Pedestrian Attributes via A Sequence Generation Paradigm [27.626796488951086]
歩行者認識のための新しいシーケンス生成パラダイムであるSequence Pedestrian Attribute Recognition (SequencePAR)を提案する。
SequencePARは、言語イメージの事前訓練モデルを使用して歩行者の特徴を抽出し、属性セットをテキストプロンプトでガイドされたクエリトークンに埋め込む。
複数のPARデータセットの実験は、SequencePARの有効性を検証する。
論文 参考訳(メタデータ) (2023-12-04T05:42:56Z) - HomE: Homography-Equivariant Video Representation Learning [62.89516761473129]
マルチビュービデオの表現学習のための新しい手法を提案する。
提案手法は異なる視点間の暗黙的なマッピングを学習し,近隣の視点間のホモグラフィ関係を維持する表現空間を決定づける。
動作分類では,UCF101データセットの96.4%の3倍精度が得られた。
論文 参考訳(メタデータ) (2023-06-02T15:37:43Z) - EdgeYOLO: An Edge-Real-Time Object Detector [69.41688769991482]
本稿では, 最先端のYOLOフレームワークをベースとした, 効率的で低複雑さかつアンカーフリーな物体検出器を提案する。
我々は,訓練中の過剰適合を効果的に抑制する拡張データ拡張法を開発し,小型物体の検出精度を向上させるためにハイブリッドランダム損失関数を設計する。
私たちのベースラインモデルは、MS 2017データセットで50.6%のAP50:95と69.8%のAP50、VisDrone 2019-DETデータセットで26.4%のAP50と44.8%のAP50に達し、エッジコンピューティングデバイスNvidia上でリアルタイム要求(FPS>=30)を満たす。
論文 参考訳(メタデータ) (2023-02-15T06:05:14Z) - Explaining automated gender classification of human gait [10.968267030101211]
最先端機械学習(ML)モデルは、歩行分析データの分類に非常に効果的であるが、予測に関する説明は提供されていない。
この"ブラックボックス"の特徴は、どの入力パターン、MLモデルが予測に基づいているかを理解するのを不可能にする。
本研究では、歩行分類におけるML予測の説明可能性を高めるために、説明可能な人工知能手法が有用かどうかを検討する。
論文 参考訳(メタデータ) (2022-10-16T13:57:09Z) - UPAR: Unified Pedestrian Attribute Recognition and Person Retrieval [4.6193503399184275]
UPAR, Unified Person Attribute Recognition データセットについて述べる。
PA100k、PETA、RAPv2、Market1501の4つの有名な人物属性認識データセットに基づいている。
私たちは、12の属性カテゴリに対して、40の重要なバイナリ属性を調和させるために、3,3Mの追加アノテーションを提供することで、これらのデータセットを統一します。
論文 参考訳(メタデータ) (2022-09-06T14:20:56Z) - FenceNet: Fine-grained Footwork Recognition in Fencing [84.19619219240859]
FenceNetは、フェンシングにおけるきめ細かいフットワークテクニックの分類を自動化する新しいアーキテクチャである。
入力として2Dポーズデータを取り込み、スケルトンベースのアクション認識アプローチを使用してアクションを分類する。
10倍のクロスバリデーションで85.4%の精度を達成し、各フェンスをテストセットとして残す。
論文 参考訳(メタデータ) (2022-04-20T12:54:31Z) - VOLO: Vision Outlooker for Visual Recognition [148.12522298731807]
視覚変換器 (ViT) はイメージネット分類において自己注意に基づくモデルの可能性を示している。
我々は、新しい展望の展望を導入し、VoLO(Vision Outlooker)と呼ばれる、シンプルで一般的なアーキテクチャを提示する。
グローバルな依存性モデリングを粗いレベルで重視する自己注意とは異なり、展望はより詳細な機能やコンテキストをトークンに効率的にエンコードする。
実験の結果、私たちのVOLOはImageNet-1K分類で87.1%のトップ1の精度を達成しており、これはこの競合ベンチマークで87%以上の精度で最初のモデルである。
論文 参考訳(メタデータ) (2021-06-24T15:46:54Z) - Detecting 32 Pedestrian Attributes for Autonomous Vehicles [103.87351701138554]
本稿では、歩行者を共同で検出し、32の歩行者属性を認識するという課題に対処する。
本稿では,複合フィールドフレームワークを用いたマルチタスク学習(MTL)モデルを提案する。
競合検出と属性認識の結果と,より安定したMTLトレーニングを示す。
論文 参考訳(メタデータ) (2020-12-04T15:10:12Z) - Generalized Focal Loss: Learning Qualified and Distributed Bounding
Boxes for Dense Object Detection [85.53263670166304]
一段検出器は基本的に、物体検出を密度の高い分類と位置化として定式化する。
1段検出器の最近の傾向は、局所化の質を推定するために個別の予測分岐を導入することである。
本稿では, 上記の3つの基本要素, 品質推定, 分類, ローカライゼーションについて述べる。
論文 参考訳(メタデータ) (2020-06-08T07:24:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。