論文の概要: DeepForestVisionV2: Ecology-Driven Taxonomy Expansion for Camera-Trap Monitoring in African Tropical Forests
- arxiv url: http://arxiv.org/abs/2606.20223v1
- Date: Thu, 18 Jun 2026 13:38:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-19 18:23:39.880584
- Title: DeepForestVisionV2: Ecology-Driven Taxonomy Expansion for Camera-Trap Monitoring in African Tropical Forests
- Title(参考訳): DeepForestVisionV2:アフリカ熱帯林におけるカメラトラップモニタリングのための生態駆動型分類拡張
- Authors: Hugo Magaldi, Theau d'Audiffret, Etienne Francois Akomo-Okoue, Bala Amarasekaran, Naomi Anderson, Claire Auger, Noemie Cappelle, Daniel Cornelis, Raphael Cornette, Tobias Deschner, Gabriel Dubus, Davy Fonteyn, Rosa M. Garriga, Jennifer Hatlauf, Innocent Kasekendi, Raymond Katumba, Aram Kazandjian, Alfred Ngomanda, Stephan Ntie, Simone Pika, Xavier Rufray, Harold Rugonge, John Justice Tibesigwa, Peter van Lunteren, Hadrien Vanthomme, Joeri A. Zwerts, Sabrina Krief,
- Abstract要約: DeepForestVisionは、アフリカの熱帯林でカメラトラップを分類するためのオープンツールである。
DeepForestVisionV2は、クローズドキャノピーで地上レベルの森のインテリア用に設計されている。
垂直成層、シーンの開放性、人為的インターフェースの3つの繰り返し展開勾配に対処する。
- 参考スコア(独自算出の注目度): 1.4196768534209772
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Camera-trap monitoring in African tropical forests increasingly extends beyond closed-canopy interiors to riverbanks, clearings, and park edges. Among available open tools for African forest camera-trap classification, DeepForestVision is the only one providing a matched offline workflow for both photographs and videos, and previous work showed that it outperformed other available baselines on a comparable benchmark. However, it was designed for closed-canopy, ground-level forest interiors and uses a 35-class prediction space that becomes too coarse when deployments encounter arboreal primates, birds, semi-aquatic taxa, or human-associated confounders such as livestock. We present DeepForestVisionV2, an ecology-driven expansion from 35 to 64 prediction classes (61 animal classes plus human, vehicle, and blank) designed to address three recurrent deployment gradients: vertical stratification, scene openness, and anthropogenic interfaces. DeepForestVisionV2 retains the same offline workflow and is trained on 1,535,010 photographs and 243,354 videos from multi-country African tropical-forest projects. Evaluation combines a cross-country cropped-photo validation set, used to assess robustness across sites and camera-trap settings, with three held-out Uganda video benchmarks spanning the targeted gradients. On the validation set, DeepForestVisionV2 reaches 0.86 accuracy, 0.82 macro-F1, and 0.81 balanced accuracy. On the deployment benchmarks, it preserves or improves baseline accuracy despite its harder classification task, while increasing the number of identified taxa from 22 to 29 in forest-interior videos and from 4 to 9 at riverbanks. In the park-edge use case, it raises accuracy from 0.62 to 0.86 and reduces false alarms from 11 to 0. These results show that DeepForestVisionV2 materially improves field utility while preserving robustness across sites, habitats, and camera-trap settings.
- Abstract(参考訳): アフリカの熱帯林におけるカメラ・トラップの監視は、閉水路の内側から川岸、クリーニング、公園の縁まで拡大する傾向にある。
DeepForestVisionは、アフリカの森林カメラトラップ分類のためのオープンツールの中で、写真とビデオの両方に一致するオフラインワークフローを提供する唯一のツールである。
しかし、クローズド・キャノピー、地上レベルの森林の内装用に設計され、展開がアーボレアの霊長類、鳥類、半水生の分類群、家畜のような人間関連の共同創設者に遭遇すると、35クラスの予測空間が粗くなりすぎる。
DeepForestVisionV2は、35から64の予測クラス(61の動物クラスと人間、車、空白)で、垂直成層、景観開放性、人為的インターフェースの3つの繰り返し展開勾配に対処するために設計された。
DeepForestVisionV2は、同じオフラインワークフローを保持し、アフリカの多国間熱帯林プロジェクトから1,535,010枚の写真と243,354本のビデオで訓練されている。
評価には、サイト間の堅牢性やカメラトラップの設定を評価するために使用されるクロスカントリーのトリミング写真検証セットと、対象の勾配にまたがるウガンダのビデオベンチマークの3つが組み合わされている。
検証セットでは、DeepForestVisionV2の精度は0.86、マクロF1は0.82、バランスの取れた精度は0.81に達する。
展開ベンチマークでは、分類作業が難しいにもかかわらず、基準精度を維持または改善し、森林間ビデオでは22から29に、川岸では4から9に向上した。
パークエッジの場合、精度は0.62から0.86に上がり、誤報を11から0に下げる。
これらの結果から、DeepForestVisionV2は、場所、生息地、カメラトラップ設定間のロバスト性を維持しながら、フィールドユーティリティを大幅に改善することが示された。
関連論文リスト
- LLaVA-OneVision-2: Towards Next-Generation Perceptual Intelligence [107.63317552620231]
LLaVA-OneVision-2(LLaVA-OV-2)について述べる。
幅広いマルチモーダルベンチマークで優れたパフォーマンスを実現している。
際立った能力は、ビデオ理解、時間的接地、空間的接地、操作言語推論にまたがる統一的な認識である。
論文 参考訳(メタデータ) (2026-05-25T15:54:04Z) - WildGHand: Learning Anti-Perturbation Gaussian Hand Avatars from Monocular In-the-Wild Videos [68.43355277637882]
本研究では,WildGHandについて紹介する。WildGHandは,自己適応型3Dガウススプラッティングを実現する最適化ベースのフレームワークである。
さらに,多彩な摂動下で撮影された単眼手指ビデオのデータセットを収集し,手指アバター再建のベンチマークを行う。
論文 参考訳(メタデータ) (2026-02-24T05:14:05Z) - Evaluation of deep learning architectures for wildlife object detection: A comparative study of ResNet and Inception [0.0]
本研究では,野生生物検出におけるResNet-101とInception v3の2つの個別ディープラーニングアーキテクチャの有効性について検討した。
モデルは、標準化された前処理アプローチを用いて野生生物の画像データセットで訓練され、評価された。
ResNet-101モデルでは、分類精度は94%、平均精度は0.91で、階層的な特徴を抽出する上で高い性能を示した。
論文 参考訳(メタデータ) (2025-12-17T14:30:47Z) - Zero-Shot Wildlife Sorting Using Vision Transformers: Evaluating Clustering and Continuous Similarity Ordering [0.0]
カメラトラップは何百万もの野生生物の画像を生成するが、多くのデータセットには既存の分類器にはない種が含まれている。
本研究は、自己監督型視覚変換器を用いて、ラベルなし野生生物画像の整理のためのゼロショットアプローチを評価する。
論文 参考訳(メタデータ) (2025-10-16T11:59:18Z) - Benchmark on Monocular Metric Depth Estimation in Wildlife Setting [5.296470528744146]
本研究は,野生生物モニタリング環境におけるモノクラー計量深度推定のための最初のベンチマークを紹介する。
93枚のカメラトラップ画像の幾何学的ベースラインとともに、4つの最先端MDE手法(Depth Anything V2, ML Depth Pro, ZoeDepth, Metric3D)を評価した。
以上の結果から,Depth Anything V2は平均絶対誤差0.454m,相関0.962で最高の総合性能を達成できた。
論文 参考訳(メタデータ) (2025-10-06T11:43:34Z) - Evaluating Deep Learning Models for African Wildlife Image Classification: From DenseNet to Vision Transformers [3.4801331938495705]
アフリカの野生生物は深刻な脅威に直面しており、過去50年間で脊椎動物の数は65%以上減少している。
これに対し,ディープラーニングを用いた画像分類は,生物多様性のモニタリングと保存のための有望なツールとして出現している。
本稿では,アフリカの野生生物画像の自動分類のためのディープラーニングモデルの比較研究を行う。
論文 参考訳(メタデータ) (2025-07-28T22:18:13Z) - ForestVO: Enhancing Visual Odometry in Forest Environments through ForestGlue [13.382183004888715]
我々は4つの構成でSuperPoint特徴検出器を強化したForestGlueを紹介する。
特徴マッチングには、合成森林データで再訓練したLightGlueまたはSuperGlueを用いる。
フレーム間のマッチング2次元画素座標を用いて相対カメラのポーズを推定するフォレストVOを提案する。
論文 参考訳(メタデータ) (2025-04-02T00:20:05Z) - Vision Transformers, a new approach for high-resolution and large-scale
mapping of canopy heights [50.52704854147297]
分類(離散化)と連続損失関数を最適化した新しい視覚変換器(ViT)モデルを提案する。
このモデルは、従来使用されていた畳み込みベースのアプローチ(ConvNet)よりも、連続損失関数のみで最適化された精度が向上する。
論文 参考訳(メタデータ) (2023-04-22T22:39:03Z) - Uncertainty Guided Depth Fusion for Spike Camera [49.41822923588663]
スパイクカメラのための単分子およびステレオ深度推定ネットワークの予測を融合させる新しい不確かさ誘導深度融合(UGDF)フレームワークを提案する。
我々のフレームワークは、ステレオスパイク深さ推定がより近い範囲でより良い結果をもたらすという事実に動機づけられている。
従来のカメラ深度推定よりもスパイク深度推定の利点を示すため、我々はCitySpike20Kというスパイク深度データセットに貢献する。
論文 参考訳(メタデータ) (2022-08-26T13:04:01Z) - Neuroevolution-based Classifiers for Deforestation Detection in Tropical
Forests [62.997667081978825]
森林破壊や荒廃により、毎年何百万ヘクタールもの熱帯林が失われる。
監視・森林破壊検知プログラムは、犯罪者の予防・処罰のための公共政策に加えて、使用されている。
本稿では,熱帯林の森林破壊検出作業におけるニューロ進化技術(NEAT)に基づくパターン分類器の利用を提案する。
論文 参考訳(メタデータ) (2022-08-23T16:04:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。