論文の概要: OpenGlass: Ultra-Low-Power On-Device AI Eyewear with Event-based Vision
- arxiv url: http://arxiv.org/abs/2606.07431v2
- Date: Mon, 08 Jun 2026 14:50:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:05.078535
- Title: OpenGlass: Ultra-Low-Power On-Device AI Eyewear with Event-based Vision
- Title(参考訳): OpenGlass:イベントベースのビジョンを備えた超低消費電力のオンデバイスAIアイウェア
- Authors: Pietro Bonazzi, Julian Moosmann, Ahmet Celik, Philipp Mayer, Michele Magno,
- Abstract要約: この研究は、新しいセンサーとアルゴリズムを迅速にプロトタイピングするためのオープンソースのスマートグラスプラットフォームを導入する。
モジュラーデザインはフレキシブルなFPCインターポーザを使用して、完全なPCBなしでイベントベースのカメラとフレームベースのカメラの両方をサポートする。
プロトタイプは200mAhのバッテリーで11.5時間連続したデバイス上でのMLを実現する。
- 参考スコア(独自算出の注目度): 8.93031966791759
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Smart eyewear enables unobtrusive, context-aware interaction through multimodal sensors and on-device intelligence, but is severely limited by power, memory, and compute constraints in a compact form factor. Open-hardware platforms supporting event-based vision and embedded ML at this scale are rare. This work introduces an open-source smart glasses platform for rapid prototyping of novel sensors and algorithms. Its modular design uses a flexible FPC interposer to support both event-based and frame-based cameras without full PCB redesign. A hardware-software co-designed power management system combines a configurable PMIC with event-driven wake-up via an nRF5340 coordinator, keeping the GAP9 RISC-V SoC powered down between inferences. The prototype achieves up to 11.5 hours of continuous on-device ML from a 200 mAh battery. As a demonstration, an egocentric hand gesture recognition pipeline was evaluated on the LynX dataset using polarity-separated event histograms from a Prophesee GENX320 camera. R(2+1)D achieved the best cross-subject accuracy of 83.94\% (macro F1 = 0.781) under leave-two-subjects-out validation, with 78.3 ms end-to-end inference latency on the GAP9. Temporal augmentation and removal of ambiguous classes provided the largest gains (+8.9 pp). All hardware designs, firmware, and models are released open source.
- Abstract(参考訳): スマートアイウェアは、マルチモーダルセンサーやデバイス上のインテリジェンスを通じて、邪魔にならないコンテキスト対応のインタラクションを可能にする。
イベントベースのビジョンと組み込みMLをこの規模でサポートするオープンソースプラットフォームは珍しい。
この研究は、新しいセンサーとアルゴリズムを迅速にプロトタイピングするためのオープンソースのスマートグラスプラットフォームを導入する。
モジュラーデザインでは、フレキシブルなFPCインターポーザを使用して、イベントベースのカメラとフレームベースのカメラの両方を、完全なPCBの再設計なしでサポートしている。
ハードウェアとソフトウェアが共同設計した電力管理システムは、設定可能なPMICとNRF5340コーディネータを介してイベント駆動の起動を組み合わせ、GAP9 RISC-V SoCを推論の間に電源を供給し続ける。
プロトタイプは200mAhのバッテリーで11.5時間連続したデバイス上でのMLを実現する。
実演として、Prophesee GENX320カメラの偏極分離イベントヒストグラムを用いて、LynXデータセット上で、エゴセントリックな手振り認識パイプラインを評価した。
R(2+1)D は 83.94\% (macro F1 = 0.781) の最良のクロスオブジェクト精度を実現し、GAP9 では78.3 ms のエンドツーエンドの推論遅延を実現した。
時間的増大と曖昧なクラス除去は最大の利益(+8.9 pp)をもたらした。
すべてのハードウェア設計、ファームウェア、モデルはオープンソースとしてリリースされている。
関連論文リスト
- Tiny Collaborative Inference for Occlusion-Robust Object Detection [0.5352699766206808]
検索と救助のためのエッジAIノードは、コンピュータビジョンをローカルで実行することがますます期待されている。
ウルトラローエンドハードウェアは、メモリ、計算、デバイス間通信に厳しい制約を課す。
本研究は、MCUバックボーン、YOLOv2検出ヘッド、Lite量子化を組み合わせることで、1MB未満の閉塞物検出装置に対処する。
論文 参考訳(メタデータ) (2026-06-01T21:10:08Z) - Efficient Sensor Fusion for Gesture Recognition on Resource-Constrained Devices [0.0]
従来のビジョンベースのアプローチでは、消費電力、計算レイテンシ、ユーザのプライバシに関する課題に直面している。
本稿では,低分解能のTime-of-Flight(ToF)と赤外線(IR)熱センサを融合した軽量・プライバシー保護型ジェスチャー認識システムを提案する。
特殊なグループ畳み込みアーキテクチャを持つコンパクトな畳み込みニューラルネットワーク(CNN)は、マイクロコントローラ上でこれらのモダリティを効率的に融合させるように設計されている。
論文 参考訳(メタデータ) (2026-05-13T12:53:22Z) - STEP3-VL-10B Technical Report [115.89015065130127]
STEP3-VL-10Bは、コンパクト効率とフロンティアレベルのマルチモーダルインテリジェンスとのトレードオフを再定義する軽量基盤モデルである。
そこで我々はPallel Coordinated Reasoning(PaCoRe)を実装して,テスト時間計算をスケールし,リソースをスケーラブルな知覚推論に割り当てる。
MMBenchでは92.2%、MMMUでは80.11%、AIME2025では94.43%、MathVisionでは75.95%である。
論文 参考訳(メタデータ) (2026-01-14T17:58:24Z) - StrikeWatch: Wrist-worn Gait Recognition with Compact Time-series Models on Low-power FPGAs [10.946464973530214]
歩行パターンが良くなると、特に専門家のフィードバックなしに怪我につながることがある。
Wrist-wornウェアラブルは、実用的で非侵襲的な代替手段を提供する。
本稿では,デバイス上でリアルタイム歩行認識を行う小型手首輪システムであるStrikeWatchを紹介する。
論文 参考訳(メタデータ) (2025-10-14T20:28:31Z) - Tiny but Mighty: A Software-Hardware Co-Design Approach for Efficient Multimodal Inference on Battery-Powered Small Devices [12.40080721078945]
大規模マルチモーダルモデル (LMM) は、視覚とオーディオエンコーダ、プロジェクタ、および大きな言語モデルからなる、本質的にモジュラーである。
しかし、それらはほとんど常にモノリシックに実行され、不均一な加速器を弱めている。
大規模マルチモーダルモデル(LMM)のためのハードウェア-ソフトウェア共設計推論フレームワークを提案する。
このフレームワークは、大規模なモデルをモジュラーコンポーネントに分割し、最も適切な計算ユニットで実行する予定である。
論文 参考訳(メタデータ) (2025-09-25T22:28:44Z) - FastPillars: A Deployment-friendly Pillar-based 3D Detector [63.0697065653061]
既存のBEVベースの(つまりバードアイビュー)検出器は、トレーニングと推論を高速化するためにスパース・コンボリューション(SPConv)を好む。
FastPillarsは、CenterPoint(SPConvベース)よりも1.8倍のスピードアップと3.8mAPH/L2の改善で、Openデータセットの最先端の精度を提供する
論文 参考訳(メタデータ) (2023-02-05T12:13:27Z) - FastFlowNet: A Lightweight Network for Fast Optical Flow Estimation [81.76975488010213]
ディセンス光学フロー推定は、多くのロボットビジョンタスクで重要な役割を果たしています。
現在のネットワークはしばしば多くのパラメータを占有し、計算コストがかかる。
提案したFastFlowNetは、周知の粗大なやり方で、以下のイノベーションで機能する。
論文 参考訳(メタデータ) (2021-03-08T03:09:37Z) - ASFD: Automatic and Scalable Face Detector [129.82350993748258]
ASFD(Automatic and Scalable Face Detector)を提案する。
ASFDはニューラルアーキテクチャ検索技術の組み合わせと新たな損失設計に基づいている。
ASFD-D0は120FPS以上で動作し、MobilenetはVGA解像度の画像を撮影しています。
論文 参考訳(メタデータ) (2020-03-25T06:00:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。