論文の概要: DeepInsight: A Unified Evaluation Infrastructure Across the Physical AI Stack
- arxiv url: http://arxiv.org/abs/2606.17574v1
- Date: Tue, 16 Jun 2026 06:22:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-17 17:15:32.308453
- Title: DeepInsight: A Unified Evaluation Infrastructure Across the Physical AI Stack
- Title(参考訳): DeepInsight: 物理的なAIスタック全体にわたる統一された評価インフラストラクチャ
- Authors: Siyi Li, Chunyu Sun, Jiahao Zhang, Yuchen Kang, Wuliang Wang, Yu Qiu, Rui Jiang, Haitao Cui, Jie Chen,
- Abstract要約: 物理AIスタックの評価は、3桁以上異なる演算子にまたがる。
既存のフレームワークはこの範囲にはないため、スタックは別々のハーネスを縫い合わせることで評価されている。
私たちは、この完全なスペクトルを単一のランタイムで提供する評価インフラストラクチャであるDeepInsightを紹介します。
- 参考スコア(独自算出の注目度): 17.770542038652568
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Evaluating a Physical AI stack spans operators that differ by more than three orders of magnitude -- from a single foundation-model decoding step to thousands of physics ticks of whole-body control -- varying orthogonally in modality, reward semantics, and resource profile. No existing framework spans this range, so the stack is evaluated today by stitching together separate harnesses that share neither runtime nor scoring, preserving each segment's local validity but losing the shared identity needed to diagnose cross-layer regressions. We present DeepInsight, an evaluation infrastructure that serves this full spectrum on a single runtime. Rather than homogenize the regimes, it preserves their heterogeneity behind three narrow abstractions -- task, resource, and result -- each realized as one invariant shared by every subsystem: one episode driver, one resource-handle protocol implemented by every expensive backend (LLM inference and sandboxed runtimes alike), and one trace identity scheme under which every event is written. Deployed in production across all three layers of an embodied humanoid stack, this single set of invariants onboards new benchmarks largely by configuration. Where mature peer orchestrators exist -- at the foundation-model end -- it reproduces published references and peer-framework readings within their own spread, runs the same suites faster on a single node, and scales near-linearly across nodes. Its distinctive return is diagnostic: because every layer writes into one shared trace, a regression that begins in one layer and surfaces in another stays localizable on that trace -- a cross-layer payoff no federation of per-segment harnesses can reproduce.
- Abstract(参考訳): 物理AIスタックの評価は、単一の基礎モデルデコードステップから、全身制御の何千もの物理学のダニまで、桁違いに3桁以上異なる演算子にまたがる。
既存のフレームワークがこの範囲にまたがることはないので、スタックは実行時もスコアも共有しない別々のハーネスを縫い合わせ、各セグメントのローカルな妥当性を保ちながら、層間回帰を診断するために必要な共有IDを失うことで評価される。
私たちは、この完全なスペクトルを単一のランタイムで提供する評価インフラストラクチャであるDeepInsightを紹介します。
それぞれが,すべてのサブシステムで共有される1つの不変量 – ひとつのエピソードドライバ,高価なバックエンド(LLM推論やサンドボックスランタイムなど)で実装された1つのリソースハンドルプロトコル,すべてのイベントが記述される1つのトレースIDスキーム – として実現されている。
具体化されたヒューマノイドスタックの3つのレイヤにまたがって本番環境にデプロイされるこの単一の不変セットは、主に構成によって新しいベンチマークに載っている。
成熟したピアオーケストレータが存在する -- ファンデーション・モデル・エンド -- は、公開参照とピア・フレームの読み込みを自身のスプレッド内で再現し、単一のノード上で同じスイートを高速に実行し、ノード間でほぼ直線的にスケールする。
すべてのレイヤがひとつの共有トレースに書き込むため、別のレイヤで始まる回帰は、そのトレース上でローカライズできる。
関連論文リスト
- SegVG: Transferring Object Bounding Box to Segmentation for Visual Grounding [56.079013202051094]
ボックスレベルのアノテーションを信号として転送する新しい手法であるSegVGを提案する。
このアプローチでは,ボックスレベルのレグレッションとピクセルレベルのセグメンテーションの両方の信号としてアノテーションを反復的に利用することができる。
論文 参考訳(メタデータ) (2024-07-03T15:30:45Z) - SCVCNet: Sliding cross-vector convolution network for cross-task and
inter-individual-set EEG-based cognitive workload recognition [15.537230343119875]
本稿では,脳波パターンを利用した認知作業量認識装置の汎用的手法を提案する。
パワースペクトル密度の微細な周波数構造を解析することにより,脳波のタスクおよび個々のセットに関する干渉を除去するSCVCNetというニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2023-09-21T13:06:30Z) - Transformer Based Multi-Grained Features for Unsupervised Person
Re-Identification [9.874360118638918]
視覚変換器(ViT)を改良したデュアルブランチネットワークアーキテクチャを構築した。
各ブランチで出力されるローカルトークンをリフォームし、その後一様に複数のストライプに分割して、部分レベルの特徴を生成する。
2つのブランチのグローバルトークンは、グローバル機能を生成するために平均化されます。
論文 参考訳(メタデータ) (2022-11-22T13:51:17Z) - Decoupled Multi-task Learning with Cyclical Self-Regulation for Face
Parsing [71.19528222206088]
顔解析のための周期的自己統制型デカップリング型マルチタスク学習を提案する。
具体的には、DML-CSRは、顔解析、バイナリエッジ、カテゴリエッジ検出を含むマルチタスクモデルを設計する。
提案手法は,Helen,CelebA-HQ,LapaMaskのデータセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2022-03-28T02:12:30Z) - A Unified Transformer Framework for Group-based Segmentation:
Co-Segmentation, Co-Saliency Detection and Video Salient Object Detection [59.21990697929617]
人間は、ダイナミックな世界に住んでいるので、画像のグループやビデオのフレームから学ぶことによってオブジェクトをマイニングする傾向があります。
従来のアプローチでは、類似したタスクで異なるネットワークを個別に設計するが、互いに適用するのは困難である。
UFO(UnifiedObject Framework for Co-Object Framework)という,これらの問題に対処するための統一フレームワークを導入する。
論文 参考訳(メタデータ) (2022-03-09T13:35:19Z) - Mitigating Generation Shifts for Generalized Zero-Shot Learning [52.98182124310114]
一般化ゼロショット学習(英: Generalized Zero-Shot Learning、GZSL)は、学習中に見知らぬクラスが観察できない、見つからないサンプルを認識するために意味情報(属性など)を活用するタスクである。
本稿では,未知のデータ合成を効率よく,効率的に学習するための新しい生成シフト緩和フローフレームワークを提案する。
実験結果から,GSMFlowは従来のゼロショット設定と一般化されたゼロショット設定の両方において,最先端の認識性能を実現することが示された。
論文 参考訳(メタデータ) (2021-07-07T11:43:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。