論文の概要: EEG Benchmarking Needs a Task Specification Layer: NeuroDoc for Rulebook-Guided, Executable Benchmark Construction
- arxiv url: http://arxiv.org/abs/2606.22925v1
- Date: Mon, 22 Jun 2026 07:02:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-25 03:34:25.407357
- Title: EEG Benchmarking Needs a Task Specification Layer: NeuroDoc for Rulebook-Guided, Executable Benchmark Construction
- Title(参考訳): EEGベンチマークはタスク仕様レイヤを必要とする:ルールブックをガイドし、実行可能なベンチマーク構築のためのNeuroDoc
- Authors: Chengxuan Qin, Zhige Chen, Shu Peng, Rui Yang, Jiping Cui, Yikai Dong, Jun Li, Liu Peng, Zhida Shang, Mingze Tang, Kay Chen Tan, Jibin Wu,
- Abstract要約: 我々は、53の完了と245のタスク定義によるエントリのレビューを中心に、コミュニティがレビューしたEEGベンチマークコーパスをリリースする。
本稿では,ルールブックによるドラフト,アップグレード,レビュー,修正,リリース管理のための運用支援レイヤとしてNeuroDocとNeuroAuditを紹介する。
- 参考スコア(独自算出の注目度): 25.115785940231387
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Electroencephalography (EEG) foundation models increasingly rely on multi-dataset training and evaluation, yet public EEG datasets still lack a shared task specification layer that can turn heterogeneous recordings into reusable benchmark units. Existing standards organize files, metadata, and provenance, but they do not specify EEG tasks under a common language and rulebook, leaving critical task semantics scattered across papers, code, and manual interpretation. We investigate whether heterogeneous public EEG datasets can be standardized through a structured task specification language paired with a shared rulebook. Our methodology represents each benchmark entry as a task document synchronized with an executable task kernel, with the rulebook defining task fields, evidence requirements, document-kernel alignment, review states, and machine-checkable constraints. Using this methodology, we release a community-reviewed EEG benchmark corpus centered on 53 completed and reviewed entries with 245 task definitions spanning diverse paradigms, and we introduce NeuroDoc and NeuroAudit as the operational support layer for rulebook-guided drafting, upgrading, review, amendment, and release management. We further examine whether the resulting benchmark units can be instantiated in a shared downstream setting across four EEG foundation model backbones, providing execution-based evidence for reusable, auditable, and executable EEG benchmarking infrastructure.
- Abstract(参考訳): 脳波基礎モデル(EEG)は、マルチデータセットのトレーニングと評価にますます依存しているが、パブリックなEEGデータセットには、不均一な記録を再利用可能なベンチマーク単位に変換するための共有タスク仕様層がない。
既存の標準はファイル、メタデータ、証明を整理するが、共通言語やルールブックではEEGタスクを指定せず、重要なタスクセマンティクスは文書、コード、手動の解釈に散らばっている。
我々は、共有ルールブックと組み合わせた構造化タスク仕様言語を用いて、異種公共脳波データセットを標準化できるかどうかを検討する。
本手法は,各ベンチマーク項目をタスクフィールド,エビデンス要件,文書カーネルアライメント,レビュー状態,マシンチェック可能な制約などを定義し,実行可能なタスクカーネルと同期したタスクドキュメントとして表現する。
本手法を用いて,多様なパラダイムにまたがる245のタスク定義を備えた53の完成とレビューを主眼とするコミュニティレビュー型EEGベンチマークコーパスを公開し,ルールブックによるドラフト作成,アップグレード,レビュー,修正,リリース管理のための運用支援レイヤとしてNeuroDocとNeuroAuditを紹介した。
さらに、得られたベンチマークユニットが、4つのEEGファンデーションモデルバックボーン間で共有下流設定でインスタンス化可能であるかどうかを検証し、再利用可能な、監査可能な、実行可能なEEGベンチマークインフラストラクチャの実行ベースの証拠を提供する。
関連論文リスト
- OmniEEG-Bench: A Standardized Evaluation Benchmark for EEG Foundation Models [22.964421663748755]
我々は,脳波基礎モデル(FM)のための統一ベンチマークとダウンストリームタスクロードマップであるOmniEEG-Benchを紹介する。
脳波FMの評価を、(i)信号信頼性、(ii)生体計測と疾患、(iii)意識と状態、(iv)認知と感情、(v)自然主義的刺激復号、(vi)運動と相互作用の6つのタスクファミリーに分類する。
代表的なEEGファンデーションモデル10をベンチマークし、さまざまな評価設定をカバーするリーダーボードを報告します。
論文 参考訳(メタデータ) (2026-05-30T17:20:04Z) - An Organization-Scoped LLM Agent Runtime Architecture for Regulated Cybersecurity Operations [0.3013679260442808]
規制されたサイバーセキュリティは、組織レベルの範囲を強制するランタイム基板を欠いている。
最近の大規模言語モデル(LLM)エージェントシステムは、孤立したサイバーセキュリティタスクに対して強い結果を報告している。
本稿では,金融サイバーセキュリティのための組織スコープ型エージェントランタイムアーキテクチャを提案する。
論文 参考訳(メタデータ) (2026-05-28T21:51:38Z) - PRIMA: Operational Patterns for Resilient Multi-Agent Research with Verifiable Identity and Convergent Feedback [0.0]
PRIMAは、複数時間にわたる協調型マルチエージェント研究システムとして運用されている。
主なコントリビューションは、生存可能な障害モードのための3つの運用パターンである。
グラフ同型ケーススタディは、生成されたアーティファクトのアーキテクチャ的クレームを根拠にしている。
論文 参考訳(メタデータ) (2026-05-23T23:27:46Z) - One-Eval: An Agentic System for Automated and Traceable LLM Evaluation [10.701916838477187]
One-Evalは、自然言語要求を実行可能な評価に変換するエージェント評価システムである。
One-Evalは、産業環境でより効率的で再現可能な評価をサポートする。
論文 参考訳(メタデータ) (2026-03-10T15:45:51Z) - Model Editing for New Document Integration in Generative Information Retrieval [110.90609826290968]
生成検索(GR)は文書識別子(docID)の生成として情報検索(IR)タスクを再構成する
既存のGRモデルは、新たに追加されたドキュメントへの一般化が不十分で、しばしば正しいドキュメントIDを生成できない。
DOMEは,GRモデルを非表示文書に効果的かつ効率的に適応する新しい手法である。
論文 参考訳(メタデータ) (2026-03-03T09:13:38Z) - Exploring Structural Complexity in Normative RAG with Graph-based approaches: A case study on the ETSI Standards [3.4765379241536465]
本稿では,標準文書,標準文書,規制文書に対する高性能RAGソリューション構築のためのグラフRAGアーキテクチャの有効性について検討する。
この知識ギャップを解決するために,標準文書と規制文書のユニークな構造と語彙的特徴に合わせた特殊なRAG手法を提案する。
論文 参考訳(メタデータ) (2026-01-31T17:00:43Z) - GEO-Bench-2: From Performance to Capability, Rethinking Evaluation in Geospatial AI [52.13138825802668]
GeoFMは地球観測を変革しているが、評価には標準化されたプロトコルが欠けている。
GEO-Bench-2は、分類、セグメンテーション、回帰、オブジェクト検出、インスタンスセグメンテーションにまたがる包括的なフレームワークでこの問題に対処する。
GEO-Bench-2のコード、データ、およびリーダーボードは、パーミッシブライセンスの下で公開されている。
論文 参考訳(メタデータ) (2025-11-19T17:45:02Z) - Beyond Isolated Dots: Benchmarking Structured Table Construction as Deep Knowledge Extraction [80.88654868264645]
Arranged and Organized extract Benchmarkは、断片化された文書を理解するための大規模言語モデルの能力を評価するために設計された。
AOEには3つの異なるドメインにまたがる11のタスクが含まれており、さまざまな入力クエリに適したコンテキスト固有のスキーマを生成するモデルが必要である。
結果は、最も先進的なモデルでさえ、かなり苦労したことを示している。
論文 参考訳(メタデータ) (2025-07-22T06:37:51Z) - The Power of Summary-Source Alignments [62.76959473193149]
多文書要約(MDS)は難しい課題であり、しばしばサリエンスと冗長性検出のサブタスクに分解される。
参照要約とそのソース文書間の対応する文のアライメントを利用して、トレーニングデータを生成する。
本稿では,よりきめ細かな提案スパンレベルで適用することで,要約ソースアライメントフレームワークを拡張することを提案する。
論文 参考訳(メタデータ) (2024-06-02T19:35:19Z) - Language Models As Semantic Indexers [78.83425357657026]
本稿では,ジェネレーティブ言語モデルを用いてセマンティックIDを学習するための自己教師型フレームワークLMIndexerを紹介する。
学習したIDの質を検証し,推奨,製品検索,文書検索の3つの課題において有効性を示す。
論文 参考訳(メタデータ) (2023-10-11T18:56:15Z) - SPECTER: Document-level Representation Learning using Citation-informed
Transformers [51.048515757909215]
SPECTERは、Transformer言語モデルの事前学習に基づいて、科学文書の文書レベルの埋め込みを生成する。
SciDocsは、引用予測から文書分類、レコメンデーションまでの7つの文書レベルのタスクからなる新しい評価ベンチマークである。
論文 参考訳(メタデータ) (2020-04-15T16:05:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。