論文の概要: Bergson: An Open Source Library for Data Attribution
- arxiv url: http://arxiv.org/abs/2606.11660v1
- Date: Wed, 10 Jun 2026 04:56:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-11 16:42:38.298815
- Title: Bergson: An Open Source Library for Data Attribution
- Title(参考訳): Bergson: データ属性のためのオープンソースライブラリ
- Authors: Lucia Quirke, Louis Jaburi, David Johnston, William Z. Li, Gonçalo Paulo, Guillaume Martres, Girish Gupta, Stella Biderman, Nora Belrose,
- Abstract要約: Bergsonはオープンソースのライブラリで、データ属性の分野での高速な進歩を実現することを目的としている。
本稿では、MAGIC、SOURCE、TrackStarの3つの主要なデータ属性手法のオープンソース実装について紹介する。
- 参考スコア(独自算出の注目度): 14.496043435115867
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Data attribution is a promising field in interpretability that aims to explain model behavior through the influence of its training data, with applications including debugging undesirable model behavior and training dataset curation. However, significant engineering effort is required to perform it at scale, and many cutting edge techniques lack open-source tooling and support. Bergson is an open source library that aims to enable faster progress in the field by providing a host of techniques that scale to very large language models and pre-training datasets. The library natively supports on-disk gradient stores and multi-node distributed training, and provides quality of life tools for researchers. Finally, we introduce the first open-source implementations of three leading data attribution methods: MAGIC, SOURCE, and TrackStar. The library is available at https://github.com/EleutherAI/bergson .
- Abstract(参考訳): データ属性は、望ましくないモデルの振る舞いのデバッグやデータセットのキュレーションを含む、トレーニングデータの影響によってモデルの振る舞いを説明することを目的とした、解釈可能性の有望な分野である。
しかし、大規模な運用には重要なエンジニアリングの努力が必要であり、多くの最先端技術はオープンソースツールやサポートを欠いている。
Bergsonはオープンソースのライブラリで、非常に大きな言語モデルや事前トレーニングデータセットにスケールするテクニックのホストを提供することで、この分野の急速な進歩の実現を目指している。
このライブラリは、オンディスクのグラデーションストアとマルチノード分散トレーニングをネイティブにサポートし、研究者にQOLを提供する。
最後に、MAGIC、SOURCE、TrackStarの3つの主要なデータ属性メソッドの最初のオープンソース実装を紹介する。
ライブラリはhttps://github.com/EleutherAI/bergson.orgで入手できる。
関連論文リスト
- DeepXiv-SDK: An Agentic Data Interface for Scientific Literature [60.19264121557117]
DeepXiv-SDKは科学文献のための3層エージェントデータインタフェースである。
DeepXiv-SDKは完全なArXivコーパスをサポートし、毎日同期して新しいリリースを組み込む。
論文 参考訳(メタデータ) (2026-02-14T23:07:28Z) - Cuvis.Ai: An Open-Source, Low-Code Software Ecosystem for Hyperspectral Processing and Classification [0.4038539043067986]
cuvis.aiは、データ取得、前処理、モデルトレーニングのためのオープンソースでローコードなソフトウェアエコシステムである。
パッケージはPythonで書かれており、一般的な機械学習ライブラリのラッパーを提供する。
論文 参考訳(メタデータ) (2024-11-18T06:33:40Z) - $\texttt{dattri}$: A Library for Efficient Data Attribution [7.803566162554017]
データ属性法は、個々のトレーニングサンプルが人工知能(AI)モデルの予測に与える影響を定量化することを目的としている。
新たなデータ属性メソッドが開発されているにもかかわらず、さまざまなデータ属性メソッドの開発、ベンチマーク、デプロイを容易にする包括的なライブラリが欠如している。
本稿では、上記のニーズに対処するオープンソースのデータ属性ライブラリである、$textttdattri$を紹介します。
論文 参考訳(メタデータ) (2024-10-06T17:18:09Z) - SEART Data Hub: Streamlining Large-Scale Source Code Mining and Pre-Processing [13.717170962455526]
私たちはSEART Data HubというWebアプリケーションを紹介します。これは、公開GitHubリポジトリからマイニングされたコードを特徴とする大規模データセットを簡単に構築し、事前処理できるWebアプリケーションです。
簡単なWebインターフェースを通じて、研究者はマイニング基準と、実行したい特定の前処理ステップを指定できる。
リクエストを提出すると、ユーザは数時間以内に、必要なデータセットのダウンロードリンク付きのメールを受け取る。
論文 参考訳(メタデータ) (2024-09-27T11:42:19Z) - Reproducing Whisper-Style Training Using an Open-Source Toolkit and
Publicly Available Data [75.7383558074758]
本研究はWhisperスタイル音声モデル(OWSM)を提案する。
OWSMはオープンソースツールキットと公開データを使ってWhisperスタイルのトレーニングを再現する。
データ準備、トレーニング、推論、スコアリングに使用されるすべてのスクリプトと、オープンサイエンスを促進するための事前訓練されたモデルとトレーニングログを公開します。
論文 参考訳(メタデータ) (2023-09-25T05:01:34Z) - Avalanche: A PyTorch Library for Deep Continual Learning [12.238684710313168]
継続的な学習は、非定常的なデータストリームから学習する問題である。
AvalancheはContinualAIの非営利団体によって管理されているオープンソースライブラリである。
論文 参考訳(メタデータ) (2023-02-02T10:45:20Z) - PyRelationAL: a python library for active learning research and development [1.0061110876649197]
アクティブラーニング(英: Active Learning, AL)は、反復的かつ経済的にデータを取得する手法の開発に焦点を当てたMLのサブフィールドである。
本稿では,AL研究のためのオープンソースライブラリであるPyRelationALを紹介する。
プールベースのアクティブラーニング戦略を構成するための2段階の設計方法論をベースとしたモジュラーツールキットについて述べる。
論文 参考訳(メタデータ) (2022-05-23T08:21:21Z) - Learning from Multiple Noisy Augmented Data Sets for Better
Cross-Lingual Spoken Language Understanding [69.40915115518523]
トレーニングデータの欠如は、低リソース言語への音声言語理解(SLU)をスケールアウトする上で大きな課題となる。
低リソースターゲット言語でのトレーニングデータを合成するために、様々なデータ拡張手法が提案されている。
本稿では,拡張データにおけるノイズの軽減に焦点をあてる。
論文 参考訳(メタデータ) (2021-09-03T15:44:15Z) - Combining Feature and Instance Attribution to Detect Artifacts [62.63504976810927]
トレーニングデータアーティファクトの識別を容易にする手法を提案する。
提案手法は,トレーニングデータのアーティファクトの発見に有効であることを示す。
我々は,これらの手法が実際にNLP研究者にとって有用かどうかを評価するために,小規模なユーザスタディを実施している。
論文 参考訳(メタデータ) (2021-07-01T09:26:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。