論文の概要: Generate with CodeXHug: A Dataset to Enhance Model Cards with Code Usage Patterns
- arxiv url: http://arxiv.org/abs/2606.23329v1
- Date: Mon, 22 Jun 2026 13:39:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-24 22:31:29.954259
- Title: Generate with CodeXHug: A Dataset to Enhance Model Cards with Code Usage Patterns
- Title(参考訳): CodeXHugで生成する:コード使用パターンでモデルカードを拡張
- Authors: Stefano Palombo, Claudio Di Sipio, Juri Di Rocco, Davide Di Ruscio,
- Abstract要約: 事前訓練されたモデル(PTM)は、ソフトウェアエンジニアリングコミュニティでますます人気を集めています。
それらの多くはおもちゃのプロジェクトや単にHFリポジトリのミラーとして使われています。
本稿では,Githubエコシステムで活用されているHuggingFace PTMのキュレートされたデータセットであるCodeXHugを紹介する。
- 参考スコア(独自算出の注目度): 4.036517187104569
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Pre-trained models (PTMs) are becoming increasingly popular in the software engineering community. Their usage is facilitated by model repositories, e.g., HuggingFace, which collect, store, and maintain a wide range of PTMs. However, the actual adoption of these models in real-world projects is still an open question, i.e., many of them are used in toy projects or simply as a mirror for the HF repository. In addition, most of the available model cards and textual documents that contain critical information about their usage do not include explanatory code patterns, thus increasing the difficulty for newcomers. Thus, we see the need for a curated codebase related to PTMs to support developers and practitioners who are interested in using them in their projects. In this paper, we present CodeXHug, a curated dataset of HuggingFace PTMs exploited in the Github ecosystem and the related code usage patterns. Starting from the latest HF dump, we first conduct a data curation to collect PTMs with a tag and a model card. Then, the Github platform has been queried to find actual usages of the identified PTMs, resulting in 7,325 different models and 20,545 Python files. To demonstrate a concrete application of CodeXHug, we propose a usage scenario focused on extracting representative code usage patterns for specific PTMs through a statistical analysis and clustering techniques applied to relevant code snippets.
- Abstract(参考訳): 事前訓練されたモデル(PTM)は、ソフトウェアエンジニアリングコミュニティでますます人気を集めています。
それらの利用はモデルリポジトリ、例えばHuggingFaceによって促進され、幅広い PTM を収集し、保存し、維持する。
しかし、これらのモデルを現実のプロジェクトで実際に採用することは、まだ未解決の問題であり、おもちゃプロジェクトや単にHFリポジトリのミラーとして使われている。
さらに、利用可能なモデルカードやそれらの使用に関する重要な情報を含むテキスト文書の多くは、説明的なコードパターンを含まないため、新参者にとって難易度が高まる。
このようにして、プロジェクトでそれを使用することに興味がある開発者や実践者を支援するために、PTMに関連するキュレートされたコードベースが必要であると考えています。
本稿では,Githubエコシステムと関連するコード利用パターンを利用したHuggingFace PTMのキュレートデータセットであるCodeXHugを紹介する。
最新のHFダンプから始めると、まずデータキュレーションを行い、タグとモデルカードでPTMを収集する。
その後、Githubプラットフォームは、特定されたPTMの実際の使用方法を見つけるためにクエリされ、7,325の異なるモデルと20,545のPythonファイルが生成される。
CodeXHugの具体的な応用を実証するために,関連するコードスニペットに適用した統計解析とクラスタリング手法を用いて,特定のPTMの代表的なコード利用パターンを抽出することを目的とした利用シナリオを提案する。
関連論文リスト
- Figma2Code: Automating Multimodal Design to Code in the Wild [85.29510079067464]
我々はFigma2Codeを紹介した。Figma2Codeは、デザインからコードへ、マルチモーダルな設定に進化させる新しいタスクである。
我々はFigmaコミュニティからペアデザインイメージとそのメタデータファイルを収集する。
このプロセスは3,055個のサンプルを生成し、そこからデザイナーは213の高品質なケースのバランスのとれたデータセットをキュレートする。
論文 参考訳(メタデータ) (2026-04-15T09:17:09Z) - Software Dependencies 2.0: An Empirical Study of Reuse and Integration of Pre-Trained Models in Open-Source Projects [9.22889135297242]
事前訓練されたモデル(PTM)は、前もってトレーニングされた機械学習モデルであり、しばしば大規模データに基づいており、新しいタスクのために再利用することができる。
Software Dependencies 2.0は、Software Dependencies 2.0という、ソフトウェア依存の新しいクラスを導入します。
論文 参考訳(メタデータ) (2025-09-07T15:00:22Z) - How do Pre-Trained Models Support Software Engineering? An Empirical Study in Hugging Face [52.257764273141184]
オープンソースの事前訓練モデル(PTM)は、さまざまな機械学習(ML)タスクに広範なリソースを提供する。
これらのリソースには、ソフトウェア工学(SE)のニーズに合わせた分類がない。
私たちは147のSEタスクを含む分類法を導き、人気のあるオープンソースMLリポジトリであるHugging Face (HF)において、SE指向の分類をPTMに適用する。
PTMではコード生成が最も一般的なSEタスクであるのに対して、要件エンジニアリングとソフトウェア設計のアクティビティは限定的な注目を集めている。
論文 参考訳(メタデータ) (2025-06-03T15:51:17Z) - Towards a Classification of Open-Source ML Models and Datasets for Software Engineering [52.257764273141184]
オープンソースの事前訓練モデル(PTM)とデータセットは、さまざまな機械学習(ML)タスクに広範なリソースを提供する。
これらのリソースには、ソフトウェア工学(SE)のニーズに合わせた分類がない。
我々は、人気のあるオープンソースのMLリポジトリであるHugging Face (HF)上で、SE指向の分類をPTMとデータセットに適用し、時間とともにPTMの進化を分析する。
論文 参考訳(メタデータ) (2024-11-14T18:52:05Z) - Automated categorization of pre-trained models for software engineering: A case study with a Hugging Face dataset [9.218130273952383]
ソフトウェアエンジニアリング活動は、事前訓練されたモデル(PTM)の出現によって革新した。
Hugging Face (HF)プラットフォームは、いくつかのモデルを収集、保存、キュレーションすることで、PTMの使用を単純化する。
本稿では,SEタスクに対するPTMの自動分類を実現するためのアプローチを提案する。
論文 参考訳(メタデータ) (2024-05-21T20:26:17Z) - A Review of Modern Recommender Systems Using Generative Models (Gen-RecSys) [57.30228361181045]
この調査は、ジェネレーティブモデル(Gen-RecSys)を用いたレコメンデーションシステムにおける重要な進歩を結びつける。
対話駆動生成モデル、自然言語レコメンデーションのための大規模言語モデル(LLM)とテキストデータの使用、RSにおける画像やビデオの生成と処理のためのマルチモーダルモデルの統合。
我々の研究は、Gen-RecSysの影響と害を評価するために必要なパラダイムを強調し、オープンな課題を特定します。
論文 参考訳(メタデータ) (2024-03-31T06:57:57Z) - PeaTMOSS: A Dataset and Initial Analysis of Pre-Trained Models in
Open-Source Software [6.243303627949341]
本稿では,281,638PTMのメタデータと全PTMの詳細なスナップショットを含むPeaTMOSSデータセットを提案する。
データセットには15,129のダウンストリームGitHubリポジトリから2,530のPTMへの44,337のマッピングが含まれている。
我々の分析は、PTMサプライチェーンに関する最初の要約統計を提供し、PTM開発の動向とPTMパッケージドキュメンテーションの共通の欠点を示している。
論文 参考訳(メタデータ) (2024-02-01T15:55:50Z) - Unifying the Perspectives of NLP and Software Engineering: A Survey on Language Models for Code [24.936022005837415]
我々は、70以上のモデル、40以上の評価タスク、180以上のデータセット、900以上の関連する作業を含む、言語モデルによるソフトウェア工学の最近の進歩についてレビューする。
私たちは、コード処理モデルを、GPTファミリで表される一般的な言語モデルと、特にコードで事前訓練された特殊なモデルに分解します。
また、要件エンジニアリング、テスト、デプロイメント、オペレーションを含む他のソフトウェアエンジニアリング活動において、LCMのアプリケーションをプログラミングし、レビューする余地もあります。
論文 参考訳(メタデータ) (2023-11-14T08:34:26Z) - ZhiJian: A Unifying and Rapidly Deployable Toolbox for Pre-trained Model
Reuse [59.500060790983994]
本稿では、PyTorchバックエンドを利用して、モデル再利用のための包括的でユーザフレンドリなツールボックスであるZhiJianを紹介する。
ZhiJianは、PTMによるターゲットアーキテクチャ構築、PTMによるターゲットモデルチューニング、およびPTMに基づく推論を含む、モデル再利用に関するさまざまな視点を統一する新しいパラダイムを提示している。
論文 参考訳(メタデータ) (2023-08-17T19:12:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。