論文の概要: Towards Imputation of Pre-Trained Language Model Metadata using Semantic Fingerprinting
- arxiv url: http://arxiv.org/abs/2606.21787v1
- Date: Fri, 19 Jun 2026 22:36:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-26 03:17:29.664226
- Title: Towards Imputation of Pre-Trained Language Model Metadata using Semantic Fingerprinting
- Title(参考訳): セマンティックフィンガープリントを用いた事前学習言語モデルメタデータのインプットに向けて
- Authors: Adekunle Ajibode, Oussama Ben Sghaier, Keheliya Gallaba, Bram Adams, Ahmed E. Hassan,
- Abstract要約: Hugging Faceのようなプラットフォーム上でホストされる事前訓練された言語モデル(PTLM)は、ソフトウェア依存グラフに似た複雑な系統構造を形成する。
従来のソフトウェアエコシステムとは異なり、PTLMレポジトリはメタデータの欠如により信頼性に欠けることが多い。
本稿では,Huging Face(HF)設定ファイルとモデルリポジトリタグを組み合わせた軽量なアプローチであるSemantic Fingerprinting(SemFin)を紹介する。
- 参考スコア(独自算出の注目度): 9.039328994118895
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Pre-trained language models (PTLMs) hosted on platforms such as Hugging Face form complex lineage structures similar to software dependency graphs. However, unlike traditional software ecosystems, PTLM repositories often lack reliable provenance due to missing metadata, such as licenses, reuse methods, pipeline tags, model types, and training libraries. To address this gap, we introduce Semantic Fingerprinting (SemFin), a lightweight approach that combines Hugging Face (HF) configuration files with model repository tags to automatically impute missing model metadata fields and reconstruct model lineage chains. We evaluate SemFin on a large-scale dataset of 317,133 PTLMs. Our results show that configuration files typically encode the technical requirements necessary to instantiate and reuse models, enabling them to serve as a structural blueprint for model reuse, particularly for transformer-based architectures. By combining these configuration files with model repository tags, SemFin significantly outperforms the existing propagation-based imputation approaches, improving prediction accuracy by up to 31.4% and 26.6% compared to Graph Avg and Hub Avg baselines. Importantly, SemFin also imputes metadata for 16.6% of isolated models where propagation-based methods fail. Applying SemFin to impute missing reuse-method and license metadata for 167,089 unlabeled models reveals that traceable reuse method chains expand by 75.9% and license lineage chains by 53.6%, uncovering 86 previously invisible reuse method patterns, while the proportion of incompatible license patterns only increases from 34.8% to 36.8%. These findings demonstrate how automatically derived structural signals can support the automated construction of AI Bills of Materials (AIBOMs), helping transform metadata from an error-prone manual declaration into information inferred directly from model artifacts.
- Abstract(参考訳): Hugging Faceのようなプラットフォーム上でホストされる事前訓練された言語モデル(PTLM)は、ソフトウェア依存グラフに似た複雑な系統構造を形成する。
しかし、従来のソフトウェアエコシステムとは異なり、PTLMリポジトリはライセンス、再利用メソッド、パイプラインタグ、モデルタイプ、トレーニングライブラリなどのメタデータが欠けているため、信頼性に欠けることが多い。
このギャップに対処するために、Semantic Fingerprinting(SemFin)という、Hugging Face(HF)設定ファイルとモデルリポジトリタグを組み合わせた軽量なアプローチを紹介します。
317,133個のPTLMの大規模データセット上でSemFinを評価する。
以上の結果から, モデルインスタンス化や再利用に必要な技術的要件をコンフィグレーションファイルにエンコードすることで, モデル再利用, 特にトランスフォーマーベースのアーキテクチャにおいて, モデル再利用のための構造的青写真として機能することを示す。
これらの構成ファイルとモデルリポジトリタグを組み合わせることで、SemFinは既存の伝搬ベースの計算手法よりも大幅に優れ、Graph AvgやHub Avgに比べて予測精度が31.4%、26.6%向上した。
重要なことに、SemFinは、伝搬ベースのメソッドが失敗する独立したモデルの16.6%のメタデータを暗示する。
SemFinを適用して167,089の未ラベルモデルの再利用メソッドとライセンスメタデータを注入すると、トレーサブルな再利用方法チェーンが75.9%拡大し、ライセンス系統チェーンが53.6%拡大し、以前は目に見えない86の再利用方法パターンが発見される一方、互換性のないライセンスパターンの割合は34.8%から36.8%にしか増加しない。
これらの結果は,AI Bills of Materials (AIBOMs) の自動構築を支援する構造信号の自動生成が,エラーが発生しやすい手動宣言からモデルアーチファクトから直接推測される情報へのメタデータ変換を支援することを示す。
関連論文リスト
- MinerU2.5-Pro: Pushing the Limits of Data-Centric Document Parsing at Scale [92.09717763663873]
我々は、データエンジニアリングとトレーニング戦略設計を通じて、純粋に最先端の技術を進化させるMinerU2.5-Proを提案する。
コアとなるのは、カバレッジ、情報性、アノテーションの正確性を中心に設計されたData Engineだ。
我々は,MinerU2.5-Pro が OmniDocBench v1.6 上で 95.69 を達成することを示す。
論文 参考訳(メタデータ) (2026-04-06T15:44:18Z) - Structured Context Engineering for File-Native Agentic Systems: Evaluating Schema Accuracy, Format Effectiveness, and Multi-File Navigation at Scale [0.0]
大規模言語モデルエージェントは、プログラムインターフェイスを介してシステムを操作するようになっている。
しかし、実践者は、これらのエージェントが消費するコンテキストを構造化する方法に関する経験的なガイダンスを欠いている。
11のモデル、4のフォーマット、スキーマ10から10,000のテーブルにわたる9,649の実験を調査した。
論文 参考訳(メタデータ) (2026-02-05T08:39:05Z) - LimiX: Unleashing Structured-Data Modeling Capability for Generalist Intelligence [61.46575527504109]
LimiX-16MとLimiX-2Mは、構造化されたデータを変数と欠落に対する共同分布として扱う。
サンプルサイズ,特徴次元,クラス数,カテゴリ間特徴比,欠落度,サンプル-特徴比の広い11種類の大規模構造化データベンチマークを対象としたLimiXモデルの評価を行った。
論文 参考訳(メタデータ) (2025-09-03T17:39:08Z) - Leveraging Machine Learning and Enhanced Parallelism Detection for BPMN Model Generation from Text [75.77648333476776]
本稿では、テキストからBPMNモデルを抽出する自動パイプラインについて紹介する。
この研究の重要な貢献は、新たに注釈付けされたデータセットの導入である。
モデルトレーニング用の32のパラレルゲートウェイを含む15の注釈付き文書でデータセットを増強する。
論文 参考訳(メタデータ) (2025-07-11T07:25:55Z) - Approximating Language Model Training Data from Weights [70.08614275061689]
モデル重みからデータ近似の問題を定式化し、いくつかのベースラインとメトリクスを提案する。
そこで我々は,大規模公開テキストコーパスから最高のマッチングデータを選択する勾配に基づく手法を開発した。
真のトレーニングデータがない場合でも、我々の方法では、公開Webドキュメントの小さなサブセットを見つけることができる。
論文 参考訳(メタデータ) (2025-06-18T15:26:43Z) - Gradient-Based Model Fingerprinting for LLM Similarity Detection and Family Classification [6.008384763761687]
大規模言語モデル(LLM)は、現代のアプリケーションにおいて重要なソフトウェアコンポーネントである。
類似性検出と家族分類のための勾配型フィンガープリントフレームワークGuardを提示する。
本稿では,ランダムな入力摂動に対する応答を解析することにより,モデル固有の行動シグネチャを抽出する。
広く採用されているセーフテンソルフォーマットをサポートし、勾配特性の統計解析を通じて高次元指紋を構築する。
論文 参考訳(メタデータ) (2025-06-02T13:08:01Z) - SLOT: Structuring the Output of Large Language Models [5.683327173793259]
SLOT(Structured LLM Output Transformer)は,非構造化LCM出力を正確な構造化形式に変換するモデルに依存しない手法である。
この結果から,制約付き復号化による微調整Mistral-7Bモデルでは,ほぼ完全なスキーマ精度が得られた。
特に、Llama-3.2-1Bのようなコンパクトなモデルでさえ、はるかに大きなプロプライエタリなモデルの出力能力にマッチまたは超えることができる。
論文 参考訳(メタデータ) (2025-05-06T23:29:43Z) - REFINE on Scarce Data: Retrieval Enhancement through Fine-Tuning via Model Fusion of Embedding Models [14.023953508288628]
検索拡張生成(RAG)パイプラインは、質問応答(QA)などのタスクで一般的に使用される。
本稿では,利用可能な文書から合成データを生成する新しい手法であるREFINEを提案する。
論文 参考訳(メタデータ) (2024-10-16T08:43:39Z) - Universal Domain Adaptation from Foundation Models: A Baseline Study [58.51162198585434]
基礎モデルを用いた最先端UniDA手法の実証的研究を行った。
CLIPモデルからターゲット知識を抽出するためのパラメータフリーな手法であるtextitCLIP 蒸留を導入する。
単純な手法ではあるが、ほとんどのベンチマークタスクでは従来の手法よりも優れている。
論文 参考訳(メタデータ) (2023-05-18T16:28:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。