論文の概要: Which Models Are Our Models Built On? Auditing Invisible Dependencies in Modern LLMs
- arxiv url: http://arxiv.org/abs/2606.12385v1
- Date: Wed, 10 Jun 2026 17:47:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-11 16:42:38.607187
- Title: Which Models Are Our Models Built On? Auditing Invisible Dependencies in Modern LLMs
- Title(参考訳): どのモデルが構築されているのか? 現代のLLMにおける不可視的依存の検証
- Authors: Sanjay Adhikesaven, Haoxiang Sun, Sewon Min,
- Abstract要約: 本稿では,公開成果物から依存グラフを再構築するシステムであるModSleuthを紹介する。
ModSleuthを4つのパブリックアーティファクトリッチLLMリリースに適用し、ソース検証された1060の依存関係を復元し、大規模な依存性グラフを構築する。
これらのグラフは、マルチホップライセンスの義務、トレイン評価の結合、リリースとトレーニングタイムのアーティファクトの相違、ドキュメントの不整合を明らかにします。
- 参考スコア(独自算出の注目度): 21.170181670676566
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern LLM training pipelines increasingly rely on other models to generate data, filter corpora, judge outputs, and guide development decisions. These dependencies are recursive: a model may depend on an upstream artifact whose own dependencies are documented only in separate releases and artifacts. As a result, the full dependency structure is fragmented across heterogeneous public artifacts, with complexity and recursive depth far outpacing humans' ability to trace. We introduce ModSleuth, an agentic system that recursively reconstructs LLM dependency graphs from public artifacts with source-grounded evidence. We find that the primary challenge is no longer information extraction, but defining what constitutes a dependency and reconciling artifact references across inconsistent documentation. We address these challenges through a formalization that distinguishes direct and indirect dependencies, represents heterogeneous pipeline roles through operation-centered relationships, and resolves artifact identities across names, versions, and repositories. Applying ModSleuth to four public-artifact-rich LLM releases, we recover 1,060 source-verified dependencies and construct large-scale dependency graphs of modern LLM development. These graphs reveal multi-hop license obligations, train-evaluation coupling, discrepancies between released and training-time artifacts, and documentation inconsistencies that would otherwise be difficult to uncover. We release ModSleuth and the resulting dependency graphs to support transparent analysis of the increasingly complex ecosystems underlying modern LLMs.
- Abstract(参考訳): 現代のLLMトレーニングパイプラインは、データの生成、コーパスのフィルタリング、アウトプットの判断、開発決定のガイドなど、他のモデルに依存している。
モデルは、独立したリリースとアーティファクトでのみドキュメント化されている上流のアーティファクトに依存します。
その結果、完全な依存構造は、複雑で再帰的な深さが人類の追跡能力をはるかに上回る、異質な公的な人工物で断片化されている。
本稿では,LLM依存グラフを公開アーティファクトから再帰的に再構築するエージェントシステムであるModSleuthを紹介する。
最大の課題は、もはや情報抽出ではなく、依存関係を構成するものを定義し、一貫性のないドキュメント間でアーティファクト参照を調整することにある。
直接的な依存関係と間接的な依存関係を区別し、オペレーション中心の関係を通じて異種パイプラインの役割を表現し、名前、バージョン、リポジトリ間のアーティファクトのアイデンティティを解決する形式化を通じて、これらの課題に対処する。
ModSleuth を4つのパブリックアーティファクトリッチ LLM リリースに適用し,1,060 のソース検証依存性を復元し,現代的な LLM 開発のための大規模依存性グラフを構築する。
これらのグラフは、マルチホップライセンスの義務、トレイン評価の結合、リリースとトレーニングタイムのアーティファクトの相違、そしてそれ以外は発見が難しいドキュメントの不整合を明らかにします。
我々はModSleuthと結果の依存性グラフをリリースし、現代のLLMの基盤となる、ますます複雑なエコシステムの透過的な分析をサポートする。
関連論文リスト
- Large Language Model Sourcing: A Survey [84.63438376832471]
大規模言語モデル(LLM)は人工知能に革命をもたらし、目的的タスクのサポートから主観的な意思決定の強化へと移行した。
LLMのブラックボックスの性質と生成したコンテンツの人間的品質のため、幻覚、偏見、不公平さ、著作権侵害などの問題が重要になる。
本研究は,4つの相互関連次元を中心に整理されたLCMによるコンテンツの出所追跡について,系統的研究を行った。
論文 参考訳(メタデータ) (2025-10-11T10:52:30Z) - GRIL: Knowledge Graph Retrieval-Integrated Learning with Large Language Models [59.72897499248909]
本稿では,Large Language Models (LLM) を用いたエンドツーエンド学習のための新しいグラフ検索手法を提案する。
抽出したサブグラフでは, 構造的知識と意味的特徴をそれぞれ軟式トークンと言語化グラフで符号化し, LLMに注入する。
提案手法は、複雑な推論タスクに対する結合グラフ-LLM最適化の強みを検証し、最先端の性能を一貫して達成する。
論文 参考訳(メタデータ) (2025-09-20T02:38:00Z) - DeepSieve: Information Sieving via LLM-as-a-Knowledge-Router [57.28685457991806]
DeepSieveはエージェントRAGフレームワークで、LLM-as-a-knowledge-routerを介して情報を収集する。
我々の設計はモジュール性、透明性、適応性を重視しており、エージェントシステム設計の最近の進歩を活用している。
論文 参考訳(メタデータ) (2025-07-29T17:55:23Z) - LLM-Driven Collaborative Model for Untangling Commits via Explicit and Implicit Dependency Reasoning [15.20947984949809]
コミット回避のための新しいコラボレーティブコンサルテーションフレームワークであるColaUntangleを提案する。
ColaUntangleは、LLM(Large Language Model)駆動エージェントをマルチエージェントアーキテクチャに統合する。
広く使われている2つのデータセット(1,612 C#と14k Java tangledコミット)上でColaUntangleを評価する。
論文 参考訳(メタデータ) (2025-07-22T09:42:13Z) - Beyond Isolated Dots: Benchmarking Structured Table Construction as Deep Knowledge Extraction [80.88654868264645]
Arranged and Organized extract Benchmarkは、断片化された文書を理解するための大規模言語モデルの能力を評価するために設計された。
AOEには3つの異なるドメインにまたがる11のタスクが含まれており、さまざまな入力クエリに適したコンテキスト固有のスキーマを生成するモデルが必要である。
結果は、最も先進的なモデルでさえ、かなり苦労したことを示している。
論文 参考訳(メタデータ) (2025-07-22T06:37:51Z) - Large Language Models are Good Relational Learners [55.40941576497973]
本稿では,グラフニューラルネットワーク(GNN)に基づくエンコーダを用いて,大規模言語モデル(LLM)のための構造化リレーショナルプロンプトを生成する新しいアーキテクチャであるRel-LLMを紹介する。
従来のテキストベースのシリアライズ手法とは異なり,本手法はデータベース固有の関係構造を保ちながら,LLMが複雑なエンティティ関係を処理・推論することを可能にする。
論文 参考訳(メタデータ) (2025-06-06T04:07:55Z) - Graph-based Unsupervised Disentangled Representation Learning via Multimodal Large Language Models [42.17166746027585]
複素データ内の因子化属性とその相互関係を学習するための双方向重み付きグラフベースフレームワークを提案する。
具体的には、グラフの初期ノードとして要素を抽出する$beta$-VAEベースのモジュールを提案する。
これらの相補的加群を統合することで、我々は細粒度、実用性、教師なしの絡み合いをうまく達成できる。
論文 参考訳(メタデータ) (2024-07-26T15:32:21Z) - DIVKNOWQA: Assessing the Reasoning Ability of LLMs via Open-Domain
Question Answering over Knowledge Base and Text [73.68051228972024]
大きな言語モデル(LLM)は印象的な生成能力を示すが、内部知識に依存すると幻覚に悩まされる。
検索拡張LDMは、外部知識においてLLMを基盤とする潜在的な解決策として出現している。
論文 参考訳(メタデータ) (2023-10-31T04:37:57Z) - A Data Source Dependency Analysis Framework for Large Scale Data Science
Projects [0.0]
データソース依存地獄(Data source dependency hell)は、データと、しばしば機械学習モデルの予期せぬ失敗に繋がるユニークなクイックが果たす中心的な役割を指す。
MLOpsエンジニアは、高速なペースのエンジニアリング環境で、モデルの依存性マップ全体を監視できる自動依存性マッピングフレームワークを提示する。
論文 参考訳(メタデータ) (2022-12-15T16:34:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。