論文の概要: Identifying unique developers in OSS projects: A family of models
- arxiv url: http://arxiv.org/abs/2606.08096v1
- Date: Sat, 06 Jun 2026 10:48:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:05.776809
- Title: Identifying unique developers in OSS projects: A family of models
- Title(参考訳): OSSプロジェクトでユニークな開発者を特定する:モデルのファミリー
- Authors: Ruoyu Su, Alexander Bakhtin, Matteo Esposito, Davide Taibi, Valentina Lenarduzzi,
- Abstract要約: OSSでは、コミットメタデータは名前とEメールに限られており、同じ開発者が複数のエイリアスの下に現れる可能性がある。
OSS開発者の重複解消のために,スケーラブルで正確なパイプラインの構築を目標としています。
- 参考スコア(独自算出の注目度): 41.460411434639916
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Organizational and logical coupling metrics require reliable identification of unique developers. In OSS, commit metadata is limited to names and emails, and the same developer may appear under multiple aliases, which can distort coupling measurements if de-duplication is missing. We aim to build a scalable and accurate pipeline for OSS developer de-duplication and to provide guidance on choosing a model based on precision vs. computational effort. We use Indel similarity as a baseline, then run an LLM-assisted matching process with manual validation to create a large dataset of duplicate identities. Using this dataset, we train and compare classical ML models of different complexity, evaluating precision along with training and inference time and energy. We expect a high-quality dataset and a benchmark of approaches that clarifies which solutions offer the best trade-off between accuracy and cost for large-scale OSS mining.
- Abstract(参考訳): 組織的および論理的結合メトリクスは、ユニークな開発者の信頼できる識別を必要とする。
OSSでは、コミットメタデータは名前とEメールに限られており、同じ開発者が複数のエイリアスの下に現れる可能性がある。
OSS開発者のためのスケーラブルで正確なパイプラインを構築し、精度と計算労力に基づいてモデルを選択するためのガイダンスを提供することを目的としている。
Indelの類似性をベースラインとして使用した後、手動検証によるLCM支援マッチングプロセスを実行して、重複したIDの大規模なデータセットを作成します。
このデータセットを使用して、異なる複雑さの古典的なMLモデルをトレーニングし、比較し、トレーニングと推論時間とエネルギーとともに精度を評価する。
高品質なデータセットと、大規模なOSSマイニングの正確性とコストの最良のトレードオフを提供するソリューションのベンチマークを期待しています。
関連論文リスト
- Optimising Factual Consistency in Summarisation via Preference Learning from Multiple Imperfect Metrics [0.9867902290081937]
さまざまな弱いメトリクスからスコアを集約することで、要約の事実整合性を改善する自動トレーニングパイプラインを導入します。
提案手法では、スコアを好みにマッピングし、メトリクス間で高い不一致のケースをフィルタリングすることで、複雑な報酬形成を回避している。
実験では、初期エンコーダ・デコーダアーキテクチャから現代の大規模言語モデルまで、モデル間での一貫性のある事実性の向上が示されている。
論文 参考訳(メタデータ) (2026-05-26T10:55:03Z) - Learning Multi-Indicator Weights for Data Selection: A Joint Task-Model Adaptation Framework with Efficient Proxies [50.39041754816285]
本稿では、下流タスクと特定のモデルの両方にデータ選択を併用する多変数重み学習フレームワークを提案する。
提案手法は,GSM8Kのトレーニングサンプルの30%しか使用せず,フルデータセットチューニングに匹敵する性能を実現する。
論文 参考訳(メタデータ) (2026-05-10T17:30:16Z) - Increasing LLM Coding Capabilities through Diverse Synthetic Coding Tasks [41.75017840131367]
大規模言語モデル(LLM)は、コード生成において素晴らしい可能性を示しています。
800k近い命令推論コードテスト四重項を生成するスケーラブルな合成データ生成パイプラインを提案する。
論文 参考訳(メタデータ) (2025-10-27T10:54:25Z) - Every Step Counts: Decoding Trajectories as Authorship Fingerprints of dLLMs [63.82840470917859]
本稿では,dLLMの復号化機構をモデル属性の強力なツールとして利用できることを示す。
本稿では、デコードステップ間の構造的関係を捉え、モデル固有の振る舞いをよりよく明らかにする、DDM(Directed Decoding Map)と呼ばれる新しい情報抽出手法を提案する。
論文 参考訳(メタデータ) (2025-10-02T06:25:10Z) - CompassVerifier: A Unified and Robust Verifier for LLMs Evaluation and Outcome Reward [50.97588334916863]
評価と結果報酬のための正確で堅牢な軽量検証モデルであるCompassVerifierを開発した。
数学、知識、多種多様な推論タスクにまたがる多分野の能力を示し、様々な答えの型を処理する能力を示す。
我々は,複数のデータソースから収集したモデル出力からなるVerifierBenchベンチマークを導入し,メタエラーパターンを手動で解析してCompassVerifierを強化する。
論文 参考訳(メタデータ) (2025-08-05T17:55:24Z) - Matchmaker: Self-Improving Large Language Model Programs for Schema Matching [60.23571456538149]
本稿では,スキーママッチングのための合成言語モデルプログラムを提案する。
Matchmakerは、ラベル付きデモを必要とせずに、ゼロショットで自己改善する。
実証的に、Matchmakerが以前のMLベースのアプローチより優れている実世界の医療スキーママッチングベンチマークを実証する。
論文 参考訳(メタデータ) (2024-10-31T16:34:03Z) - Entity Matching using Large Language Models [3.7277730514654555]
本稿では, PLM ベースのマーカに代わる, タスク固有の訓練データ依存モデルとして, LLM (Generative Large Language Model) を用いて検討する。
GPT4は一致判定のための構造化された説明を生成でき、一致した誤りの原因を自動的に特定できることを示す。
論文 参考訳(メタデータ) (2023-10-17T13:12:32Z) - From Quantity to Quality: Boosting LLM Performance with Self-Guided Data Selection for Instruction Tuning [52.257422715393574]
本稿では,Large Language Models (LLMs) の自己誘導手法を導入し,オープンソースデータセットからサクラサンプルを自動識別し,選択する。
我々の重要な革新である命令追従困難度(IFD)メトリックは、モデルが期待する応答と本質的な生成能力の相違を識別するための重要な指標として現れます。
論文 参考訳(メタデータ) (2023-08-23T09:45:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。