論文の概要: Assessing Language Models for Salient Class Identification
- arxiv url: http://arxiv.org/abs/2606.21629v1
- Date: Fri, 19 Jun 2026 17:33:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-26 04:30:10.702693
- Title: Assessing Language Models for Salient Class Identification
- Title(参考訳): 正規クラス同定のための言語モデルの評価
- Authors: Bo Xiong, Chaoran Cai, Kaipeng Xiong, Chong Wang, Peng Liang,
- Abstract要約: 言語モデル(LM)が,機能工学やグラフ構築,トレーニングを必要とせずに,コミットから直接健全なクラスを識別できるかどうかを検討する。
我々は,GPT-5.4とDeepSeek-V3.2の2つの大言語モデル,SLM,Qwen3.5-9B,ゼロショット,少数ショット,チェーンオブ思想の3つの戦略を評価する。
- 参考スコア(独自算出の注目度): 15.706102968915744
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Code review requires reviewers to understand the core intent of code changes, which becomes difficult when a commit modifies multiple classes. In such commits, one or more primarily modified classes, referred to as salient classes, may induce modifications in other classes. Accurate identification of salient classes offers reviewers an effective entry point to navigate code changes and facilitates program comprehension. Existing state-of-the-art approaches rely on complex program-analysis procedures, including Abstract Syntax Tree (AST) parsing, class relation extraction, handcrafted feature engineering, or dependency graph construction. To this end, we study whether language models (LMs) can identify salient classes directly from commits without feature engineering, graph construction, or training. We first construct a new dataset ApacheJavaCM, derived from the ApacheCM dataset, containing 7,911 commits and 25,914 labeled classes. On this dataset, we systematically evaluate whether LMs can identify salient classes directly from commits and compare with the strongest reproducible state-of-the-art (SOTA) baseline. The evaluation covers two large language models (LLMs), GPT-5.4 and DeepSeek-V3.2, one small language model (SLM), Qwen3.5-9B, and three prompting strategies: zero-shot, few-shot, and chain-of-thought. The LMs substantially outperform the baseline while remaining stable across commit characteristics and selected LMs. We also found that, for salient class identification tasks, a 9B-parameter open-source SLM, Qwen3.5-9B, under few-shot prompting, achieves performance comparable to that of a much larger closed-source LLM, GPT-5.4. These results suggest that lightweight, locally deployable SLMs are sufficient for industrial salient class identification tasks and can reduce both cost and privacy barriers associated with relying on closed-source LLMs.
- Abstract(参考訳): コードレビューでは、コミットが複数のクラスを変更すると難しくなるコード変更の中核的な意図を理解する必要がある。
このようなコミットでは、1つ以上の主に修正されたクラスがサルトクラスと呼ばれ、他のクラスで修正される可能性がある。
健全なクラスの正確な識別は、コードの変更をナビゲートし、プログラムの理解を促進する効果的なエントリポイントを提供する。
既存の最先端のアプローチは、抽象構文木(AST)解析、クラス関係抽出、手作りの特徴工学、依存性グラフ構築など、複雑なプログラム分析手順に依存している。
そこで本研究では,言語モデル(LM)が機能工学やグラフ構築,トレーニングを必要とせずに,コミットから直接健全なクラスを識別できるかどうかを検討する。
まず、ApacheCMデータセットから派生した新しいデータセットApacheJavaCMを構築し、7,911のコミットと25,914のラベル付きクラスを含む。
本データセットでは,LMがコミットから直接有能なクラスを識別できるかどうかを系統的に評価し,最強再現性(SOTA)ベースラインと比較する。
この評価は、2つの大きな言語モデル(LLM)、GPT-5.4とDeepSeek-V3.2、1つの小さな言語モデル(SLM)、Qwen3.5-9B、そして3つのプロンプト戦略(ゼロショット、少数ショット、チェーン・オブ・思想)をカバーする。
LMは、コミット特性と選択されたLMを安定に保ちながら、ベースラインを大幅に上回る。
また、有能なクラス識別タスクでは、Qwen3.5-9Bという9BパラメータのオープンソースSLMを数発のプロンプトで実行し、より大規模でクローズドソースのLCMであるGPT-5.4に匹敵する性能を達成した。
これらの結果から,軽量でローカルにデプロイ可能なSLMは,産業用有能なクラス識別タスクに十分であり,クローズドソースのLCMに依存するコストとプライバシの障壁を低減できることが示唆された。
関連論文リスト
- Conventional Commit Classification using Large Language Models and Prompt Engineering [0.0]
従来のコミットはコミットメッセージを書くための構造化フォーマットを提供し、可読性、ソフトウェアメンテナンスを改善し、自動化ツールを可能にする。
本稿では,大規模言語モデル(LLM)を即時エンジニアリングによって活用することで,学習自由な代替手段を検討する。
様々なスケールの3つのオープンソース LLM に対して,ゼロショット,少数ショット,チェーンオブ思想の3つのプロンプト戦略を評価した。
論文 参考訳(メタデータ) (2026-05-03T19:52:39Z) - Are Prompts All You Need? Evaluating Prompt-Based Large Language Models (LLM)s for Software Requirements Classification [1.1458853556386799]
本研究は,プロンプトベースの大規模言語モデルがデータニーズを低減できるかどうかを検証する。
PMISEとSecReqという2つの英語データセット上で、複数のタスクにまたがる複数のモデルとスタイルをベンチマークする。
論文 参考訳(メタデータ) (2025-09-17T09:58:26Z) - Multi-Intent Recognition in Dialogue Understanding: A Comparison Between Smaller Open-Source LLMs [6.6893292050680655]
対話システム領域のベンチマークであるMultiWOZ 2.1データセットを用いて,3つのオープンソース事前学習LCMの有効性について検討する。
数ショットのセットアップで分類タスクを実行し、インプロンプトで20の例をインプロンプトで示す。
また,Mistral-7B-v0.1 は F-Score の点において,14 の内 11 の意図クラスにおいて,他の 2 つの生成モデルよりも優れていた。
論文 参考訳(メタデータ) (2025-09-12T07:10:55Z) - SWE-Fixer: Training Open-Source LLMs for Effective and Efficient GitHub Issue Resolution [56.9361004704428]
大規模言語モデル(LLM)は、様々な複雑なタスクにまたがる顕著な習熟度を示している。
SWE-Fixerは、GitHubの問題を効果的かつ効率的に解決するために設計された、新しいオープンソースフレームワークである。
我々は,SWE-Bench LiteとVerifiedベンチマークに対するアプローチを評価し,オープンソースモデル間の競合性能を実現する。
論文 参考訳(メタデータ) (2025-01-09T07:54:24Z) - Bug In the Code Stack: Can LLMs Find Bugs in Large Python Code Stacks [1.3586572110652484]
本研究では,大規模文書から文脈情報を取得する上でのLLM(Large Language Models)の機能について検討する。
我々のベンチマークであるBug In The Code Stack (BICS)は、大規模なソースコード内の単純な構文バグを識別するLLMの能力を評価するために設計されている。
その結果,(1)検索タスクのテキストベースの環境に比べ,コードベースの環境の方が有意に困難であり,(2)異なるモデル間の性能差が大きく,(3)コンテキスト長と性能劣化との間には顕著な相関関係があることが判明した。
論文 参考訳(メタデータ) (2024-06-21T17:37:10Z) - FollowBench: A Multi-level Fine-grained Constraints Following Benchmark for Large Language Models [79.62191017182518]
FollowBenchは、大規模言語モデルのベンチマークに続くきめ細かい制約のベンチマークである。
本稿では,初期命令に段階的に1つの制約を付加するマルチレベル機構を提案する。
FollowBench上での13のLLMの評価により,LLMの弱さと今後の研究への道のりを示す。
論文 参考訳(メタデータ) (2023-10-31T12:32:38Z) - Table Meets LLM: Can Large Language Models Understand Structured Table Data? A Benchmark and Empirical Study [44.39031420687302]
大規模言語モデル(LLM)は、自然言語(NL)に関連する課題を解決するために、数ショットの推論器として魅力的になってきている。
LLMの構造的理解能力を評価するためのベンチマークを設計して,これを理解しようと試みる。
重要な値や範囲識別など,効率的な構造的プロンプトのための$textitself-augmentation$を提案する。
論文 参考訳(メタデータ) (2023-05-22T14:23:46Z) - LLM-Pruner: On the Structural Pruning of Large Language Models [65.02607075556742]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。
タスク非依存であり、元のトレーニングデータセットへの依存を最小限に抑えるという2つの制約の範囲内でLLMの圧縮に取り組む。
LLM-Prunerという名前のこの手法は、非臨界結合構造を選択的に除去する構造プルーニングを採用する。
論文 参考訳(メタデータ) (2023-05-19T12:10:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。