論文の概要: Natural Language-Focused Software Engineering via Code-Documentation Equivalence
- arxiv url: http://arxiv.org/abs/2606.22247v1
- Date: Sat, 20 Jun 2026 22:19:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-25 21:48:50.031269
- Title: Natural Language-Focused Software Engineering via Code-Documentation Equivalence
- Title(参考訳): Code-Documentation Equivalenceによる自然言語に焦点をあてたソフトウェア工学
- Authors: Aryaz Eghbali, Zhongxin Liu, Michael Pradel,
- Abstract要約: 与えられたコードスニペットに等価なドキュメントを自動的に生成する、Documentaryと呼ばれる新しいアプローチを提案する。
提案手法により,LCMは関数の出力を12.8~24.5%高い精度で予測できることがわかった。
人間の開発者は、Documentaryが生成したドキュメントは、オリジナルの人間によるドキュメントよりも、コードの理解と編集に有用だと考えている。
- 参考スコア(独自算出の注目度): 17.47344940875897
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Source code documentation is an integral part of software development and maintenance, as it helps in understanding the code and facilitates communication among developers. However, existing documentation is often incomplete, outdated, or inaccurate, which can lead to misunderstandings and errors. In the era of large language models (LLMs), which are being extensively used for software engineering tasks, the quality of documentation becomes even more critical, as documentation provides important context for the models. In this paper, we introduce the notion of documentation-to-code equivalence, a novel property that captures whether documentation accurately and completely describes the code it documents. We present a novel approach, called Documentary, to automatically generate equivalent documentation for a given code snippet. Our evaluation shows that Documentary can generate equivalent documentation for 53.4% of the evaluated function-level code snippets. To show the benefits of documentation-to-code equivalence, we describe and evaluate two software engineering tasks: code understanding and code editing. Our results show that documentation-to-code equivalence allows an LLM to predict the output of a function with 12.8--24.5% higher accuracy, when compared to human-written documentation and documentation generated by a baseline approach. Furthermore, human developers consider documentation generated by Documentary to be more useful for understanding and editing code than the original human-written documentation.
- Abstract(参考訳): ソースコードのドキュメンテーションは、コードを理解し、開発者間のコミュニケーションを促進するため、ソフトウェア開発とメンテナンスの不可欠な部分です。
しかし、既存のドキュメントは、しばしば不完全、時代遅れ、または不正確なものであり、誤解や間違いにつながる可能性がある。
大規模言語モデル(LLM)の時代は、ソフトウェア工学のタスクに広く使われているが、ドキュメントの品質はさらに重要になり、ドキュメントはモデルにとって重要なコンテキストを提供する。
本稿では、文書が文書化されているかどうかを正確に把握し、完全に記述する新しいプロパティである、ドキュメントからコードへの等価性の概念を紹介する。
与えられたコードスニペットに等価なドキュメントを自動的に生成する、Documentaryと呼ばれる新しいアプローチを提案する。
評価の結果,Documentaryは関数レベルのコードスニペットの53.4%に相当するドキュメントを生成することができることがわかった。
ドキュメンテーションとコード間の等価性の利点を示すために,コード理解とコード編集という2つのソフトウェア工学的タスクを記述し,評価する。
この結果から,文書とコード間の等価性により,LLMは基本手法による文書作成や文書作成と比較して,関数の出力を12.8~24.5%高い精度で予測できることがわかった。
さらに、人間開発者は、Documentaryによって生成されたドキュメントは、オリジナルの人間によるドキュメントよりも、コードの理解と編集に有用だと考えている。
関連論文リスト
- Code-QA-Bench: Separating Code Reasoning from Documentation Memorization in Repository-Level QA [7.478327602641997]
Code-QA-Benchはリポジトリレベルのコード理解ベンチマークを合成するためのフレームワークである。
10のPythonリポジトリで528のコードデリバティブと100のドキュメント依存タスクを生成します。
フレームワークはオープンソースで、ドキュメント化されたPythonリポジトリに適用できる。
論文 参考訳(メタデータ) (2026-05-28T02:52:58Z) - DocFetch - Towards Generating Software Documentation from Multiple Software Artifacts [5.780991619197141]
ドキュメントを生成するための既存の自動アプローチは、主にソースコードに焦点を当てている。
複数のソフトウェアアーティファクトからさまざまなタイプのドキュメンテーションを生成するDocFetchを提案する。
我々は,手作業によるグラウンドトルースデータセットを用いたDocFetchの性能評価を行った。
論文 参考訳(メタデータ) (2025-08-25T06:54:27Z) - METAMON: Finding Inconsistencies between Program Documentation and Behavior using Metamorphic LLM Queries [10.9334354663311]
本稿では,既存の検索ベーステスト生成技術を用いて,現在のプログラム動作をテストケース形式でキャプチャするMETAMONを提案する。
MeTAMONはこのタスクでメタモルフィックテストと自己整合性によってサポートされている。
Defects4J v2.0.1の5つのオープンソースプロジェクトを使って生成された9,482対のコードドキュメンテーションとコードスニペットに対する実証的な評価は、METAMONがコードとドキュメントの不整合を精度0.72、リコール0.48で分類できることを示している。
論文 参考訳(メタデータ) (2025-02-05T00:42:50Z) - Contextual Document Embeddings [77.22328616983417]
本稿では,コンテキスト化された文書埋め込みのための2つの補完手法を提案する。
第一に、文書近傍を明示的にバッチ内コンテキスト損失に組み込む別のコントラスト学習目標である。
第二に、隣接する文書情報をエンコードされた表現に明示的にエンコードする新しいコンテキストアーキテクチャ。
論文 参考訳(メタデータ) (2024-10-03T14:33:34Z) - Testing the Effect of Code Documentation on Large Language Model Code Understanding [1.602193274044797]
大きな言語モデル(LLM)は、コード生成と理解に関して印象的な能力を示している。
LLMに“誤った”ドキュメンテーションを提供することで、コードの理解が著しく阻害されることが示されています。
不完全あるいは欠落したドキュメントは、LLMがコードを理解する能力に大きく影響しないことを示している。
論文 参考訳(メタデータ) (2024-04-03T23:33:56Z) - Towards Summarizing Code Snippets Using Pre-Trained Transformers [20.982048349530483]
この作業では、DLモデルをトレーニングしてコードスニペットを文書化するために必要なすべてのステップを取ります。
我々のモデルは84%の精度でコード要約を識別し、それらを文書化されたコード行にリンクすることができる。
これにより、ドキュメント化されたコードスニペットの大規模なデータセットを構築することが可能になった。
論文 参考訳(メタデータ) (2024-02-01T11:39:19Z) - DocCoder: Generating Code by Retrieving and Reading Docs [87.88474546826913]
コードマニュアルとドキュメントを明示的に活用するアプローチであるDocCoderを紹介します。
我々のアプローチは一般的に、どんなプログラミング言語にも適用でき、基礎となるニューラルモデルとは無関係です。
論文 参考訳(メタデータ) (2022-07-13T06:47:51Z) - Unified Pretraining Framework for Document Understanding [52.224359498792836]
文書理解のための統合事前学習フレームワークであるUDocを紹介する。
UDocは、ほとんどのドキュメント理解タスクをサポートするように設計されており、Transformerを拡張してマルチモーダル埋め込みを入力とする。
UDocの重要な特徴は、3つの自己管理的損失を利用して汎用的な表現を学ぶことである。
論文 参考訳(メタデータ) (2022-04-22T21:47:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。