論文の概要: Prompt Quality and Pull Request Outcomes: A Stage-Based Empirical Study of LLM-Assisted Development
- arxiv url: http://arxiv.org/abs/2606.19644v1
- Date: Wed, 17 Jun 2026 22:50:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-19 18:23:39.573581
- Title: Prompt Quality and Pull Request Outcomes: A Stage-Based Empirical Study of LLM-Assisted Development
- Title(参考訳): プロンプト品質とプル要求結果:段階的LCM支援開発に関する実証的研究
- Authors: Richard Sserunjogi, Daniel Ogenrwot, John Businge,
- Abstract要約: プルリクエストにおける自作ChatGPTの使用から得られた265人の開発者-ChatGPTインタラクションを分析した。
我々は、文脈、特異性、検証という3つの次元を用いて、プロンプト構造を運用する。
以上の結果から,AI支援ソフトウェア工学において,迅速な特徴がステージ依存的な効果をもたらすことが示唆された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language model (LLM)-powered tools such as ChatGPT are increasingly used in collaborative software engineering workflows, yet little is known about how prompt structure influences downstream pull request (PR) outcomes. Prior studies primarily examine conversational helpfulness, productivity, or coarse-grained adoption metrics, leaving the role of prompt structure in collaborative integration behavior insufficiently understood. We analyze 265 manually validated developer-ChatGPT interactions derived from self-admitted ChatGPT usage in open-source pull requests. Building on prior research on developer-facing artifacts and prompt engineering, we operationalize prompt structure using three dimensions: Context, Specificity, and Verification. We first evaluate whether LLM-assisted annotation can reliably reproduce human judgments of prompt structure, finding substantial variation across dimensions and workflow contexts. Specificity shows the most stable agreement with human judgments; Context is systematically under-scored by the LLM; and Verification remains difficult to assess consistently, motivating a hybrid human-LLM annotation strategy. Using this validated framework, we then examine how prompt structure influences actionable code generation, code adoption, and integration depth across AI-assisted PR workflows. Specificity and Context are most strongly associated with actionable code generation; Verification emerges as the primary predictor of code adoption; and integration depth is most strongly associated with Context. Overall, our findings show that prompt characteristics exert distinct, stage-dependent effects across AI-assisted software engineering workflows, influencing downstream adoption and integration through contextual grounding, task specificity, and evaluability cues.
- Abstract(参考訳): ChatGPTのようなLLM(Large Language Model)ベースのツールは、コラボレーションソフトウェアエンジニアリングワークフローでますます利用されているが、構造が下流プルリクエスト(PR)の結果にどのように影響するかは、ほとんど分かっていない。
先行研究は、主に会話の助け、生産性、あるいは粗い粒度の採用メトリクスを調べ、協調的な統合行動における迅速な構造の役割を十分に理解していないままにしておく。
オープンソースプルリクエストにおける自己許容ChatGPTを用いた開発者-ChatGPTインタラクションを手作業で検証する。
開発者が直面するアーティファクトと迅速なエンジニアリングに関する先行研究に基づいて、私たちは3つの次元(コンテキスト、特異性、検証)を使って、プロンプト構造を運用します。
まず, LLM を利用したアノテーションが, アクシデント構造の人為的判断を確実に再現できるかどうかを検証し, 次元やワークフローの文脈に有意なばらつきを見出す。
具体性は人間の判断と最も安定した一致を示し、文脈はLLMによって体系的に過小評価され、検証は一貫して評価することが困難であり、ハイブリッドな人間-LLMアノテーション戦略を動機付けている。
この検証されたフレームワークを使用して、AI支援PRワークフロー間の実行可能なコード生成、コード導入、統合の深度に、構造がいかに影響するかを調べる。
特異性とコンテキストは、実行可能なコード生成に最も強く結びついている;検証は、コード導入の第一の予測要因として現れ、統合深度は、Contextに最も強く結びついている。
全体として、我々の研究結果は、AI支援ソフトウェアエンジニアリングワークフロー全体において、迅速な特徴が、文脈的基盤、タスク特異性、評価容易性を通じて、下流の採用と統合に影響を与える、ステージ依存的な影響を示すことを示している。
関連論文リスト
- From Prompts to Context: An Ontology-Driven Framework for Human-Generative AI Collaboration [26.702635306128865]
本稿では,人間生成AIコラボレーションを表現するオントロジー駆動型フレームワークを提案する。
その中核となるコンポーネントであるContextual Collaboration AI Ontologyは、コラボレーションの重要な要素を、共有機械解釈可能な語彙としてモデル化している。
我々は、要求分析、設計、実装、そしてテストの間で、このフレームワークがコラボレーションエピソードの表現とドキュメントをどのようにサポートするかを示す。
論文 参考訳(メタデータ) (2026-05-28T09:35:59Z) - LoCoBench-Agent: An Interactive Benchmark for LLM Agents in Long-Context Software Engineering [90.84806758077536]
textbfLoCoBench-Agentは,大規模言語モデル(LLM)エージェントを現実的,長期的ソフトウェア工学で評価するための総合的な評価フレームワークである。
我々のフレームワークは、LoCoBenchの8000のシナリオを対話型エージェント環境に拡張し、マルチターン会話の体系的評価を可能にする。
我々のフレームワークは,8つの特殊なツール(ファイル操作,検索,コード解析)をエージェントに提供し,それを10Kから1Mトークンの範囲で評価する。
論文 参考訳(メタデータ) (2025-11-17T23:57:24Z) - Integrating Domain Knowledge into Process Discovery Using Large Language Models [3.7448613209842967]
本稿では,自然言語で表現されたドメイン知識をプロセス発見パイプラインに組み込む対話型フレームワークを提案する。
このフレームワークは、LLM(Large Language Models)、ドメインエキスパート、バックエンドサービスのセット間のインタラクションを調整する。
我々の実証研究は、実際のイベントログに基づくケーススタディと、フレームワークのユーザビリティと有効性を評価するドメインエキスパートの関与を含む。
論文 参考訳(メタデータ) (2025-10-08T15:59:11Z) - ContextNav: Towards Agentic Multimodal In-Context Learning [85.05420047017513]
ContextNavは、自動検索のスケーラビリティと人間のようなキュレーションの品質と適応性を統合するエージェントフレームワークである。
リソースを意識したマルチモーダル埋め込みパイプラインを構築し、検索可能なベクトルデータベースを維持し、エージェント検索と構造アライメントを適用して、ノイズ耐性のあるコンテキストを構築する。
実験の結果、ContextNavはさまざまなデータセットで最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-10-06T07:49:52Z) - Rethinking Testing for LLM Applications: Characteristics, Challenges, and a Lightweight Interaction Protocol [83.83217247686402]
大言語モデル(LLM)は、単純なテキストジェネレータから、検索強化、ツール呼び出し、マルチターンインタラクションを統合する複雑なソフトウェアシステムへと進化してきた。
その固有の非決定主義、ダイナミズム、文脈依存は品質保証に根本的な課題をもたらす。
本稿では,LLMアプリケーションを3層アーキテクチャに分解する: textbftextitSystem Shell Layer, textbftextitPrompt Orchestration Layer, textbftextitLLM Inference Core。
論文 参考訳(メタデータ) (2025-08-28T13:00:28Z) - Evaluations at Work: Measuring the Capabilities of GenAI in Use [28.124088786766965]
現在のAIベンチマークは、人間とAIのコラボレーションの混乱したマルチターンの性質を見逃している。
実世界のタスクを相互依存サブタスクに分解する評価フレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-15T23:06:23Z) - AI-Driven Scholarly Peer Review via Persistent Workflow Prompting, Meta-Prompting, and Meta-Reasoning [0.0]
本稿では,PWP(Persistent Prompting)について紹介する。
本稿では,実験化学原稿の批判的分析のための概念実証PWPプロンプトを提案する。
我々は,このPWPプロンプトを,専門家レビューの体系化を目的としたメタプロンプト技術とメタ推論の反復的適用により開発する。
論文 参考訳(メタデータ) (2025-05-06T09:06:18Z) - Knowledge Graph Completion with Relation-Aware Anchor Enhancement [50.50944396454757]
関係認識型アンカー強化知識グラフ補完法(RAA-KGC)を提案する。
まず、ヘッダーのリレーショナル・アウェア・エリア内でアンカー・エンティティを生成します。
次に、アンカーの近傍に埋め込まれたクエリを引っ張ることで、ターゲットのエンティティマッチングに対してより差別的になるように調整する。
論文 参考訳(メタデータ) (2025-04-08T15:22:08Z) - A Dependency Syntactic Knowledge Augmented Interactive Architecture for
End-to-End Aspect-based Sentiment Analysis [73.74885246830611]
エンドツーエンドABSAのためのマルチタスク学習を用いた対話型アーキテクチャを新たに提案する。
このモデルは、よく設計された依存性関係埋め込みグラフ畳み込みネットワーク(DreGcn)を活用することで、構文知識(依存性関係と型)を完全に活用することができる。
3つのベンチマークデータセットの大規模な実験結果から,本手法の有効性が示された。
論文 参考訳(メタデータ) (2020-04-04T14:59:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。