論文の概要: All Green, Still Broken: Real-Flow Verification Lessons from an LLM-Integrated, Multi-Market Web Application
- arxiv url: http://arxiv.org/abs/2606.22475v1
- Date: Sun, 21 Jun 2026 12:34:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-25 18:06:06.369105
- Title: All Green, Still Broken: Real-Flow Verification Lessons from an LLM-Integrated, Multi-Market Web Application
- Title(参考訳): All Green, Still Broken: LLMを組み込んだマルチマーケットWebアプリケーションによる実フロー検証の教訓
- Authors: Muhammad Bilal, Ali Hassaan Mughal,
- Abstract要約: 自動スイートが6週間で1,553件のテストケースに成長したプロダクションレンタル検索アシスタントについて報告する。
プロジェクトにおける252件のバグフィックスのコミットを調査し、それぞれ境界、すなわちSeamによって分類した。
4つのシームフレームワーク、計測された欠陥分布、そして私たちが採用したプラクティスを紹介します。
- 参考スコア(独自算出の注目度): 2.1958735004755976
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern web applications increasingly combine three ingredients that are hard to test: output from large language models, multi-market internationalization, and browser-driven front-ends over external data sources. We report on a production rental-search assistant whose automated suite grew to 1,553 test cases in six weeks. The suite passed continuously, yet user-facing defects continued to reach production. We studied all 252 bug-fix commits in the project and classified each by the boundary, or seam, it escaped through. About 44 percent of the fixes fall in four seams that component-level unit tests cannot observe: the live browser runtime, the non-default market, the end-to-end flow, and the whole-system level. A fix without a guard at the seam let one defect ship twice. We present the four-seam framework, the measured defect distribution, and the practices we adopted, including a simple way for a team to find the seam that carries the most fixes.
- Abstract(参考訳): 現代のWebアプリケーションは、大規模な言語モデルからの出力、マルチマーケットの国際化、外部データソースに対するブラウザ駆動のフロントエンドという、テストが難しい3つの要素をますます組み合わせています。
自動スイートが6週間で1,553件のテストケースに成長したプロダクションレンタル検索アシスタントについて報告する。
スイートは継続的にパスしたが、ユーザ側の欠陥は製品化され続けた。
プロジェクトにおける252件のバグフィックスのコミットを調査し、それぞれ境界、すなわちSeamによって分類した。
修正の約44%は,ライブブラウザランタイム,非デフォルト市場,エンドツーエンドフロー,システム全体という,コンポーネントレベルのユニットテストが監視できない4つの領域に含まれています。
シームに警備員がいない修理は、欠陥船を2度船に渡した。
4つのシームフレームワーク、計測された欠陥分布、そして私たちが採用したプラクティスを紹介します。
関連論文リスト
- Phoenix: Safe GitHub Issue Resolution via Multi-Agent LLMs [0.0]
PhoenixはGitHubの問題をトリアージからプルリクエスト生成を通じて解決するマルチエージェントLLMシステムである。
フェニックスは6つの専門エージェントで仕事を分解する。
14リポジトリにわたる42の実際の問題に関する補完的なパイロットは、100%の正確性を保存する。
論文 参考訳(メタデータ) (2026-06-18T13:56:12Z) - Autonomous Intelligent Agents for Natural-Language-Driven Web Execution with Integrated Security Assurance [0.0]
本稿では、ナビゲーション信頼性、コンテキスト対応セレクタ生成、ポストジェネレーションバリデーション、スマートウェイトインジェクション、障害学習に対処するAI駆動の自律テストフレームワークを提案する。
4つのプロダクションアプリケーションと176のシナリオで評価されたこのフレームワークは、スクリプト生成の成功を55%から93%に改善し、ナビゲーション障害を8倍削減し、タイミング関連の競合条件の80%を排除し、手動のSeleniumオーサリングと比較してテスト生成時間を75%短縮する。
論文 参考訳(メタデータ) (2026-05-14T18:00:30Z) - Is Agentic AI Ready for Real-World Hardware Engineering? A Deep Dive with Phoenix-bench [33.69401287706814]
我々は、ソフトウェアエンジニアリングを現実的なハードウェアエンジニアリングに移行するために構築されたエージェントAIシステムについて尋ねる。
textbfPhoenix-benchは、114のGitHubリポジトリから511の検証済みのVerilatorインスタンスの同期コーパスです。
Phoenix-benchを用いて、4つの商用エージェントと8つのオープンソースエージェント構造を均一に評価する。
論文 参考訳(メタデータ) (2026-05-13T14:14:54Z) - How Far Is Document Parsing from Solved? PureDocBench: A Source-TraceableBenchmark across Clean, Degraded, and Real-World Settings [56.70440596502351]
昨年は20以上のオープンドキュメントパースモデルが見られたが、ベンチマークはほぼOmniDocBenchにのみ依存している。
HTML/CSSのドキュメントイメージをレンダリングするベンチマークであるPureDocBenchは、10のドメイン、66ページ、1,475ページをカバーしています。
論文 参考訳(メタデータ) (2026-05-08T09:30:31Z) - ClawMark: A Living-World Benchmark for Multi-Turn, Multi-Day, Multimodal Coworker Agents [77.22389710754452]
マルチターンマルチデイタスクを中心に構築された同僚エージェントのベンチマークであるベンチを紹介する。
現在のリリースには、13のプロのシナリオにわたる100のタスクが含まれており、5つのステートフルなサンドボックスサービスに対して実行される。
最強のモデルは75.8の重み付きスコアに達するが、最も厳格なタスク成功率は20.0%に過ぎず、部分的な進歩が一般的であることを示している。
論文 参考訳(メタデータ) (2026-04-26T16:05:02Z) - TestExplora: Benchmarking LLMs for Proactive Bug Discovery via Repository-Level Test Generation [19.43198506241428]
提案するTestExploraは,大規模言語モデルを積極的なテスタとして評価するためのベンチマークである。
TestExploraには482リポジトリから2,389のタスクが含まれており、すべての欠陥関連信号を隠している。
現状のモデルでは、F2P(Fail-to-Pass)の最大率は16.06%である。
論文 参考訳(メタデータ) (2026-02-11T03:22:51Z) - Where LLM Agents Fail and How They can Learn From Failures [62.196870049524364]
大規模言語モデル(LLM)エージェントは、複雑なマルチステップタスクの解決において有望であることを示す。
単一ルート原因エラーがその後の決定を通じて伝播する、障害のカスケードに対する脆弱性を増幅する。
現在のシステムは、モジュール的で体系的な方法でエージェントエラーを包括的に理解できるフレームワークを欠いている。
AgentErrorTaxonomyは、メモリ、リフレクション、計画、アクション、システムレベルの操作にまたがる障害モードのモジュール分類である。
論文 参考訳(メタデータ) (2025-09-29T18:20:27Z) - SwingArena: Competitive Programming Arena for Long-context GitHub Issue Solving [90.32201622392137]
We present SwingArena, a competitive evaluation framework for Large Language Models (LLMs)。
従来の静的ベンチマークとは異なり、SwingArenaはLLMをイテレーションとして組み合わせて、テストケースを作成し、継続的インテグレーション(CI)パイプラインを通じてパッチを検証するパッチとレビュアーを生成することで、ソフトウェアのコラボレーションプロセスをモデル化する。
論文 参考訳(メタデータ) (2025-05-29T18:28:02Z) - UTFix: Change Aware Unit Test Repairing using LLM [24.12850207529614]
UTFixは, 焦点法が変化した場合に, 単体検査を修復するための新しい手法である。
このアプローチでは,静的コードスライスや動的コードスライス,障害メッセージなどのコンテキスト情報を提供することで,言語モデルを利用してユニットテストを修復する。
私たちの知る限りでは、これはPythonプロジェクトの進化におけるユニットテストに焦点を当てた初めての総合的な研究です。
論文 参考訳(メタデータ) (2025-03-19T06:10:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。