論文の概要: No Accidental Software Agent First Canonical Code for Human Code Entropy Reduction and 30 to 500 times Lower Frontier Model Requirements
- arxiv url: http://arxiv.org/abs/2606.14357v1
- Date: Fri, 12 Jun 2026 11:35:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-15 16:00:42.878771
- Title: No Accidental Software Agent First Canonical Code for Human Code Entropy Reduction and 30 to 500 times Lower Frontier Model Requirements
- Title(参考訳): コードエントロピー削減のためのアクシデントソフトウェアエージェント第一標準コードとフロンティアモデル要件の30~500倍
- Authors: Jepson Taylor,
- Abstract要約: 本稿では,日常的な製品ソフトウェアを標準的行動プロファイルに書き換えるエビデンスキャリング基板を提案する。
除去可能な事故は、残余の新規性、証拠、ガバナンス、リスク、将来のオプション性が支配されるまで減少する。
Qwen2.5-Coder-14BのQLoRA実験は、64,088の標準軌道が学習可能であり、試験された禁止言語マーカーを抑えることを示した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Frontier coding models may spend substantial capacity learning not only program behavior, but also accidental entropy in human repositories. Such repositories contain valuable signals: tests, incidents, migrations, edge cases, product judgment, and operational history. These signals are entangled with framework churn, naming drift, generated-source ambiguity, dependency rituals, CI dialects, weak proof routes, and human-oriented review customs. We propose agent-first canonical code, a proof-carrying substrate that rewrites routine product software into canonical behavior profiles, typed change algebra, proof lanes, constrained edit grammars, semantic patch cells, runtime negative memory, and proof-carrying change objects. The core hypothesis is that quotienting software by behavior equivalence under a declared oracle can collapse equivalent encodings into governed representatives with explicit evidence and proof obligations. The endpoint is amortized cost per verified correct change, including source, context, reasoning, tools, verification, security, provenance, review, failed loops, defects, and foundry cost under a common oracle. Reported reduction bands are hypotheses, not measured frontier results. The proposed limit is a No-Accident Horizon: removable accident decreases until residual novelty, evidence, governance, risk, and future optionality dominate. For supported routine-product distributions, this gives a defensible planning target near 100-fold all-in cost reduction, not a guarantee for all software. Preliminary QLoRA experiments on Qwen2.5-Coder-14B show that 64,088 canonical trajectories are learnable and suppress tested forbidden-language markers, but do not establish behavior preservation, scaling economics, or verified-change cost. The contribution is a falsifiable program centered on minimum functional description length and verified-change cost.
- Abstract(参考訳): フロンティアコーディングモデルは、プログラムの振る舞いだけでなく、人間のリポジトリにおける偶発的エントロピーについてもかなりの能力学習に費やす可能性がある。
このようなリポジトリには、テスト、インシデント、マイグレーション、エッジケース、製品判断、運用履歴といった、貴重なシグナルが含まれている。
これらのシグナルには、フレームワークのチャーン、命名のドリフト、生成されたソースの曖昧さ、依存関係の儀式、CI方言、弱い証明ルート、人間指向のレビュー習慣が絡み合っている。
提案するエージェントファースト・カノニカル・コード(エージェントファースト・カノニカル・コード)は,通常の製品ソフトウェアを標準動作プロファイル,型付き変更代数,証明レーン,制約付き編集文法,セマンティック・パッチ・セル,実行時負メモリ,証明型変更オブジェクトに書き換える。
中心となる仮説は、宣言された託宣の下での行動等価性によるソフトウェアの引用は、明確な証拠と証明義務を持つ支配的な代表者に等価なエンコーディングを崩壊させる可能性がある、というものである。
エンドポイントは、ソース、コンテキスト、推論、ツール、検証、セキュリティ、証明、レビュー、失敗ループ、欠陥、ファウンデーリコストなど、検証済みの正しい変更毎に償却される。
報告されている還元帯は仮説であり、測定されたフロンティアの結果ではない。
除去可能な事故は、残余の新規性、証拠、ガバナンス、リスク、将来のオプション性が支配されるまで減少する。
サポート対象の定期的な製品分布では、全ソフトウェアの保証ではなく、100倍近い全コスト削減を目標とする。
Qwen2.5-Coder-14BにおけるQLoRA実験は、64,088個の標準軌跡が学習可能であり、テストされた禁止言語マーカーを抑えるが、行動保存、スケーリング経済、検証された変更コストは確立しないことを示した。
コントリビューションは、最小機能記述長と検証-変更コストを中心とした、偽装可能なプログラムである。
関連論文リスト
- Protocol-Driven Development: Governing Generated Software Through Invariants and Continuous Evidence [2.124730017640531]
ここでは、主要なソフトウェアアーチファクトがコードではなく、機械で強化可能なプロトコルであるプロトコル駆動開発(PDD)を紹介します。
PDDは、自動化されたソフトウェアエンジニアリングのためのガバナンスモデルを定義する。
論文 参考訳(メタデータ) (2026-05-13T04:23:14Z) - LiveFMBench: Unveiling the Power and Limits of Agentic Workflows in Specification Generation [75.05397479715576]
大規模言語モデル(LLM)とエージェントは有望な進歩を示しているが、その真の能力と失敗モードは未だ不明である。
CプログラムのためのLCMおよびエージェントベースの形式仕様生成に関する、最初の体系的および汚染に配慮した研究を提案する。
論文 参考訳(メタデータ) (2026-05-02T11:31:33Z) - IMPACT-CYCLE: A Contract-Based Multi-Agent System for Claim-Level Supervisory Correction of Long-Video Semantic Memory [73.22944697933603]
既存のパイプラインは不透明でエンドツーエンドの出力を生成し、検査の中間状態は公開しない。
IMPACT-Cycleは,マルチモーダル反復クレームレベルのメンテナンスとして,長時間ビデオ理解を再構築するマルチエージェントシステムである。
論文 参考訳(メタデータ) (2026-04-22T03:03:33Z) - Scaling Human-AI Coding Collaboration Requires a Governable Consensus Layer [22.42181408084751]
ビブコーディングは正確で実行可能なコードを高速に生成するが、構造的なコミットメントや依存関係、証拠の記録は残っていない。
本稿では,操作可能な世界モデルであるコンセンサス層Cが,エンジニアリングの主要な成果物としてコードを置き換えるパラダイムであるエージェント・コンセンサスを提案する。
本稿では,チャットによるベースラインと比較して,コンセンサスに基づく人間の介入を減らすかどうかを測定するためのベンチマークタスクファミリーを提案する。
論文 参考訳(メタデータ) (2026-04-20T06:53:32Z) - Dynamic analysis enhances issue resolution [53.50448142467294]
DAIRA(Dynamic Analysis-enhanced Issue Resolution Agent)は、エージェントの推論サイクルに動的解析を組み込む自動修復フレームワークである。
テストトレース駆動の方法論によって駆動されるDAIRAは、軽量モニタを使用して重要なランタイムデータを抽出する。
Gemini 3 Flash Previewを使用すると、DAIRAは新たな最先端(SOTA)パフォーマンスを確立し、SWE-bench Verifiedデータセットで79.4%の解像度を達成する。
論文 参考訳(メタデータ) (2026-03-23T14:48:54Z) - Neuro-Symbolic Financial Reasoning via Deterministic Fact Ledgers and Adversarial Low-Latency Hallucination Detector [2.950245545999729]
検証可能な数値推論エージェント(VeNRA)について紹介する。
VeNRAは、RAGパラダイムを確率的テキストの検索から厳密な型付きUniversal Fact Ledger (UFL)による決定論的変数の検索へとシフトさせる
著者らは3ビリオンのSLMを訓練し、単一の推論予算を用いて予測候補を法医学的に監査する。
論文 参考訳(メタデータ) (2026-03-04T22:55:16Z) - Probing Pre-trained Language Models on Code Changes: Insights from ReDef, a High-Confidence Just-in-Time Defect Prediction Dataset [0.0]
本稿では,22の大規模C/C++プロジェクトから得られた関数レベル修正の信頼性の高いベンチマークであるReDefを紹介する。
欠陥ケースはコミットの反転によって固定され、クリーンケースはポストホック履歴チェックによって検証される。
このパイプラインは3,164の欠陥と10,268のクリーンな修正をもたらし、既存のリソースよりも信頼性の高いラベルを提供する。
論文 参考訳(メタデータ) (2025-09-11T07:07:11Z) - Are You Getting What You Pay For? Auditing Model Substitution in LLM APIs [71.7892165868749]
LLM(Commercial Large Language Model) APIは基本的な信頼の問題を生み出します。
ユーザーは特定のモデルに課金するが、プロバイダが忠実に提供できることを保証することはない。
我々は,このモデル置換問題を定式化し,現実的な逆条件下での検出方法を評価する。
我々は,信頼された実行環境(TEE)を実用的で堅牢なソリューションとして使用し,評価する。
論文 参考訳(メタデータ) (2025-04-07T03:57:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。