Fugu-MT 論文翻訳(概要): Claude Code-Driving Scenario Mining for the Argoverse 2 Challenge

論文の概要: Claude Code-Driving Scenario Mining for the Argoverse 2 Challenge

arxiv url: http://arxiv.org/abs/2606.09180v1
Date: Mon, 08 Jun 2026 08:19:32 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-09 14:42:06.826116
Title: Claude Code-Driving Scenario Mining for the Argoverse 2 Challenge
Title（参考訳）: Argoverse 2チャレンジのためのクロードコード駆動シナリオマイニング
Authors: Wei Deng, Caoshengzhe Xue, Shuaikun Liu, Zhaohong Liu, Mengshi Qi, Huadong Ma,
Abstract要約: CVPR 2026 Argoverse 2 Scenario Mining Challengeに応募する。 GLM5.1を使用したクロードコードエージェントによる自律コード生成、タイムスタンプバランスの精度閾値0.8による反復的なトレーニングセットのスクリーニング、別のクロードコードセッションによるセマンティックコードレビュー、偽陽性をフィルタリングするためのQwen3-VLシーンレベルの検証である。
参考スコア（独自算出の注目度）: 42.12892624018978
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We present our submission to the CVPR 2026 Argoverse 2 Scenario Mining Challenge. Our system uses a four-stage pipeline: (1) autonomous code generation via a Claude Code agent powered by GLM~5.1, (2) iterative training set screening with Timestamp Balanced Accuracy threshold 0.8 to curate few-shot examples, (3) semantic code review by a separate Claude Code session, and (4) Qwen3-VL scene-level verification to filter false positives. We report results on the Argoverse 2 test set.
Abstract（参考訳）: CVPR 2026 Argoverse 2 Scenario Mining Challengeに応募する。本システムでは,(1) GLM~5.1をベースとしたクロードコードエージェントによる自律コード生成,(2) Timestamp Balanced Accuracy threshold 0.8を用いた反復的トレーニングセットのスクリーニング,(3)別のクロードコードセッションによるセマンティックコードレビュー,(4)Qwen3-VLシーンレベルの検証による偽陽性のフィルタリングを行う。 Argoverse 2 テストセットの結果を報告する。

関連論文リスト

First head-to-head comparison of agentic AI applied to the analysis of simulated data of the Einstein Telescope [0.0]
我々は、最先端のエージェントAIシステムであるClaude Code(Anthropic)とCodex(OpenAI)の比較を報告する。我々はClaude Codeが3.4分でパイプラインを完了し、仕様から無声で逸脱することを示し、Codexは明示的な自己修正再起動に16分を必要とした。本稿では,これらの行動の違い,例えば速度対聴覚性,無声対透明な誤り,命令解釈,中間データ表現の臨界性などについて論じる。
論文参考訳（メタデータ） (2026-05-27T17:54:26Z)
Fidelity Probes for Specification--Code Alignment [7.754687669049819]
我々は,コード由来の接地真実解を持つ参照アーティファクトから生成した自然依存問題である忠実度プローブを紹介する。忠実度プローブは矛盾とカバレッジギャップ率に分解され、ターゲット仕様の編集を収束させる。 15のプログラムで約12kラインのベンチマークを行い、8回のイテレーションで0.63から0.94に凍結テスト仕様の忠実度を上げました。
論文参考訳（メタデータ） (2026-05-17T04:05:54Z)
DuET: Dual Execution for Test Output Prediction with Generated Code and Pseudocode [56.14374797825548]
よりエラー耐性の高い擬似コードに基づいて予測を行うLLMベースの擬似コード実行を提案する。両手法を機能的多数決で組み合わせた二重実行フレームワークであるDuETを提案する。 LiveCodeBenchでは、DuETは最先端のパフォーマンスを実現し、Pass@1を13.6ppで改善した。
論文参考訳（メタデータ） (2026-04-13T14:18:58Z)
BigCodeArena: Unveiling More Reliable Human Preferences in Code Generation via Execution [68.95247403447051]
BigCodeArenaは、包括的でオンザフライな実行環境を背景とした、コード生成のためのオープンなヒューマン評価プラットフォームである。 10の言語と8種類の実行環境にまたがる10のLLMで14,000以上の生のコード中心の会話セッションを収集しました。 BigCodeRewardでは、4700件の会話を後処理し、報酬モデルと人間の好みの一貫性を評価した。
論文参考訳（メタデータ） (2025-10-09T18:01:47Z)
DS@GT at CheckThat! 2025: Evaluating Context and Tokenization Strategies for Numerical Fact Verification [49.1574468325115]
数値的クレーム、量、比較、時間的参照を含むステートメントは、自動化された事実チェックシステムに固有の課題をもたらす。我々は,QuanTempデータセットを用いて,これらのクレームの精度予測のためのモデリング戦略を評価し,エビデンス検索パイプラインを構築した。当社のベストパフォーマンスシステムは,競争力のあるマクロ平均F1スコア0.57を達成し,2025年のCheckThatのタスク3におけるトップ4のサブミッションに私たちを配置する。
論文参考訳（メタデータ） (2025-07-08T17:22:22Z)
Technical Report for Argoverse2 Scenario Mining Challenges on Iterative Error Correction and Spatially-Aware Prompting [1.523669433825807]
RefAVは自然言語クエリを実行可能コードに変換するフレームワークで、関連するシナリオを特定する。この技術的なレポートでは、これらの制限に対処するための2つの重要な拡張を紹介します。さまざまなLLMs-Qwen2.5-VL-7B、Gemini 2.5 Flash、Gemini 2.5 Proを使ったArgoverse 2検証セットの実験では、複数のメトリクスで一貫した利得を示している。
論文参考訳（メタデータ） (2025-06-10T07:40:08Z)
KodCode: A Diverse, Challenging, and Verifiable Synthetic Dataset for Coding [49.56049319037421]
KodCodeは、高品質で検証可能なトレーニングデータを取得するという永続的な課題に対処する、合成データセットである。自己検証手順によって体系的に検証される質問解決テスト三つ子を含む。このパイプラインは大規模で堅牢で多様なコーディングデータセットを生成する。
論文参考訳（メタデータ） (2025-03-04T19:17:36Z)
Technical Report for Argoverse Challenges on 4D Occupancy Forecasting [32.43324720856606]
我々のソリューションは、強いLiDARベースのBird's Eye View(BEV)エンコーダと2段階デコーダからなる。このソリューションはArgoverse 2センサーデータセットでテストされ、将来3秒間の占有状態を評価する。 CVPR 2023のArgoverse Challengesでは,L1エラー(3.57)がベースラインよりも18%低かった。
論文参考訳（メタデータ） (2023-11-27T09:40:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。