論文の概要: A Benchmark and Framework for Evaluating Next Action Predictions in Spreadsheets
- arxiv url: http://arxiv.org/abs/2606.13802v1
- Date: Thu, 11 Jun 2026 18:16:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-15 16:00:42.568353
- Title: A Benchmark and Framework for Evaluating Next Action Predictions in Spreadsheets
- Title(参考訳): スプレッドシートにおける次の行動予測評価のためのベンチマークとフレームワーク
- Authors: Tejas Agrawal, Vu Le, Sumit Gulwani, Gust Verbruggen,
- Abstract要約: 本研究では,ユーザアクションのシーケンスをスプレッドシートで監視し,将来のアクションを予測するシステムのためのベンチマークを提案する。
公開コーパスからスプレッドシートを再現する12Kアクションの52のシーケンスを手作業でキュレートする。
私たちのベンチマークでは、保存されたアクションのプロパティと偽陽性、効率性、ユーザプロファイルの効果、トリガーの効果、コンテキストの影響など、さまざまな特性について分析しています。
- 参考スコア(独自算出の注目度): 13.203098866358824
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Predictive code completion greatly accelerates how quickly developers work. In spreadsheets, despite being much more common, such auto-completion features are virtually non-existent. To address this gap, we introduce a benchmark for systems that observe a sequence of user actions in a spreadsheet and predict future actions. Two challenges are (1) the absence of edit histories in public spreadsheet corpora and (2) the complex space of spreadsheet actions (spatial, temporal, composite). To address (1), we manually curate 52 sequences of 12K actions that recreate spreadsheets from public corpora, seeded by parametrized heuristics and LLM refinement. To address (2), we propose an online evaluation that expects a prediction after each user action, accepts or rejects that prediction, updates the future actions upon acceptance, and repeats this until the target spreadsheet is obtained. We use multiple baseline predictors (including zero-shot LLMs, fine-tuned SLMs, and classical models) and analyze different properties that our benchmark teaches us, including but not limited to: properties of saved actions and false positives, efficiency, effect of user profiles, effect of triggers, and effect of context.
- Abstract(参考訳): 予測的なコード補完は、開発者の作業の速さを大幅に加速します。
スプレッドシートでは、より一般的であるにもかかわらず、そのような自動補完機能は事実上存在しない。
このギャップに対処するために,ユーザアクションのシーケンスをスプレッドシートで観察し,将来のアクションを予測するシステムのためのベンチマークを導入する。
2つの課題は,(1)公開スプレッドシートコーパスにおける編集履歴の欠如,(2)スプレッドシートアクションの複雑な空間(空間的,時間的,複合的)である。
1) この問題に対処するため, パラメタライズド・ヒューリスティックスとLCMの改良により, 公開コーパスからスプレッドシートを再現する12Kアクションの52の配列を手作業でキュレートした。
2) に対処するため,ユーザアクション毎に予測を予測し,その予測を受理または拒否し,受理後の将来の動作を更新し,対象のスプレッドシートが取得されるまで繰り返すオンライン評価を提案する。
我々は、複数のベースライン予測器(ゼロショットLLM、微調整SLM、古典モデルを含む)を使用し、我々のベンチマークが教えてくれる様々な特性を分析します。
関連論文リスト
- TabClaw: An Interactive and Self-Evolving Agent for Spreadsheet Manipulation and Table Reasoning [10.691111633638734]
本稿では,スプレッドシート操作とテーブル推論のためのオープンソースの対話型AIエージェントTabClawを提案する。
TabClawは曖昧な意図を明確にし、編集可能な実行計画を公開するとともに、ReActスタイルのツール使用分析ループをストリームし、並列マルチテーブル推論のためのスペシャリストをディスパッチする。
論文 参考訳(メタデータ) (2026-06-09T02:11:16Z) - Towards Robust Real-World Spreadsheet Understanding with Multi-Agent Multi-Format Reasoning [43.91509663025854]
スプレッドシートは、企業報告、監査、科学データ管理といった現実世界のアプリケーションの中心である。
既存の大きな言語モデルベースのアプローチでは、テーブルを平易なテキストとして扱い、重要なレイアウトキューや視覚的意味論を見渡すのが一般的である。
本稿では,ステップバイステップの読み出しと推論のパラダイムを取り入れた,スプレッドシート理解のための2段階のマルチエージェントフレームワークを提案する。
論文 参考訳(メタデータ) (2026-04-14T04:47:21Z) - SpreadsheetArena: Decomposing Preference in LLM Generation of Spreadsheet Workbooks [8.306042091008957]
大規模言語モデル (LLM) は、構造化されたアーティファクトの生成と操作のタスクが増えている。
タスク上でモデルのパフォーマンスを評価するプラットフォームであるSpreadsheetArenaを紹介する。
好みのスプレッドシートのスタイラス的,構造的,機能的特徴はユースケースによって大きく異なる。
論文 参考訳(メタデータ) (2026-02-16T14:24:36Z) - A Simple Baseline for Predicting Events with Auto-Regressive Tabular Transformers [70.20477771578824]
イベント予測への既存のアプローチには、タイムアウェアな位置埋め込み、学習行とフィールドエンコーディング、クラス不均衡に対処するオーバーサンプリング方法などがある。
基本位置埋め込みと因果言語モデリングの目的を持つ標準自己回帰型LPM変換器を用いて,単純だが柔軟なベースラインを提案する。
私たちのベースラインは、一般的なデータセットで既存のアプローチよりも優れており、さまざまなユースケースに使用することができます。
論文 参考訳(メタデータ) (2024-10-14T15:59:16Z) - Bidirectional Decoding: Improving Action Chunking via Guided Test-Time Sampling [51.38330727868982]
動作チャンキングが学習者と実証者の間の分岐にどのように影響するかを示す。
動作チャンキングをクローズドループ適応でブリッジするテスト時間推論アルゴリズムである双方向デコーディング(BID)を提案する。
提案手法は、7つのシミュレーションベンチマークと2つの実世界のタスクにまたがって、最先端の2つの生成ポリシーの性能を向上させる。
論文 参考訳(メタデータ) (2024-08-30T15:39:34Z) - Contextual Biasing of Named-Entities with Large Language Models [12.396054621526643]
本稿では,Large Language Models (LLM) を用いた文脈バイアスについて検討する。
LLMに追加のコンテキスト情報を提供して、自動音声認識(ASR)性能を向上する。
本稿では, バイアスリストと少数ショット例を組み込んだ再描画時に, 微調整を行なわずに, LLMのプロンプトを活用することを提案する。
論文 参考訳(メタデータ) (2023-09-01T20:15:48Z) - End-to-End User Behavior Retrieval in Click-Through RatePrediction Model [15.52581453176164]
本稿では,学習と推論のコストを大幅に削減できる ETA (Locality-sensitive hashing) 法を提案する。
GMV(Gross Merchandise Value)を2段階の長期ユーザシーケンスCTRモデルと比較して3.1%改善した。
論文 参考訳(メタデータ) (2021-08-10T06:28:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。