論文の概要: SemPiper: Interactive Code Synthesis for Semantic Operators in Machine Learning Pipelines
- arxiv url: http://arxiv.org/abs/2606.14361v1
- Date: Fri, 12 Jun 2026 11:40:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-15 16:00:42.880577
- Title: SemPiper: Interactive Code Synthesis for Semantic Operators in Machine Learning Pipelines
- Title(参考訳): SemPiper: マシンラーニングパイプラインにおけるセマンティック演算子のための対話型コード合成
- Authors: Olga Ovcharenko, Luciano Duarte, Sebastian Schelter,
- Abstract要約: 機械学習パイプラインをセマンティックデータ演算子で拡張するプログラミングモデルであるSemPipesを実演する。
セマンティック演算子の場合、SemPipesはパイプライントレーニング時に特別な実装を合成する。
本稿では,MLパイプライン開発におけるLLMの制御可能,最適化可能,実用的な統合を実現するためのセマンティック演算子について述べる。
- 参考スコア(独自算出の注目度): 7.868559688632956
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Machine learning (ML) pipelines require extensive data preparation, feature engineering, and integration across heterogeneous sources, making them tedious and error-prone to develop. While large language models (LLMs) have recently shown promise for assisting programming tasks, chat-based interfaces provide limited control over pipeline behavior and often produce code that is difficult to optimize or integrate into production systems. We demonstrate SemPipes, a novel programming model that extends ML pipelines with declarative, LLM-powered semantic data operators. SemPipes allows developers to specify high-level natural language instructions for data-centric operations, while seamlessly combining these operators with arbitrary Python code from standard data science libraries. For the semantic operators, it synthesizes specialized implementations at pipeline training time, conditioned on dataset characteristics and pipeline context, enabling the flexible yet controlled integration of LLM capabilities. We demonstrate SemPipes through SemPiper, an interactive interface that visualizes computational graphs of the pipelines, synthesized operator implementations, and optimization trajectories produced by an evolutionary search procedure. Attendees can explore three end-to-end scenarios, modify pipelines, inspect generated code, and observe how semantic operators are synthesized and iteratively optimized. The demonstration highlights how declarative semantic operators enable controllable, optimizable, and practical integration of LLMs into ML pipeline development.
- Abstract(参考訳): 機械学習(ML)パイプラインは、広範囲なデータ準備、機能エンジニアリング、異種ソース間の統合を必要とするため、開発が面倒でエラーを起こしやすい。
大規模言語モデル(LLM)はプログラミングタスクを補助する約束を最近示したが、チャットベースのインターフェースはパイプラインの振る舞いを限定的に制御し、プロダクションシステムへの最適化や統合が難しいコードを生成することが多い。
SemPipesは、MLパイプラインを宣言型LLMベースのセマンティックデータ演算子で拡張する、新しいプログラミングモデルである。
SemPipesを使用することで、開発者はデータ中心の操作に対して高レベルの自然言語命令を指定できると同時に、これらの演算子を標準データサイエンスライブラリから任意のPythonコードとシームレスに組み合わせることができる。
セマンティック演算子は、データセットの特徴とパイプラインコンテキストを条件に、パイプライントレーニング時に特別な実装を合成し、柔軟性がありながら制御されたLLM機能の統合を可能にする。
SemPipesは、パイプラインの計算グラフを可視化し、演算子の実装を合成し、進化的な探索手順によって生成された軌道を最適化する対話型インタフェースである。
Attendeesは3つのエンドツーエンドシナリオを探索し、パイプラインを修正し、生成されたコードを検査し、セマンティックオペレータをどのように合成し、反復的に最適化するかを観察することができる。
このデモでは、宣言型セマンティック演算子がMLパイプライン開発にLLMを制御可能、最適化可能、実践的に統合する方法を強調している。
関連論文リスト
- kRAIG: A Natural Language-Driven Agent for Automated DataOps Pipeline Generation [0.5833117322405447]
我々は、自然言語仕様をプロダクション対応KubeReason Pipelines(KFP)に変換するAIエージェントであるkRAIGを紹介する。
ユーザ意図の曖昧さを解決するために,パイプライン合成に先立って意図を明確に示すインタラクションフレームワークReQuesActを提案する。
本フレームワークは,最先端のエージェントベースラインと比較して,抽出とロードの精度が3倍向上し,変換精度が25%向上する。
論文 参考訳(メタデータ) (2026-03-19T17:53:00Z) - Toward Reliable Scientific Visualization Pipeline Construction with Structure-Aware Retrieval-Augmented LLMs [8.621769369142395]
本稿では,パイプライン対応のvtk.jsコード例をコンテキストガイダンスとして提供する構造対応検索拡張生成ワークフローを提案する。
構造化されたドメイン固有のコンテキストによってパイプライン実行性が大幅に改善され、修正コストが削減されることを示す。
論文 参考訳(メタデータ) (2026-03-17T01:52:11Z) - SemPipes -- Optimizable Semantic Data Operators for Tabular Machine Learning Pipelines [12.816711873869984]
本稿では,セマンティックデータ演算子をMLパイプラインに統合する新しい宣言型プログラミングモデルであるSemPipesを紹介する。
SemPipesはデータ特性、演算子命令、パイプラインコンテキストに基づいて、カスタム演算子実装を合成する。
セマンティック演算子は、専門家が設計したパイプラインとエージェント生成パイプラインの両方において、エンドツーエンドの予測性能を大幅に向上することを示す。
論文 参考訳(メタデータ) (2026-02-04T23:36:29Z) - Unlocking Implicit Experience: Synthesizing Tool-Use Trajectories from Text [48.25052564552558]
本稿では,テキストコーパスから多ターンツール利用トラジェクトリの生成と抽出を可能にするデータ合成パイプラインであるGEMを紹介する。
計算コストを削減するため,教師付き微調整により特別なトラジェクトリ合成器を訓練する。
GEM-32BはBFCL V3 Multi-turnベンチマークで16.5%改善した。
論文 参考訳(メタデータ) (2026-01-15T12:58:46Z) - Large Language Model Agent for User-friendly Chemical Process Simulations [0.0]
大規模言語モデル (LLM) エージェントは AVEVA Process Model Protocol (MCP) と統合され、自然言語のシミュレーションを可能にする。
2つのケーススタディは、異なるタスクの複雑さと相互作用モードにわたるフレームワークを評価する。
このフレームワークは、技術的な概念の翻訳と実証によって教育目的と、データ抽出の自動化、ルーチンタスクの高速化、サポートによって経験豊富な実践者の両方に役立ちます。
オーバーシンプル化、計算エラー、技術的ヒックアップといった現在の制限は専門家の監視を必要とするが、このフレームワークはLSMベースのエージェントが貴重な協力者になれることを示唆している。
論文 参考訳(メタデータ) (2026-01-15T12:18:45Z) - From Code Foundation Models to Agents and Applications: A Practical Guide to Code Intelligence [150.3696990310269]
大規模言語モデル(LLM)は、自然言語記述を直接関数コードに変換することによって、自動ソフトウェア開発を変革した。
コードLLMに関する総合的な合成と実践的ガイド(一連の解析および探索実験)を提供する。
一般LLM(GPT-4, Claude, LLaMA)とコード特殊化LLM(StarCoder, Code LLaMA, DeepSeek-Coder, QwenCoder)のコード機能の解析を行う。
論文 参考訳(メタデータ) (2025-11-23T17:09:34Z) - Large Language Models as Realistic Microservice Trace Generators [48.730974361862366]
本稿では,大規模言語モデル (LLM) を用いて, 合成作業負荷トレースを生成する手法を提案する。
我々はTraceLLMが様々な条件下で多様なリアルなトレースを生成し、精度と妥当性の両方において既存のアプローチよりも優れていることを示す。
TraceLLMは、キートレース機能を予測したり、欠落したデータを埋め込むといった、下流のトレース関連タスクに適応する。
論文 参考訳(メタデータ) (2024-12-16T12:48:04Z) - Instrumentation and Analysis of Native ML Pipelines via Logical Query Plans [3.2362171533623054]
私たちは、データサイエンティストが機械学習パイプラインを開発し、検証し、監視し、分析するのを支援するために、高度に自動化されたソフトウェアプラットフォームを構想しています。
一般的なライブラリに依存したMLパイプラインコードから"論理クエリプラン"を抽出する。
これらの計画に基づいて、パイプラインのセマンティクスとインスツルメンタを自動で推論し、MLパイプラインを書き換えて、データサイエンティストが手動でアノテートしたり、コードを書き換えたりすることなく、さまざまなユースケースを可能にします。
論文 参考訳(メタデータ) (2024-07-10T11:35:02Z) - From Summary to Action: Enhancing Large Language Models for Complex
Tasks with Open World APIs [62.496139001509114]
大規模な現実世界のAPIを制御するために設計された新しいツール呼び出しパイプラインを導入します。
このパイプラインは人間のタスク解決プロセスを反映し、複雑な実際のユーザクエリに対処する。
ToolBenchベンチマークにおけるSum2Actパイプラインの実証的な評価は、大幅なパフォーマンス向上を示している。
論文 参考訳(メタデータ) (2024-02-28T08:42:23Z) - SOLIS -- The MLOps journey from data acquisition to actionable insights [62.997667081978825]
本稿では,基本的なクロスプラットフォームテンソルフレームワークとスクリプト言語エンジンを使用しながら,すべての要件をサポートする統合デプロイメントパイプラインとフリー・ツー・オペレートアプローチを提案する。
しかし、このアプローチは、実際のプロダクショングレードシステムに機械学習機能を実際にデプロイするために必要な手順やパイプラインを提供していない。
論文 参考訳(メタデータ) (2021-12-22T14:45:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。