Fugu-MT 論文翻訳(概要): Bridging Expert Knowledge and Automated Feature Engineering via Self-Evolution

論文の概要: Bridging Expert Knowledge and Automated Feature Engineering via Self-Evolution

arxiv url: http://arxiv.org/abs/2606.08800v1
Date: Sun, 07 Jun 2026 19:39:03 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-09 14:42:06.456993
Title: Bridging Expert Knowledge and Automated Feature Engineering via Self-Evolution
Title（参考訳）: 自己進化によるエキスパート知識のブリッジと機能工学の自動化
Authors: Varun Khurana, Vijval Ekbote, Vashu Chauhan, Yaman Kumar Singla, Rajiv Ratn Shah, Balaji Krishnamurthy,
Abstract要約: 本稿では,FEST (Feature Engineering with Self-evolving Trees) について述べる。 FESTは、厳密なセマンティックアライメントしきい値において、専門家が設計したブランド機能の60～80%のカバレッジを達成している。自動機能エンジニアリングにおけるエキスパートアライメントの体系的評価を可能にするために,2,683ブランドで1M以上のアセットを備えた,最初のデータセットペアリング専門家設計機能であるBrandGuideをリリースした。
参考スコア（独自算出の注目度）: 35.18494473127365
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: In high-stakes settings such as brand compliance, clinical care, and content moderation, machine learning cannot be deployed as opaque oracles: practitioners inspect the features driving model decisions, and models must leverage the expert documentation governing these domains. In practice, the data arrives as unstructured content, and features extracted from it must be interpretable, discriminative, and aligned with what experts consider important. Existing methods fall short: they target tabular inputs, lack demonstrated expert alignment, and cannot operationalize qualitative criteria such as 'maintain professional tone' into precise features. We present FEST (Feature Engineering with Self-evolving Trees), combining dual-stream feature generation (semantic and deterministic), semantic deduplication, and tree-guided iterative evolution to discover auditable features from raw text and images. FEST leads in 17 of 20 classifier-task combinations across brand classification, content authenticity detection, and stress detection, with a mean gain of 4.2 pp over the strongest baseline across five classifiers. An LLM-as-judge evaluation shows FEST achieves 60-80% coverage of expert-designed brand features at strict semantic-alignment thresholds, corroborated by a human expert study rating features highly on relevance, clarity, and actionability. When seeded with expert guidelines, FEST refines qualitative criteria into operational features, improving accuracy by 6-12 pp on average across brands. To enable systematic evaluation of expert alignment in automated feature engineering, we release BrandGuide, the first dataset pairing expert-designed features with 1M+ assets across 2,683 brands. By grounding feature engineering in expert knowledge, FEST opens a practical pathway for interpretable ML in domains demanding human oversight.
Abstract（参考訳）: ブランドコンプライアンスや臨床ケア、コンテンツモデレーションといった高度な設定では、マシンラーニングは不透明なオラクルとしてデプロイすることはできない。実際には、データは構造化されていないコンテンツとして届き、そこから抽出された特徴は解釈可能で差別的であり、専門家が重要と考えるものと一致しなければならない。既存の手法では、表形式の入力をターゲットとしており、専門家のアライメントが不足しており、「プロのトーンを維持する」といった質的な基準を正確な特徴として運用することはできない。本稿では,FEST(Feature Engineering with Self-evolving Trees)について,2重ストリーム特徴生成(意味的および決定論的),意味的重複,木誘導的反復的進化を組み合わせ,生のテキストや画像から可聴な特徴を発見する。 FESTは、ブランド分類、コンテンツ認証検出、ストレス検出を含む20の分類器とタスクの組み合わせのうち17でリードし、5つの分類器で最強のベースラインよりも平均4.2pp上昇した。 LLM-as-judgeの評価によると、FESTは、厳密なセマンティックアライメント閾値で、専門家が設計したブランド機能の60-80%のカバレッジを達成している。専門家のガイドラインでシードされたFESTは、定性的基準を運用機能に洗練し、ブランド全体で平均6-12ppの精度を向上した。自動機能エンジニアリングにおけるエキスパートアライメントの体系的評価を可能にするために,2,683ブランドで1M以上のアセットを備えた,最初のデータセットペアリング専門家設計機能であるBrandGuideをリリースした。機能工学を専門家の知識に根ざすことで、FESTは人間の監視を必要とする領域でMLを解釈するための実践的な道を開く。

関連論文リスト

Xpertbench: Expert Level Tasks with Rubrics-Based Evaluation [32.5154721488471]
LLM(Large Language Models)は、従来のベンチマークで高い性能を示す。既存のフレームワークは、狭いドメインカバレッジ、ジェネラリストのタスクへの依存、あるいは自己評価バイアスに悩まされている。 XpertBench(英語版)は、真の専門分野にわたるLSMを評価するために開発された高忠実度ベンチマークである。
論文参考訳（メタデータ） (2026-03-27T11:28:15Z)
Automated Self-Testing as a Quality Gate: Evidence-Driven Release Management for LLM Applications [51.56484100374058]
我々は,エビデンスに基づくリリース決定を伴う品質ゲートを導入する自動自己テストフレームワークを提案する。内部展開型多エージェント対話型AIシステムの縦型ケーススタディにより,本フレームワークの評価を行った。
論文参考訳（メタデータ） (2026-03-13T20:44:15Z)
DepthCharge: A Domain-Agnostic Framework for Measuring Depth-Dependent Knowledge in Large Language Models [51.56484100374058]
大きな言語モデルは一般的な質問に答えるときに有能に見えるが、ドメイン固有の詳細にプッシュされると失敗することが多い。 3つのイノベーションを通じて知識の深さを測定するドメインに依存しないフレームワークであるDepthChargeを紹介します。モデルが実際に言及している概念に基づいてフォローアップ質問を生成する適応的探索、権威のある情報源からのオンデマンドの事実検証、あらゆる深さのサンプルサイズが一定である生存統計。
論文参考訳（メタデータ） (2026-03-05T20:49:11Z)
Optimizing In-Context Demonstrations for LLM-based Automated Grading [31.353360036776976]
GUIDE(Grading Using Iteratively Designed Exemplars)は、経験的選択と改善を境界中心の最適化問題として再設計するフレームワークである。物理, 化学, 教育的内容知識の実験において, GUIDE は標準的検索基準を著しく上回っていることを示す。
論文参考訳（メタデータ） (2026-02-28T04:52:38Z)
Encyclo-K: Evaluating LLMs with Dynamically Composed Knowledge Statements [78.87065404966002]
既存のベンチマークは、主に質問レベルで質問をキュレートする。ベンチマーク構築をゼロから再考するステートメントベースのベンチマークであるEncyclo-Kを提案する。
論文参考訳（メタデータ） (2025-12-31T13:55:54Z)
Data Annotation Quality Problems in AI-Enabled Perception System Development [3.716862357836751]
データアノテーションは、AI対応の知覚システムの開発において必須であるが、非常にエラーを起こしやすい。我々は3つのデータ品質次元にまたがる18の繰り返しアノテーションエラーの分類法を開発した。この研究は、信頼できるAI対応認識システムを構築するための共有語彙、診断ツールセット、行動可能なガイダンスを提供することで、SE4AIに貢献する。
論文参考訳（メタデータ） (2025-11-20T14:30:51Z)
OutboundEval: A Dual-Dimensional Benchmark for Expert-Level Intelligent Outbound Evaluation of Xbench's Professional-Aligned Series [36.88936933010042]
OutboundEvalは、インテリジェントなアウトバウンドコールシナリオにおいて、大きな言語モデル(LLM)を評価するための包括的なベンチマークである。 6つの主要なビジネスドメインと30の代表的なサブシナリオにまたがるベンチマークを設計します。本稿では,タスク実行の正確性,専門知識の適用性,適応性,ユーザエクスペリエンスの質を評価するために,タスクのバリエーションに適応する動的評価手法を提案する。
論文参考訳（メタデータ） (2025-10-24T08:27:58Z)
Uncertainty-Driven Expert Control: Enhancing the Reliability of Medical Vision-Language Models [52.2001050216955]
既存の方法は、モデル構造を調整したり、高品質なデータで微調整したり、好みの微調整によって、医療ビジョン言語モデル(MedVLM)の性能を向上させることを目的としている。我々は,MedVLMと臨床専門知識の連携を図るために,Expert-Controlled-Free Guidance (Expert-CFG) という,ループ内のエキスパート・イン・ザ・ループフレームワークを提案する。
論文参考訳（メタデータ） (2025-07-12T09:03:30Z)
ExpertGenQA: Open-ended QA generation in Specialized Domains [9.412082058055823]
ExpertGenQAは、いくつかのショット学習と構造化トピックとスタイル分類を組み合わせて、包括的なドメイン固有のQAペアを生成するプロトコルである。 ExpertGenQAは,9,4.4%のトピックカバレッジを維持しつつ,ベースライン数ショットアプローチの効率を2倍に向上することを示す。
論文参考訳（メタデータ） (2025-03-04T19:09:48Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。