論文の概要: Automated IEP Generation from Traditional Chinese Parent-Teacher Interviews via Corpus-Grounded Feature Diffusion
- arxiv url: http://arxiv.org/abs/2606.09603v1
- Date: Mon, 08 Jun 2026 15:13:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:07.372873
- Title: Automated IEP Generation from Traditional Chinese Parent-Teacher Interviews via Corpus-Grounded Feature Diffusion
- Title(参考訳): コーパスグラウンド特徴拡散による従来の中国親子インタビューからのIEP自動生成
- Authors: Kuanlin Chen, Cheng-En Ou,
- Abstract要約: 従来の中国の特殊教育NLPは、ドメインデータの不足、厳格なプライバシー規制、ローカル評価ベンチマークの欠如などにより、ほとんど探索されていない。
コーパスグラウンド機能拡散に着目した低リソース微調整パイプラインを提案する。
このシステムは、従来の中国の特殊教育NLPのギャップに対処し、スケーラブルでプライバシー保護されたローカル推論ソリューションを提供する。
- 参考スコア(独自算出の注目度): 8.10713889114366
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Writing Individualized Education Programs (IEPs) is a high-labor, knowledge-intensive document burden; English-language research has demonstrated that generative AI can significantly reduce drafting time, yet automated IEP generation in Traditional Chinese remains virtually unexplored due to domain data scarcity, strict privacy regulations, and the absence of local evaluation benchmarks. We propose a low-resource fine-tuning pipeline centered on Corpus-Grounded Feature Diffusion (CGFD): (1) 25 dual-expert high-score seed transcripts are selected via a tau threshold with flag-aware score caps; (2) a FeatureProfile (sentence length, structure, quantification templates) is extracted from seeds and injected into LLM prompts alongside Verbalized-Sampling-style diversity control to drive diffusion; (3) 15 expert gold seeds are used as diffusion anchors, targeting 585 samples; 567 valid diffusion samples are obtained, yielding a 582-sample training set used to fine-tune Breeze-7B with QLoRA; (4) schema-constrained inference via Grammar-Constrained Decoding (GCD) enforces a hierarchical SMART Goal Ladder schema at inference time. Ablation results on a 55-sample schema stress set reveal an unexpected finding: GCD is counterproductive under Traditional Chinese token budgets -- the no-GCD path achieves 100% schema pass rate at 34% lower median latency, outperforming GCD on both reliability and speed. On the n=10 formal hold-out, the no-GCD inference path achieves BERTScore F1 = 0.779, exceeding GPT-5.4 (0.726), DeepSeek-V3.2 (0.703), Gemini-3-Flash-Preview (0.703), and Llama-4-Maverick (0.700) zero-shot baselines while maintaining fully local, air-gapped inference. This system addresses a gap in Traditional Chinese special-education NLP and offers a scalable, privacy-preserving local inference solution under an industrial engineering paradigm.
- Abstract(参考訳): 英語の研究では、生成AIはドラフト作成時間を著しく削減できるが、ドメインデータの不足、厳格なプライバシー規制、ローカル評価ベンチマークの欠如などにより、従来の中国語における自動IEP生成はほとんど探索されていない。
CGFD (Corpus-Grounded Feature Diffusion) を中心にした低リソースの細調整パイプラインを提案する。(1) フラグ対応スコアキャップ付きタウしきい値を用いて25個の高精細度シードトランスクリプトを選択し、(2) 特徴Profile (文長、構造、定量化テンプレート) をシードから抽出し、LLMプロンプトに注入して拡散を駆動するバーバル化サンプリングスタイルの多様性制御とともにLLMプロンプトに注入し、(3) 15個の専門家金種を拡散アンカーとして使用し、585個のサンプルを標的とし、567個の有効拡散サンプルを取得し、QLoRAでブレゼ7Bを微調整するための582サンプルのトレーニングセットを得る。
GCDは従来の中国のトークン予算では非生産的であり、No-GCDパスは中央値の34%のレイテンシで100%スキーマパスレートを達成し、信頼性とスピードの両方でGCDを上回っている。
n=10の正式なホールドアウトでは、非GCD推論パスはBERTScore F1 = 0.779を達成し、GPT-5.4 (0.726)、DeepSeek-V3.2 (0.703)、Gemini-3-Flash-Preview (0.703)、Llama-4-Maverick (0.700) のゼロショットベースラインを維持しながら、完全に局所的かつエアバッグ付き推論を維持している。
このシステムは、伝統的な中国の特殊教育NLPのギャップに対処し、産業工学のパラダイムの下で、スケーラブルでプライバシー保護のローカル推論ソリューションを提供する。
関連論文リスト
- Automated Proving of Shannon-Type Entropy Inequalities via Fine-Tuned Language Models and Guided Tree Search [50.16356451328644]
シャノン型エントロピーの不等式を証明することは情報理論の基本的な課題である。
我々は,原子実証のステップを微調整した小規模大規模言語モデルがこのプロセスを自動化することができるか検討する。
GPT-5.5は0ショットプロンプトで1.7%のサンプルを解き、Psitipは33.3%のサンプルを解いた。
論文 参考訳(メタデータ) (2026-06-04T05:43:12Z) - A Modelling and Evaluation Framework for EuroCrops-Driven Sentinel-2 Crop Segmentation [78.66324246922831]
本研究では,Sentinel-2イメージとEuroCropsパーセルレベルのアノテーションからセマンティックセグメンテーション対応農業データセットを生成するパイプラインを提案する。
このデータセットには、ヨーロッパ5カ国から67,337のパッチが含まれており、10種類の作物と背景の分類を減らしている。
The four-level U-Net with Group Normalization were training using 10 Sentinel-2 spectrum bands and a Composite loss with class-weighted cross-entropy and Dice loss。
論文 参考訳(メタデータ) (2026-05-30T11:20:29Z) - Locale-Conditioned Few-Shot Prompting Mitigates Demonstration Regurgitation in On-Device PII Substitution with Small Language Models [2.2228811750157482]
PIIのリアクションは通常、検出されたエンティティを[PERSON]のようなプレースホルダートークンに置き換える。
我々は、PIIを一貫した型保存型偽値で置き換える完全なオンデバイスパイプラインを提案する。
論文 参考訳(メタデータ) (2026-05-13T13:47:11Z) - MCPHunt: An Evaluation Framework for Cross-Boundary Data Propagation in Multi-Server MCP Agents [10.895733091955547]
マルチサーバ MCP 信頼境界を越えた冗長なクレデンシャル伝搬を分離する最初のベンチマークを提案する。
メインベンチマークは5つのモデルから3,615点を超え、すべてのモデルで政策違反の伝播速度は11.5-41.3%に達した。
3モデル間での即時緩和調査は、80.5%の実用性を維持しながら、ポリシー違反の伝播を最大97%削減する。
論文 参考訳(メタデータ) (2026-04-30T13:01:03Z) - WISV: Wireless-Informed Semantic Verification for Distributed Speculative Decoding in Device-Edge LLM Inference [56.297697169678095]
WISV(Wireless-Informed Semantic Verification)は、分散投機的復号化フレームワークである。
WISVは最大60.8%の許容長の増加、37.3%の対話ラウンドの削減、31.4%のエンドツーエンドレイテンシの改善を実現している。
NVIDIA Jetson AGX OrinとA40搭載サーバからなるハードウェアテストベッド上でWISVを検証する。
論文 参考訳(メタデータ) (2026-04-20T01:29:56Z) - Evaluating Small Language Models for Front-Door Routing: A Harmonized Benchmark and Synthetic-Traffic Experiment [0.05586191108738562]
小型言語モデル(SLM)は、サブ秒、ゼロマージナルコスト、セルフホストタスクの分類に十分な推論能力を持つ。
Study 1はPhi-3.5-mini、Qwen2.5-1.5B、Qwen-2.5-3Bを同一のAzure T4ハードウェア、サービススタック、量子化、固定60ケースコーパスで同期したオフラインベンチマークである。
研究2は、合成トラフィック下で事前登録された4本腕ランダム化実験であり、有効サンプルサイズは腕あたり60ケースである。
論文 参考訳(メタデータ) (2026-03-26T15:57:46Z) - An Evaluation Study of Hybrid Methods for Multilingual PII Detection [0.026059379504241156]
本稿では,決定論的正規表現と文脈認識型大規模言語モデル(LLM)を組み合わせて,スケーラブルなPII検出を行うRECAPを提案する。
重み付きF1スコアでは,NERモデルでは82%,ゼロショットLLMでは17%の精度で性能が向上した。
この作業は、コンプライアンスにフォーカスしたアプリケーションにおいて、効率的なPII検出のためのスケーラブルで適応可能なソリューションを提供する。
論文 参考訳(メタデータ) (2025-10-08T21:03:59Z) - LLM-Based Emulation of the Radio Resource Control Layer: Towards AI-Native RAN Protocols [28.04609776570199]
大型AIモデル(LAM)はAI-Native Air Interface(AI-AI)の重要な実現要因である
本稿では,デコーダのみのLAMを用いた無線リソース制御層の最初の標準準拠エミュレーションを提案する。
その結果,LSMをプロトコル対応推論で拡張すると,制御プレーンの手順を直接オーケストレーションできることがわかった。
論文 参考訳(メタデータ) (2025-05-22T15:55:56Z) - Learning Adaptive Parallel Reasoning with Language Models [70.1745752819628]
本稿では,適応並列推論(Adaptive Parallel Reasoning, APR)を提案する。
APRは、spawn()とjoin()操作を使用して適応的なマルチスレッド推論を可能にすることで、既存の推論メソッドを一般化する。
鍵となる革新は、親と子の両方の推論スレッドを最適化して、事前に定義された推論構造を必要とせずにタスクの成功率を高める、エンドツーエンドの強化学習戦略である。
論文 参考訳(メタデータ) (2025-04-21T22:29:02Z) - G-DetKD: Towards General Distillation Framework for Object Detectors via
Contrastive and Semantic-guided Feature Imitation [49.421099172544196]
そこで本研究では,すべてのピラミッドレベルにまたがる特徴ペア間のソフトマッチングを自動的に行う,意味誘導型特徴模倣手法を提案する。
また,異なる特徴領域間の関係で符号化された情報を効果的に捉えるために,コントラスト蒸留を導入する。
本手法は,(1)フレームワークのコンポーネントを別々に使用した場合に,既存の検出KD技術よりも優れた性能を発揮する。
論文 参考訳(メタデータ) (2021-08-17T07:44:27Z) - Generalized Focal Loss: Learning Qualified and Distributed Bounding
Boxes for Dense Object Detection [85.53263670166304]
一段検出器は基本的に、物体検出を密度の高い分類と位置化として定式化する。
1段検出器の最近の傾向は、局所化の質を推定するために個別の予測分岐を導入することである。
本稿では, 上記の3つの基本要素, 品質推定, 分類, ローカライゼーションについて述べる。
論文 参考訳(メタデータ) (2020-06-08T07:24:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。