論文の概要: Supervision versus Demonstration-Based In-Context Learning for Multiword Expression Classification
- arxiv url: http://arxiv.org/abs/2606.07479v1
- Date: Fri, 05 Jun 2026 17:34:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-08 14:33:29.870811
- Title: Supervision versus Demonstration-Based In-Context Learning for Multiword Expression Classification
- Title(参考訳): マルチワード表現分類のための概念対デモに基づくインコンテキスト学習
- Authors: Sercan Karakaş, Yusuf Şimşek,
- Abstract要約: トルコ語の慣用的軽動詞構造 (LVC) は多語表現処理において困難である。
トルコ語LVC検出を二分的分類タスク(文字的意味と慣用的意味)として用いた。
手動で生成した制御集合 (N=147) と一致した負値について評価した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Turkish idiomatic light verb constructions (LVCs) are challenging for multiword expression processing because they often share the same surface form as fully literal verb-object combinations while functioning as a single, partially idiomatic predicate. We frame Turkish LVC detection as a binary classification task (literal meaning vs. idiomatic meaning) and evaluate on a manually created controlled set (N=147) with matched negatives: out-of-domain random sentences and in-domain literal controls (NLVC), alongside LVC positives. We compare a supervised Turkish encoder baseline (BERTurk with a classifier head) to three instruction-tuned LLMs from different families under zero-shot, one-shot, and few-shot prompting, and analyze how demonstrations shift error profiles. In zero-shot, LLMs perform well on negatives but show very low LVC recall. One-shot prompting sharply improves LVC detection but can induce strong, model-specific biases, leading models to overpredict or underpredict LVCs. A richer few-shot prompt improves calibration and yields robust overall performance for GPT-OSS-20B and Qwen 2.5-14B. Overall, the results highlight substantial prompt sensitivity in Turkish metalinguistic classification: the supervised baseline remains competitive, while prompted LLMs can match or exceed it on LVCs with carefully constructed demonstrations.
- Abstract(参考訳): トルコ語の慣用的軽動詞構成(LVC)は、単音節的述語として機能しながら、完全にリテラルな動詞と目的語の組み合わせと同じ表面形を共有することが多いため、多語表現処理において困難である。
トルコ語のLVC検出を2進分類タスク(リテラルの意味対慣用的意味)として設定し、LVC陽性とともに、ドメイン外乱文とドメイン内リテラル制御(NLVC)の一致した負のマニュアル生成制御セット(N=147)で評価する。
教師付きトルコ語エンコーダベースライン(BERTurkと分類器ヘッド)と、ゼロショット、ワンショット、少数ショットのプロンプトの下で異なるファミリーの3つの命令調整LDMを比較し、デモがどのようにエラープロファイルを変更するかを分析する。
ゼロショットでは、LLMは負に対してよく機能するが、非常に低いLVCリコールを示す。
ワンショットプロンプトは、LVCの検出を劇的に改善するが、強いモデル固有のバイアスを誘発し、モデルがLVCを過大予測または過小予測する。
よりリッチな数発のプロンプトによりキャリブレーションが向上し、GPT-OSS-20BとQwen 2.5-14Bの全体的な性能が向上する。
全体としては、トルコの金属言語分類において、教師付きベースラインは競争力を維持する一方、LLMは慎重に構築されたデモンストレーションでLVCにマッチまたは超過することができる。
関連論文リスト
- Multilingual Cognitive Impairment Detection in the Era of Foundation Models [6.141505279958125]
英語,スロベニア語,韓国語における音声の書き起こしから認知障害(CI)分類を評価する。
直接分類器として用いられるゼロショット大言語モデル(LLM)を3つの入力条件下で比較する。
論文 参考訳(メタデータ) (2026-04-08T07:22:43Z) - Is my model perplexed for the right reason? Contrasting LLMs' Benchmark Behavior with Token-Level Perplexity [6.285055089721361]
モデルが言語学的に関係のある手がかりに依存しているかどうかをテストするために,トークンレベルの難易度に基づく基本的解釈可能性フレームワークを導入する。
本手法は,不安定な特徴帰属技術に頼ることなく,正確な仮説駆動解析を可能にする。
論文 参考訳(メタデータ) (2026-03-31T08:00:55Z) - From Lemmas to Dependencies: What Signals Drive Light Verbs Classification? [0.0]
軽動詞構成 (LVCs) は、特にトルコ語において、動詞の多語表現の難易度クラスである。
本稿では,モデル入力を体系的に制限することで,どの信号がLVC分類を駆動するかを問う。
論文 参考訳(メタデータ) (2026-02-04T01:41:11Z) - Language-Guided Invariance Probing of Vision-Language Models [2.0789144738685956]
本稿では,Language-Guided Invariance Probing (LGIP)を導入し,画像テキストマッチングにおけるパラフレーズへの不変性と意味的フリップに対する感度を測定する。
EVA02-CLIPおよび大きなOpenCLIP変異体は、低パラフレーズ誘発の変動と、元のキャプションのスコアを一定に高め、好適な不変感度フロンティア上にあることを示す。
論文 参考訳(メタデータ) (2025-11-17T15:35:49Z) - Bridging the Gap: In-Context Learning for Modeling Human Disagreement [8.011316959982654]
大規模言語モデル(LLM)はNLP分類タスクにおいて高い性能を示している。
本研究では,LLMが複数の視点を捉えることができ,ヘイトスピーチや攻撃的言語検出などの主観的タスクにおいてアノテータの不一致を反映できるかどうかを検討する。
論文 参考訳(メタデータ) (2025-06-06T14:24:29Z) - Aligning Language Models with Demonstrated Feedback [58.834937450242975]
Demonstration ITerated Task Optimization (DITTO)は、言語モデルの出力とユーザの実証された振る舞いを直接調整する。
我々は,DITTOがニュース記事やメール,ブログ記事などのドメイン間できめ細かいスタイルやタスクアライメントを学習する能力を評価する。
論文 参考訳(メタデータ) (2024-06-02T23:13:56Z) - Evaluating Generative Language Models in Information Extraction as Subjective Question Correction [49.729908337372436]
本稿では,新しい評価手法SQC-Scoreを提案する。
主観的質問訂正の原則に着想を得て,新しい評価手法SQC-Scoreを提案する。
3つの情報抽出タスクの結果から,SQC-Scoreは基準値よりもアノテータの方が好ましいことが示された。
論文 参考訳(メタデータ) (2024-04-04T15:36:53Z) - Test-Time Adaptation with CLIP Reward for Zero-Shot Generalization in
Vision-Language Models [76.410400238974]
モデル出力を補正し、モデルが盲目的に自信を持たないようにするためのフィードバック付きTTAを提案する。
CLIPモデルは、TTA中に報酬モデルとして採用され、VLMにフィードバックを提供する。
提案したCLIPフィードバック(RLCF)フレームワークによるテキスト強化学習は非常に柔軟で普遍的である。
論文 参考訳(メタデータ) (2023-05-29T11:03:59Z) - Simple Linguistic Inferences of Large Language Models (LLMs): Blind Spots and Blinds [59.71218039095155]
我々は,ほとんどの人間が自明に感じる単純な推論タスクにおいて,言語理解能力を評価する。
我々は, (i) 文法的に特定された含意, (ii) 不確実性のある明らかな副詞を持つ前提, (iii) 単調性含意を目標とする。
モデルはこれらの評価セットに対して中程度から低い性能を示す。
論文 参考訳(メタデータ) (2023-05-24T06:41:09Z) - Understanding Emergent In-Context Learning from a Kernel Regression Perspective [55.95455089638838]
大規模言語モデル(LLM)は、伝達学習のパラダイムシフトを開始した。
本稿では,LLMのICLバハビエータの理解におけるカーネル-回帰的視点を提案する。
ICL中、LLMの注意と隠れた特徴は、カーネル回帰の挙動と一致していることがわかった。
論文 参考訳(メタデータ) (2023-05-22T06:45:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。