論文の概要: SEF-CLGC at SemEval-2026 Task 11: Logical Notation Impact on Language Model Performance
- arxiv url: http://arxiv.org/abs/2606.09157v1
- Date: Mon, 08 Jun 2026 07:47:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:06.815715
- Title: SEF-CLGC at SemEval-2026 Task 11: Logical Notation Impact on Language Model Performance
- Title(参考訳): SEF-CLGC at SemEval-2026 Task 11: Logical Notation Impact on Language Model Performance (英語)
- Authors: Hanna Abi Akl, Fabien Gandon, Catherine Faron, Pierre Monnin,
- Abstract要約: 本研究では,SemEval-2026 Task 11 Subtask 1: Disentangling Content and Formal Reasoning in Large Language Models上での推論性能を評価するために,形式論理表記とSLM(Small Language Models)を組み合わせる。
実験の結果,自然言語と記号言語の組み合わせで学習したSLMにのみ依存することで,作業内容の27.80%のスコアを達成でき,推論におけるコンテンツバイアスを大幅に低減できることがわかった。
- 参考スコア(独自算出の注目度): 3.6047642906482142
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper revisits our pipeline called Syllogistic Evaluation Framework-Common Logic Grammar Construction (SEF-CLGC). We combine formal logical notations with Small Language Models (SLMs) to evaluate reasoning performance on the SemEval-2026 Task 11 Subtask 1: Disentangling Content and Formal Reasoning in Large Language Models. Our experiments show that by relying solely on SLMs, trained on a combination of natural and symbolic languages, our best model achieves a content score of 27.80% on the task while significantly lowering the content bias in reasoning.
- Abstract(参考訳): 本稿では,Sylological Evaluation Framework-Common Logic Grammar Construction (SEF-CLGC) と呼ばれるパイプラインを再検討する。
本研究では,SemEval-2026 Task 11 Subtask 1: Disentangling Content and Formal Reasoning in Large Language Models上での推論性能を評価するために,形式論理表記とSLM(Small Language Models)を組み合わせる。
実験の結果,自然言語と記号言語の組み合わせで学習したSLMにのみ依存することで,作業内容の27.80%を達成でき,推論におけるコンテンツバイアスを大幅に低減できることがわかった。
関連論文リスト
- LLMEval-Logic: A Solver-Verified Chinese Benchmark for Logical Reasoning of LLMs with Adversarial Hardening [69.1037790901185]
現実的な状況シナリオから構築した中国の論理的推論ベンチマークLLMEval-Logicを提案する。
パイプラインのフォワードオーサとエキスパート-オーディット 自然言語アイテムは、参照の形式化とともに、Z3による注釈付き回答を検証し、自然言語から形式へのグレーディングのためのエキスパートルーブリックを構築し、クローズドループの逆行ワークフローを通じて選択されたアイテムを硬化させる。
論文 参考訳(メタデータ) (2026-05-19T09:40:29Z) - UFAL-CUNI at SemEval-2026 Task 11: An Efficient Modular Neuro-symbolic Method for Syllogistic Reasoning [2.622018851078979]
本稿では,SemEval-2026 Task 11: Disentangling Content and Formal Reasoning in Large Language Modelsについて述べる。
我々は,記号型証明器と小推論LLMを組み合わせた,効率的なモジュラー型ニューロシンボリックアプローチを提案する。
論文 参考訳(メタデータ) (2026-05-06T14:10:06Z) - ITLC at SemEval-2026 Task 11: Normalization and Deterministic Parsing for Formal Reasoning in LLMs [9.363838558599863]
大規模言語モデルは推論タスク、特に多言語文脈における内容効果に悩まされる。
本稿では,これらのバイアスを明示的な構造的抽象化によって低減する新しい手法を提案する。
提案手法は,全サブタスクにまたがるトップ5のランキングを達成し,コンテンツ効果を大幅に低減する。
論文 参考訳(メタデータ) (2026-03-03T07:02:45Z) - LTG at SemEval-2025 Task 10: Optimizing Context for Classification of Narrative Roles [0.3069335774032178]
コンテキスト選択のための単純なエンティティ指向アプローチにより、限られたコンテキストウィンドウを持つモデルを用いたテキスト分類が可能となることを示す。
我々の文脈選択アプローチとXLM-RoBERTa言語モデルは、より大きな生成言語モデルでスーパービジョンファインチューニング(Supervised Fine-Tuning, Supervised Fine-Tuning, Supervised Language Model)に匹敵する、あるいは優れています。
論文 参考訳(メタデータ) (2025-06-06T10:58:45Z) - CLOMO: Counterfactual Logical Modification with Large Language Models [109.60793869938534]
本稿では,新しいタスク,CLOMO(Counterfactual Logical Modification)と高品質な人間アノテーションベンチマークを紹介する。
このタスクでは、LLMは所定の論理的関係を維持するために、与えられた議論的テキストを順応的に変更しなければなりません。
LLMの自然言語出力を直接評価する革新的な評価指標である自己評価スコア(SES)を提案する。
論文 参考訳(メタデータ) (2023-11-29T08:29:54Z) - Text Classification via Large Language Models [63.1874290788797]
テキスト分類に関わる複雑な言語現象に対処するために、Clue And Reasoning Prompting (CARP)を導入する。
注目すべきは、CARPが5つの広く使用されているテキスト分類ベンチマークのうち4つで新しいSOTAパフォーマンスを得ることだ。
さらに重要なのは、CARPが低リソースとドメイン適応のセットアップで素晴らしい能力を提供します。
論文 参考訳(メタデータ) (2023-05-15T06:24:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。