論文の概要: SICI: A Semantic-Pragmatic Complexity Index Reveals Regime Shifts in LLM Stance Detection
- arxiv url: http://arxiv.org/abs/2606.13189v1
- Date: Thu, 11 Jun 2026 10:58:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-12 15:55:27.740502
- Title: SICI: A Semantic-Pragmatic Complexity Index Reveals Regime Shifts in LLM Stance Detection
- Title(参考訳): SICI: LLMスタンス検出におけるレジームシフトを探索する意味論的・実用的複雑度指数
- Authors: Fuqiang Niu, Bowen Zhang,
- Abstract要約: そこで本研究では,テキストペアによる意味論的負担の7次元診断尺度であるSICIを紹介する。
SemEval-2016とVAST全体で、SICIはLLMの精度を表面プロキシよりも高く予測し、クロススコラの信頼性を示している。
15-methodによる介入調査では、高複雑さのボトルネックを取り除くのではなく、帰属軸に沿ったモデルの変更、検索、議論がしばしば行われていることが示されている。
- 参考スコア(独自算出の注目度): 4.363650510090806
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Prompt-based LLMs are increasingly used for stance detection, but harder examples are not always repaired by clearer instructions, reasoning prompts, retrieval, or debate. We introduce SICI (Stance Inference Complexity Index), a seven-dimensional diagnostic measure of the semantic-pragmatic burden imposed by a target--text pair. Across SemEval-2016 and VAST, SICI predicts LLM accuracy better than surface proxies and shows substantial cross-scorer reliability ($α=0.771$). More importantly, LLM errors change regime as SICI increases: low-complexity examples invite over-attribution, especially Against predictions; intermediate examples form an unstable boundary; and high-complexity examples rapidly concentrate on None. This phase-transition-like structure persists across GPT-3.5, GPT-4o-mini, DeepSeek-V3, and GPT-4o, although stronger models move the boundaries. A 15-method intervention study further shows that prompting, retrieval, and debate often shift models along the attribution--abstention axis rather than removing the high-complexity bottleneck.
- Abstract(参考訳): プロンプトベースのLSMは、スタンス検出にますます使用されるが、より難しい例は、より明確な指示、推論のプロンプト、検索、議論によって常に修復されるとは限らない。
そこで本研究では,SICI(Stance Inference Complexity Index)について紹介する。
SemEval-2016 と VAST 全体で、SICI は LLM の精度が表面プロキシよりも優れていると予測し、かなりのクロススコラー信頼性(α=0.771$)を示している。
より重要なことは、LLMエラーはSICIが増加するにつれて状況が変化し、低複雑さの例は過剰寄与を招き、特に予測に反して、中間例は不安定な境界を形成し、高複雑さの例はNoneに急速に集中する。
この相転移様構造はGPT-3.5、GPT-4o-mini、DeepSeek-V3、GPT-4oにわたって持続するが、より強いモデルでは境界を移動させる。
15-methodによる介入調査では、高複雑さのボトルネックを取り除くのではなく、帰属軸に沿ったモデルの変更、検索、議論がしばしば行われていることが示されている。
関連論文リスト
- The Piggyback Hypothesis of Generalization: Explaining and Mitigating Emergent Misalignment [53.510840985295154]
狭いタスクの微調整は意味的に無関係なテスト領域に広範囲のミスアライメントをもたらすことを示す。
チャットテンプレートトークンは、ドメイン外のクエリに微調整された振る舞いをピギーバックすることができる。
トレーニング中に特定のトークン表現を正規化してEMを緩和するToken-Regularized Finetuning (TReFT)を提案する。
論文 参考訳(メタデータ) (2026-06-04T19:32:00Z) - Comparing LLM and Fine-Tuned Model Performance on NVDRS Circumstance Extraction with Varying Prompt Complexity [8.474809035213118]
そこで本研究では,コード名のみのプロンプトよりも詳細なプロンプトが改良された場合の予測を手作業で行うアルゴリズムを開発した。
我々は,国立暴力死亡報告システムから25の複雑な状況下で,大規模言語モデル (LLM) を微調整したRoBERTaに対して評価した。
論文 参考訳(メタデータ) (2026-05-21T00:33:52Z) - Elicitation Matters: How Prompts and Query Protocols Shape LLM Surrogates under Sparse Observations [0.0]
スパース観測により, LLMから抽出した代理的信念について検討した。
我々は、構造的プロンプトが効果的な先行として機能し、POSINTWISEとJOINTクエリは異なる信念を誘導し、シーケンシャルなエビデンスによって非単調で秩序に敏感な信頼度が更新されることを示した。
論文 参考訳(メタデータ) (2026-05-06T11:10:58Z) - Farther the Shift, Sparser the Representation: Analyzing OOD Mechanisms in LLMs [100.02824137397464]
難易度が増大する入力に遭遇した場合,大規模言語モデルが内部表現をどのように適応するかを検討する。
タスクの難易度が増大するにつれて、LLMの最後の隠れ状態は実質的にスペーサーとなる。
この空間性-微分的関係は、様々なモデルや領域で観測可能である。
論文 参考訳(メタデータ) (2026-03-03T18:48:15Z) - Reasoning with Confidence: Efficient Verification of LLM Reasoning Steps via Uncertainty Heads [104.9566359759396]
データ駆動の不確実性スコアに基づくステップレベルの推論検証の軽量な代替案を提案する。
本研究は, LLMの内部状態が不確実性を符号化し, 信頼性の高い検証信号として機能することが示唆された。
論文 参考訳(メタデータ) (2025-11-09T03:38:29Z) - From Harm to Help: Turning Reasoning In-Context Demos into Assets for Reasoning LMs [58.02809208460186]
デモとしてDeepSeek-R1の高品質なトレースを使って、このパラドックスを再検討する。
デモが最適であっても、より多くの例を加えることで、常に精度が低下することがわかった。
デモを明示的で再利用可能な洞察に変換するシーケンシャルなテストタイム手順であるInsight-to-solve(I2S)を紹介します。
論文 参考訳(メタデータ) (2025-09-27T08:59:31Z) - Towards Automated Error Discovery: A Study in Conversational AI [48.735443116662026]
本稿では,会話型AIにおけるエラーの検出と定義のためのフレームワークであるAutomated Error Discoveryを紹介する。
また,その実装に対するエンコーダに基づくアプローチとして,SEEED(Soft Clustering Extended-Based Error Detection)を提案する。
論文 参考訳(メタデータ) (2025-09-13T14:53:22Z) - Hidden in Plain Sight: Reasoning in Underspecified and Misspecified Scenarios for Multimodal LLMs [28.913007638707427]
マルチモーダルな大規模言語モデル(MLLM)は、オープンエンドの現実世界の環境にますます多くデプロイされている。
本稿では,現在のMLLMが暗黙の推論シナリオをどのように扱うのかを体系的に分析する。
モデルは、必要な知覚と推論スキルを持っている場合でも、隠れた問題にしばしば遭遇しない。
論文 参考訳(メタデータ) (2025-05-30T21:47:28Z) - Noisy Exemplars Make Large Language Models More Robust: A
Domain-Agnostic Behavioral Analysis [10.06218778776515]
ドメインに依存しない摂動によるマルチホップ推論タスクにおいて,大規模言語モデル(LLM)の堅牢性をテストするための体系的手法を提案する。
モデルは、単語を同義語に置き換えるなど、特定の摂動に対してより敏感であることがわかった。
また,プロンプトにおける摂動例の割合の増加は,数発のプロンプト手法の堅牢性を向上させることを実証した。
論文 参考訳(メタデータ) (2023-11-01T03:15:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。