論文の概要: Pigeonholing: Bad prompts hurt models to collapse and make mistakes
- arxiv url: http://arxiv.org/abs/2606.24267v1
- Date: Tue, 23 Jun 2026 07:52:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-24 22:16:48.832939
- Title: Pigeonholing: Bad prompts hurt models to collapse and make mistakes
- Title(参考訳): ピジョンホリング、モデルが崩壊し間違いを犯すよう促す
- Authors: Hyunji Nam, Keertana Chidambaram, Dorottya Demszky, Natasha Jaques,
- Abstract要約: In-context Learning is shown to be effective in Large Language Models (LLMs)
悪いコンテキストはパフォーマンス低下とモード崩壊を引き起こします。
会話の数が増えるにつれて、ハトは単調に悪化する。
悪条件下でモデルを改善する合成誤差を43-60%改善したRLVRを提案する。
- 参考スコア(独自算出の注目度): 12.550005594971282
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While in-context learning is generally shown to be effective in Large Language Models (LLMs), bad contexts can cause performance degradation and mode collapse, a phenomenon we call "pigeonholing." **Unintentionally bad** contexts can happen without malicious jailbreaking intents: For example, a user asks the model to justify an incorrect math theorem or fails to correct the model's buggy code. Specifically, we investigate ``pigeonholing" in two scenarios: (1) when the user suggests a solution, and (2) when the conversation context includes the assistant's previous (incorrect) responses. Our experiments across 10 verifiable and open-ended tasks with 10 different models show that pigeonholing manifests in several ways: (1) repeating the incorrect answers from context (leading to 38-40% performance drop), (2) converging on a narrow set of answers in coding and text generation without exploring alternatives, and (3) flipping stance on controversial topics to align with the user or the assistant's previous claims. We find that pigeonholing worsens almost monotonically with the number of conversation turns (performance drops by additional 14+% as repeated mistakes increase from 1 to 5), and pigeonholing-induced mode collapse can happen even when the provided example is correct. As a step toward mitigation, we propose RLVR with synthetic errors which improves models by 43-60% under bad contexts compared to vanilla RLVR baselines.
- Abstract(参考訳): コンテキスト内学習は一般的にLarge Language Models(LLM)で有効であることが示されているが、悪いコンテキストはパフォーマンスの劣化とモードの崩壊を引き起こす可能性がある。
具体的には,(1)ユーザがソリューションを提案する場合,(2)会話コンテキストがアシスタントの以前の(正しくない)応答を含む場合の2つのシナリオにおいて,‘pigeonholing’を調査する。
実験は10種類の異なるモデルを用いた検証およびオープンエンドタスクを対象に,(1)コンテキストからの誤った回答を繰り返すこと(38~40%のパフォーマンス低下),(2)代替案を探さずにコーディングとテキスト生成の狭いセットに収束すること,(3)議論を巻き起こすトピックに対するスタンスを反転させることにより,ユーザやアシスタントの以前の主張と一致させること,の2つの方法を示した。
また, ハトホルディングによるモード崩壊は, 提案例が正しい場合でも, 会話回数とともに単調に悪化する(繰り返し誤りが1~5に増加すると14+%以上の低下)。
緩和に向けたステップとして、バニラRLVRベースラインと比較して、悪条件下でモデルを改善する合成誤差を43-60%改善するRLVRを提案する。
関連論文リスト
- Do LLMs Benefit From Their Own Words? [56.73014497206615]
先行するアシスタント応答の除去は,少数のターンにおいて応答品質に影響を与えないことがわかった。
アシスタント側コンテキストのオミッティングは、累積コンテキストの長さを最大10倍に減らすことができる。
本研究は, 記憶量削減を図り, アシスタント履歴を選択的に省略することで, 応答品質を向上できることを示唆する。
論文 参考訳(メタデータ) (2026-02-27T18:58:26Z) - Reading Between the Lines: The One-Sided Conversation Problem [49.36189146596834]
我々は一方的な会話問題(1SC)を定式化する。
リアルタイムのユースケースに対して、欠落した話者のターンを再構築し、一方の書き起こしから要約を生成する。
プライバシーに配慮した会話型AIへの一歩となる有望な成果を報告します。
論文 参考訳(メタデータ) (2025-11-04T22:53:57Z) - Leveraging Large Language Models for Predictive Analysis of Human Misery [1.2458057399345226]
本研究では,Large Language Models (LLMs) を用いて,人間に知覚された悲惨なスコアを予測する。
我々は、ゼロショット、固定コンテキスト、検索に基づくプロンプトを含む複数のプロンプト戦略を評価する。
静的評価を超えて,テレビフォーマットに触発された新たなゲーム化フレームワークである"Misery Game Show"を導入する。
論文 参考訳(メタデータ) (2025-08-18T07:02:59Z) - Fine-tuning Language Models for Factuality [96.5203774943198]
大規模な事前訓練型言語モデル(LLM)は、しばしば伝統的な検索エンジンの代替として、広く使われるようになった。
しかし、言語モデルは説得力のあるが事実的に不正確な主張をしがちである(しばしば「幻覚」と呼ばれる)。
本研究では,人間のラベル付けなしに,より現実的な言語モデルを微調整する。
論文 参考訳(メタデータ) (2023-11-14T18:59:15Z) - Answering Ambiguous Questions via Iterative Prompting [84.3426020642704]
オープンドメインの質問応答では、質問のあいまいさのため、複数の妥当な回答が存在する可能性がある。
ひとつのアプローチは、すべての有効な回答を直接予測することですが、これは、妥当性と多様性のバランスに苦労する可能性があります。
本稿では,あいまいな疑問に答える既存手法の欠陥に対処するため,AmbigPromptを提案する。
論文 参考訳(メタデータ) (2023-07-08T04:32:17Z) - Phrase Retrieval for Open-Domain Conversational Question Answering with
Conversational Dependency Modeling via Contrastive Learning [54.55643652781891]
Open-Domain Conversational Question Answering (ODConvQA)は、マルチターン会話を通じて質問に答えることを目的としている。
そこで本研究では,単語列に対する句検索方式を用いて,回答を直接予測する手法を提案する。
論文 参考訳(メタデータ) (2023-06-07T09:46:38Z) - Mitigating False-Negative Contexts in Multi-document QuestionAnswering
with Retrieval Marginalization [29.797379277423143]
応答不能なクエリを適切に処理するset-valued検索の新しいパラメータ化を開発している。
トレーニング中にこの集合を限界化することで、モデルが注釈付き支持証拠の偽陰性を緩和できることを示す。
IIRCでは,代替文脈の余分化による連成モデリングによりモデル性能が5.5F1ポイント向上し,50.6F1の新たな最先端性能が得られることを示す。
論文 参考訳(メタデータ) (2021-03-22T23:44:35Z) - Geometry matters: Exploring language examples at the decision boundary [2.7249290070320034]
BERT、CNN、fasttextは、高い難易度例において単語置換の影響を受けやすい。
YelpReviewPolarityでは、レジリエンスと摂動の相関係数-0.4と難易度との相関係数を観測する。
我々のアプローチは単純でアーキテクチャに依存しないものであり、テキスト分類モデルの華やかさの研究に利用できる。
論文 参考訳(メタデータ) (2020-10-14T16:26:13Z) - Current Limitations of Language Models: What You Need is Retrieval [0.0]
我々は、言語モデルの性能計算トレードオフを改善するために、現在のアプローチのいくつかを分類し、再検討する。
我々は、(5)はこれらの制限の多くを解決し、(a)監督の量を削減し、(b)トレーニングデータセット全体と現在のサンプル全体のコンテキストを効率的に拡張できると主張している。
論文 参考訳(メタデータ) (2020-09-15T04:04:20Z) - TACRED Revisited: A Thorough Evaluation of the TACRED Relation
Extraction Task [80.38130122127882]
TACREDはリレーショナル抽出(RE)において最も大きく、最も広く使われているクラウドソースデータセットの1つである
パフォーマンスの天井に到達したのか、改善の余地はあるのか?
ラベルエラーは絶対F1テストエラーの8%を占めており、例の50%以上を可逆化する必要がある。
論文 参考訳(メタデータ) (2020-04-30T15:07:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。