論文の概要: When LLMs Invent Rust Crates: An Empirical Study of Hallucination Patterns and Mitigation
- arxiv url: http://arxiv.org/abs/2606.08444v1
- Date: Sun, 07 Jun 2026 04:17:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:06.109069
- Title: When LLMs Invent Rust Crates: An Empirical Study of Hallucination Patterns and Mitigation
- Title(参考訳): LLMがRust Cratesを発明した時 - 幻覚パターンと緩和の実証的研究
- Authors: Jieming Zheng, Hao Guan, Yepang Liu,
- Abstract要約: 大きな言語モデル(LLM)は、コード生成の強力なツールになっていますが、幻覚の傾向があります。
LLM生成したRust符号のクレート幻覚に関する大規模な実証的研究を行った。
我々の分析によると、PythonとJavaScriptの以前の発見とは異なり、Rustの幻覚行動は異なるパターンに従っている。
- 参考スコア(独自算出の注目度): 4.708039298332298
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have become powerful tools for code generation, yet they remain prone to hallucinations-producing plausible but incorrect or fabricated outputs. Among these, package hallucination, where an LLM suggests non-existent dependencies, poses an emerging security risk to the software supply chain. While previous studies focus on popular languages like Python or JavaScript, in this work we present the first large-scale empirical study on crate hallucination in LLM-generated Rust code. We construct a multi-source dataset combining coding tasks from Stack Overflow, GitHub, and LLM-generated tasks, and evaluate both commercial and open-source models under various decoding settings. Our analysis reveals that, unlike prior findings in Python and JavaScript, hallucination behavior in Rust follows a distinct pattern: different models exhibit surprisingly consistent hallucination rates, and these rates show minimal sensitivity to model parameters. Furthermore, we investigate prompt engineering strategies to mitigate hallucinations without sacrificing code quality. This study provides new insights into the reliability and security implications of LLM-assisted Rust development, offering guidance for future research and safer model deployment in software engineering workflows.
- Abstract(参考訳): LLM(Large Language Models)はコード生成の強力なツールとなっているが、幻覚を生じやすいが誤りや製造されたアウトプットの傾向にある。
LLMが既存の依存関係を示唆するパッケージ幻覚は、ソフトウェアサプライチェーンに対するセキュリティリスクを増大させる。
これまでの研究はPythonやJavaScriptのようなポピュラーな言語に重点を置いていたが、この研究では、LLM生成したRustコードにおけるクレート幻覚に関する大規模な実証的研究を初めて紹介する。
Stack Overflow、GitHub、LLM生成タスクのコーディングタスクを組み合わせたマルチソースデータセットを構築し、さまざまなデコーディング設定の下で商用モデルとオープンソースモデルの両方を評価する。
我々の分析によると、PythonとJavaScriptの以前の発見とは異なり、Rustの幻覚行動は、異なるモデルが驚くほど一貫した幻覚率を示し、これらのレートはモデルパラメータに対する最小の感度を示す。
さらに,コード品質を犠牲にすることなく幻覚を緩和する技術戦略について検討した。
この研究は、LLM支援のRust開発における信頼性とセキュリティに関する新たな洞察を提供し、将来の研究のためのガイダンスと、ソフトウェアエンジニアリングワークフローにおける安全なモデルデプロイメントを提供する。
関連論文リスト
- A Systematic Literature Review of Code Hallucinations in LLMs: Characterization, Mitigation Methods, Challenges, and Future Directions for Reliable AI [54.34738767990601]
大規模言語モデルがソフトウェアエンジニアリングタスクに統合されるにつれ、コードの幻覚の理解と緩和が不可欠になる。
コード指向LLMにおける幻覚現象を4つの重要な観点から体系的に検討する。
論文 参考訳(メタデータ) (2025-11-02T02:58:41Z) - Mitigating Hallucination in VideoLLMs via Temporal-Aware Activation Engineering [83.63437999696954]
大規模言語モデル(MLLM)における幻覚は、ビデオ領域において重要かつ未適応な課題として持続する。
本稿では,幻覚に敏感なモジュールを適応的に識別し,操作するビデオLLMのための時間認識型アクティベーションエンジニアリングフレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-19T08:12:06Z) - Importing Phantoms: Measuring LLM Package Hallucination Vulnerabilities [11.868859925111561]
大規模言語モデル(LLM)はプログラマのツールキットに不可欠なツールとなっている。
コードを幻覚させる傾向は、悪意あるアクターがソフトウェアサプライチェーンの広い範囲に脆弱性を導入するために利用することができる。
論文 参考訳(メタデータ) (2025-01-31T10:26:18Z) - MLLM can see? Dynamic Correction Decoding for Hallucination Mitigation [50.73561815838431]
MLLM(Multimodal Large Language Models)はしばしば幻覚現象を示す。
実験により,MLLMは最終出力のオブジェクトを誤って生成するが,前層の視覚的オブジェクトを認識できることがわかった。
そこで本研究では,MLLMs DeCoの動的補正復号法を提案する。この手法は,適切な先行層を適応的に選択し,最終層に知識を比例的に統合し,出力ロジットを調整する。
論文 参考訳(メタデータ) (2024-10-15T16:57:44Z) - Collu-Bench: A Benchmark for Predicting Language Model Hallucinations in Code [20.736888384234273]
大規模言語モデル(LLM)のコード幻覚を予測するベンチマークであるColru-Benchを紹介する。
Collu-Benchには、オープンソースモデルから商用モデルまで、5つのデータセットから収集された13,234のコード幻覚インスタンスと11のさまざまなLSMが含まれている。
我々は、従来の機械学習技術とニューラルネットワークの両方を用いて、Colru-Benchの幻覚を予測する実験を行い、22.03 -- 33.15%の精度を達成した。
論文 参考訳(メタデータ) (2024-10-13T20:41:47Z) - LLM Hallucinations in Practical Code Generation: Phenomena, Mechanism, and Mitigation [33.46342144822026]
コード生成は、入力要求からコードを自動的に生成することを目的としており、開発効率を大幅に向上させる。
最近の大規模言語モデル(LLM)ベースのアプローチは、有望な結果を示し、コード生成タスクに革命をもたらした。
有望な性能にもかかわらず、LLMは、特にコード生成のシナリオにおいて、幻覚を伴うコンテンツを生成することが多い。
論文 参考訳(メタデータ) (2024-09-30T17:51:15Z) - What's Wrong with Your Code Generated by Large Language Models? An Extensive Study [92.62952504133926]
本研究は,3つの一般的なベンチマーク上で,3つの主要なクローズドソースLLMと6つの人気のあるオープンソースLLMの性能評価を行った。
間違ったコードに対するバグの分類を開発し、一般的なバグタイプに対する根本原因を分析した。
本稿では,自己批判を導入し,LLMが生成したコードに対する批判と修正を可能にする,新たな学習自由反復手法を提案する。
論文 参考訳(メタデータ) (2024-07-08T17:27:17Z) - Hallucination Detection: Robustly Discerning Reliable Answers in Large Language Models [70.19081534515371]
大規模言語モデル(LLM)は様々な自然言語処理タスクで広く採用されている。
それらは、入力源から逸脱する不信または矛盾したコンテンツを生成し、深刻な結果をもたらす。
本稿では,LLMの生成した回答の幻覚を効果的に検出するために,RelDという頑健な識別器を提案する。
論文 参考訳(メタデータ) (2024-07-04T18:47:42Z) - We Have a Package for You! A Comprehensive Analysis of Package Hallucinations by Code Generating LLMs [3.515912713354746]
パッケージ幻覚は、大規模な言語モデルを使用してコードを生成する際に、ファクトコンフリクトのエラーから生じる。
本稿では,プログラム言語間におけるパッケージ幻覚の厳密かつ包括的評価を行う。
幻覚パッケージの平均パーセンテージは、商用モデルでは少なくとも5.2%、オープンソースモデルでは21.7%である。
論文 参考訳(メタデータ) (2024-06-12T03:29:06Z) - Unfamiliar Finetuning Examples Control How Language Models Hallucinate [75.03210107477157]
大規模な言語モデルは、馴染みのないクエリに直面した時に幻覚化することが知られている。
モデルの微調整データの見慣れない例は、これらのエラーを形作るのに不可欠である。
本研究は,RLファインタニング戦略をさらに研究し,長大なモデル生成の現実性を改善することを目的とする。
論文 参考訳(メタデータ) (2024-03-08T18:28:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。