論文の概要: Libretto: Giving LLM Agents a Sense of Musical Structure
- arxiv url: http://arxiv.org/abs/2606.22708v1
- Date: Sun, 21 Jun 2026 22:56:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-25 07:22:58.757357
- Title: Libretto: Giving LLM Agents a Sense of Musical Structure
- Title(参考訳): Libretto:LLMエージェントに音楽構造感覚を与える
- Authors: Yichen Xu,
- Abstract要約: シンボリック音楽生成とリビジョンのためのフレームワークであるLibrettoを紹介する。
リブレットは、リズム、ハーモニー、メロディ、テクスチャ、フォーム、変奏に関するコーパス校正された統計空間で各曲を評価する。
ギャップフィリング、参照誘導フルピース生成、漸進的なモーフィング、教育音楽生成など、Librettoは、シンボル音楽を生のトークンシーケンスから言語モデルエージェントの計測可能で編集可能なオブジェクトに変換する。
- 参考スコア(独自算出の注目度): 4.144744763257738
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generative music systems can now produce impressive audio from text prompts, but audio outputs are difficult to inspect, edit, and diagnose as musical structure. We introduce Libretto, an agent-facing framework for symbolic music generation and revision. Libretto uses an LLM-native grammar with explicit onset slots, voices, and bar-level organization, then evaluates each piece in a corpus-calibrated statistical space over rhythm, harmony, melody, texture, form, and variation. The same structural axes support retrieval, diagnosis, copy-risk control, and iterative self-revision. Across gap filling, reference-guided full-piece generation, gradual morphing, and educational music generation, Libretto turns symbolic music from a raw token sequence into a measurable and editable object for language-model agents.
- Abstract(参考訳): 生成音楽システムは、テキストプロンプトから印象的な音声を生成することができるが、オーディオ出力は、音楽構造として検査、編集、診断が困難である。
シンボリック音楽生成とリビジョンのためのエージェント対応フレームワークであるLibrettoを紹介する。
リブレットは、明示的なオンセットスロット、声、バーレベルの組織を持つLLMネイティブ文法を使用し、リズム、ハーモニー、メロディ、テクスチャ、フォーム、変奏についてコーパス校正された統計空間で各曲を評価する。
同じ構造軸は、検索、診断、コピーリスク制御、反復的な自己修正をサポートする。
ギャップフィリング、参照誘導フルピース生成、漸進的なモーフィング、教育音楽生成など、Librettoは、シンボル音楽を生のトークンシーケンスから言語モデルエージェントの計測可能で編集可能なオブジェクトに変換する。
関連論文リスト
- Can LLMs understand LilyPond? A benchmark for symbolic music generation and understanding [0.9886053654565675]
大規模な言語モデルのシンボリック音楽評価は、表現、データセット、メトリクスで断片化されている。
LilyBenchはLilyPondベースのベンチマークで、オープンウェイトLLMの同じファミリー上で、象徴的な音楽生成と音楽理解を共同で評価する。
論文 参考訳(メタデータ) (2026-06-07T16:32:59Z) - FIGMA: Towards FIne-Grained Music retrievAl [65.98380295254817]
自然言語記述による音楽の検索はCLAPのような対照的な音声テキストモデルで改善されているが、現在のシステムはいまだに大まかなセマンティッククエリに限られている。
この制限は、長いキャプションで訓練されているにもかかわらず、CLAPベースのモデルは、最初の数個のトークンのみを効果的に活用する。
本研究では,グローバルな音声テキストアライメントとフレームレベルのトークンアライメントを共同で最適化することで,この制限に対処するマルチビューコントラストアーキテクチャであるFIGMAを提案する。
論文 参考訳(メタデータ) (2026-06-04T18:05:39Z) - Communicating Sound Through Natural Language [20.119057003948004]
本稿では,LLM送信機と受信機が自然言語で音声を伝達するフレームワークであるLexical Acoustic coding (LAC)を紹介する。
固定されたシステムプロンプトの下で、エージェントは独自の分析および合成コードを書き、語彙文を通してのみ通信する。
我々はLACを有限レートの損失量子化器とみなし、語彙サイズ、レート、忠実さのトレードオフを露呈する。
論文 参考訳(メタデータ) (2026-05-09T07:25:54Z) - VocalParse: Towards Unified and Scalable Singing Voice Transcription with Large Audio Language Models [45.70355425430011]
LALM(Large Audio Language Model)上に構築されたSVTモデルであるVocalParseについて述べる。
我々の新しい貢献は、歌詞、メロディ、音符対応を共同でモデル化し、構造化された楽譜に直接マッピングする生成シーケンスを生成するインターリーブ・プロンプト・フォーミュレーションの導入である。
実験では、VocalParseが複数の歌唱データセット上で最先端のSVTパフォーマンスを達成することを示した。
論文 参考訳(メタデータ) (2026-05-06T08:03:31Z) - Muse: Towards Reproducible Long-Form Song Generation with Fine-Grained Style Control [66.46754271097555]
我々は, きめ細かなスタイル条件付き長大な楽曲生成のための, 完全オープンソースシステムをリリースする。
データセットは116kの完全ライセンスの合成曲で構成され、自動生成の歌詞とスタイル記述がある。
我々は、個別の音声トークンで拡張されたQwenベースの言語モデルの単一ステージ教師付き微調整によりMuseを訓練する。
論文 参考訳(メタデータ) (2026-01-07T14:40:48Z) - Large Language Models' Internal Perception of Symbolic Music [3.9901365062418317]
大規模言語モデル(LLM)は、自然言語における文字列間の関係のモデル化に優れている。
本稿では,テキストのプロンプトからシンボリック音楽データを生成することで,LLMが音楽概念をどのように表現するかを検討する。
論文 参考訳(メタデータ) (2025-07-17T05:48:45Z) - MusiConGen: Rhythm and Chord Control for Transformer-Based Text-to-Music Generation [19.878013881045817]
MusiConGenは、一時条件付きトランスフォーマーベースのテキスト-音楽モデルである。
条件信号として自動的に抽出されたリズムとコードを統合する。
MusiConGenは,特定の条件に整合したリアルなバックトラック音楽を生成することができることを示す。
論文 参考訳(メタデータ) (2024-07-21T05:27:53Z) - SongComposer: A Large Language Model for Lyric and Melody Generation in Song Composition [82.38021790213752]
SongComposerは、音楽専門の大規模言語モデル(LLM)である。
3つの重要なイノベーションを活用することで、メロディーをLLMに同時に構成する能力を統合する。
歌詞からメロディへの生成、メロディから歌詞への生成、歌の継続、テキストから歌への生成といったタスクにおいて、高度なLLMよりも優れています。
SongComposeは大規模なトレーニング用データセットで、中国語と英語の歌詞とメロディのペアを含む。
論文 参考訳(メタデータ) (2024-02-27T16:15:28Z) - Vector-Quantized Timbre Representation [53.828476137089325]
本稿では, スペクトル特性の近似分解を生成的特徴の集合で学習することにより, 個々の音色をより柔軟に合成することを目的とする。
音量分布の量子化表現を学習するために、大音量から切り離された離散潜在空間を持つオートエンコーダを導入する。
オーケストラ楽器と歌唱音声間の音声の翻訳結果と、ボーカルの模倣音から楽器への変換結果について詳述する。
論文 参考訳(メタデータ) (2020-07-13T12:35:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。