ローカル音楽生成: ComfyUI および ACE-Step-1.5 モデル

現在では、コンテンツを作成するためにクラウド サービスに依存する必要はありません。高品質の音楽をすべて自分のハードウェアで生成できます。この投稿では、ComfyUI を使用して最新の ACE-Step-1.5 モデルをコンピュータ上でローカルに実行する方法について説明します。

ComfyUI はノードベースのアーキテクチャを使用します。これにより、次のことが可能になります。
– オーディオ生成のあらゆる段階を完全に制御します。
– 既成の「ワークフロー」を簡単に共有。

ACE-Step-1.5 は、大量の計算リソースを必要とする音楽生成のための高度なモデルです。ハードウェア要件は、多くの単純なシンセサイザーの要件よりも高くなります。
ビデオ カード (GPU): 8 GB VRAM 以上 (12 GB 以上を推奨) を搭載した Nvidia RTX により、高品質で快適な作業が可能です。
ランダム アクセス メモリ (RAM): 最低 16 GB (できれば 32 GB 以上)。
プロセッサ (CPU): AVX/CUDA コンピューティングを適切にサポートする最新のマルチコア プロセッサ。
ディスク容量: モデルとコンポーネント用に約 20 ~ 50 GB。

ACE-Step-1.5 を実行する最も簡単な方法は、既製のオーディオ生成テンプレートを使用することです。ワークフローウィンドウで音楽テキストをオーディオに検索してインストールするだけです。

ジャンルと雰囲気を説明するプロンプト (たとえば、「重低音のある高揚感のあるシンセウェーブ トラック」) を「プロンプト入力」ノードに書きます。希望の期間を指定して実行を押します。
第 1 世代では、モデルがビデオ カード メモリにロードされ、複雑な音響パターンを処理するため、時間がかかる場合があります。

https://github.com/comfyanonymous/ComfyUI
https://www.youtube.com/watch?v=UAlLD5fS7-c