Локальная генерация музыки: ComfyUI и модель ACE-Step-1.5

В наше время не обязательно полагаться на облачные сервисы для создания контента: вы можете генерировать высококачественную музыку полностью на своем железе. В этой заметке я опишу, как запустить современную модель ACE-Step-1.5 локально на вашем компьютере с помощью ComfyUI.

ComfyUI использует узловую (node-based) архитектуру. Это позволяет:
– Тотально контролировать каждый этап генерации аудио.
– Легко обмениваться готовыми “рабочими процессами” (workflows).

ACE-Step-1.5 — это продвинутая модель для генерации музыки, требующая значительных вычислительных ресурсов. Требования к железу выше, чем у многих простых синтезаторов:
– Видеокарта (GPU): Nvidia RTX с 8 ГБ VRAM и выше (рекомендуется 12 ГБ+) для комфортной работы при высоком качестве.
– Оперативная память (RAM): минимум 16 ГБ (лучше 32 ГБ и выше).
– Процессор (CPU): Современный многоядерный процессор с хорошей поддержкой AVX/CUDA вычислений.
– Место на диске: около 20–50 ГБ для моделей и компонентов.

Самый простой способ запустить ACE-Step-1.5 — использовать готовый шаблон аудиогенерации. Просто найдите music text to audio в окне workflows и установите.

Напишите промпт, описывающий жанр и настроение (например, “uplifting synthwave track with heavy bass”), в узле `Prompt Input`. Укажите желаемую длительность и нажмите RUN.
Первая генерация может занять время, так как модели будут загружаться в память видеокарты и обрабатывать сложные акустические паттерны.

https://github.com/comfyanonymous/ComfyUI
https://www.youtube.com/watch?v=UAlLD5fS7-c

Published by demensdeum