Представлена нейросеть для создания музыки от авторов Stable Diffusion

Компания Stability AI представила новую технологию Stable Audio, позволяющую пользователям создавать короткие аудиодорожки, просто предоставляя текстовые запросы. Подобно методам ИИ, лежащим в основе Stable Diffusion, Stable Audio использует LLM-модель, но на этот раз обученную на аудиоданных. Пользователи могут описать желаемую музыку или аудиозапись в тексте, и система генерирует ее соответствующим образом.

Эд Ньютон-Рекс, вице-президент Stability AI по аудиотехнологиям, пояснил, что хотя компания известна своими работами с изображениями, это первый опыт в области генерации музыки и аудио. В основе технологии лежит исследовательская студия Stability AI по созданию музыки, Harmonai. Stable Audio напрямую работает с необработанными аудиосэмплами для обеспечения высокого качества продукции и была обучена на более чем 800 000 лицензионных музыкальных композиций от AudioSparks.

Модель Stable Audio имеет около 1,2 млрд параметров, аналогично оригинальной модели Stable Diffusion для генерации изображений. Сервис предлагает как бесплатный, так и Pro-планы, причем в последнем случае за ежемесячную плату в размере 12 долларов можно получить более длинных треков.

Источник: Ferra