admin
18 декабрь 2022
262
0

Теперь и музыканты: создана нейросеть на базе Stable Diffusion, которая генерирует музыку по текстовому описанию

Нейросеть Stable Diffusion славна многим. Она разрешает генерировать стереоизображения по текстовому описанию. Но, как угадало, с её подмогой можно также творить и музыку. Сущность в том, что система может учреждать аудиоспектрограммы — визуальные стереоизображения звуковых частот в треке. После этого нужно лишь «отразить» извлеченный звук. В спектрограмме (или сонограмме) на оси изображен режим воспроизведения частот слева вправо. По оси Y размещаются данные о частотах звука, а колер пикселей задаёт амплитуду звука в любой момент часы. Нейросеть обучили на сонограммах, какие характеризуют гармоничные жанры или звуки. В итоге вышла Riffusion — нейросеть, способная генерировать звук из стереоизображения, какое создаётся по текстовому описанию. Для вывода именно тропинки используется Torchaudio. При этом разработчики смогли понудить нейросеть генерировать подобные аудиоклипы, какие могли бы плавно «перетекать» товарищ в кореша. То есть, темп музыки не меняется обвально. Веб-интерфейс можно завладеть тут. Нейросеть скачать можно тута. Испытать онлайн тута. Сгененрировать спектрограмму тут. Преждевременно передавалось, что мастера взялись подлинную рать против нейросети на ArtStation.