Помните да, какие классные трики можно делать с помощью Retrieval-based Voice Conversion для реального продакшена? А теперь всё стало ещё проще, потому что кто-то умный наконец додумался сделать плагин, конвертирующий вокал прямо в DAW.
Идея на самом деле лежала на поверхности. Я даже сам начал собирать для себя ReaScript, который обращается к запущенному RVC-серверу через Gradio API. Но как обычно бывает в таких случаях: кто первый встал — того и тапки.
В общем. Плагин Session Loops VocalNet делает, в сущности, то же самое. Он запускает собственный RVC-сервер со своим виртуальным окружением Python со всеми необходимыми библиотеками, а в DAW показывает простой графический интерфейс, в который можно драг-н-дропать нужные файлы. Или записывать вокал прямо в него. А потом, соответственно, перетягивать сконвертированный файл в проект. Модели голосов так же добавляются драг-н-дропом в соответствующее окно, вызываемое из настроек плагина. Скачать модели можно с тех же weights или huggingface. Ну или добавить свои. Сами модели можно хранить где-угодно. VocalNet записывает в свой файл конфигурации прямой путь до добавленных моделей.
С другой стороны, если вы уже сами обучаете собственные модели на локально установленном RVC, то смысл использовать VocalNet стремится к нулю. Разве что драг-н-дропать чуть-чуть проще. А вот из параметров конвертации есть только изменение питча. И если для определения высоты тона нет особого смысла использовать что-то кроме RMVPE модели, а в VocalNet интегрирована именно и только она, то, например, параметра для регулировки соотношения поиска черт явно не хватает. Хотя, это уже для продвинутых пользователей.
Кроме того, VocalNet хочет денег: 29 баксов за постоянную лицензию или 6 баксов в месяц подписка на бандл инструментов Session Loops. Бесплатная вечная триалка позволяет конвертировать файлы только продолжительностью до 30 секунд. Причём, в любом случае для работы необходима регистрация у Session Loops и онлайн авторизация, несмотря на то, что во всех рекламных материалах фигурирует "Fully Offline". На поверку не фулли.
Плагин VocalNet существует в предварительно сконфигурированных версиях для работы на CPU, GPU и нейро-ядрах Apple Silicon. Версия для CPU работает в режиме конвертации только файлов до 30 секунд всегда. Видимо, потому что не только лишь все пользователи понимают, что на CPU ML-модели работают ОООООЧЕНЬ медленно.
Резюмируя. Для тех, кому лень разбираться с опенсорсом, устанавливать Python и руками настраивать окружения для запуска оригинального RVC ради того чтобы побаловаться нейрокаверами с голосами звёзд или побыстрому нагенерить бэков — Session Loops VocalNet отличный вариант. Для более сложных задач с генеративными голосами лучше всё же разобраться с оригинальной RVC. Это не так уж и сложно на самом деле.
Лично я остаюсь на RVC, удаляю VocalNet чтоб не захламлял комп (4,6 Гб по современным меркам не много, но всё же), и продолжаю допиливать собственный скрипт. Обязательно им поделюсь, когда буду уверен что показывать такое не стыдно.😅
Кип ин тач.🤝
Всем звук.✊
Идея на самом деле лежала на поверхности. Я даже сам начал собирать для себя ReaScript, который обращается к запущенному RVC-серверу через Gradio API. Но как обычно бывает в таких случаях: кто первый встал — того и тапки.
В общем. Плагин Session Loops VocalNet делает, в сущности, то же самое. Он запускает собственный RVC-сервер со своим виртуальным окружением Python со всеми необходимыми библиотеками, а в DAW показывает простой графический интерфейс, в который можно драг-н-дропать нужные файлы. Или записывать вокал прямо в него. А потом, соответственно, перетягивать сконвертированный файл в проект. Модели голосов так же добавляются драг-н-дропом в соответствующее окно, вызываемое из настроек плагина. Скачать модели можно с тех же weights или huggingface. Ну или добавить свои. Сами модели можно хранить где-угодно. VocalNet записывает в свой файл конфигурации прямой путь до добавленных моделей.
С другой стороны, если вы уже сами обучаете собственные модели на локально установленном RVC, то смысл использовать VocalNet стремится к нулю. Разве что драг-н-дропать чуть-чуть проще. А вот из параметров конвертации есть только изменение питча. И если для определения высоты тона нет особого смысла использовать что-то кроме RMVPE модели, а в VocalNet интегрирована именно и только она, то, например, параметра для регулировки соотношения поиска черт явно не хватает. Хотя, это уже для продвинутых пользователей.
Кроме того, VocalNet хочет денег: 29 баксов за постоянную лицензию или 6 баксов в месяц подписка на бандл инструментов Session Loops. Бесплатная вечная триалка позволяет конвертировать файлы только продолжительностью до 30 секунд. Причём, в любом случае для работы необходима регистрация у Session Loops и онлайн авторизация, несмотря на то, что во всех рекламных материалах фигурирует "Fully Offline". На поверку не фулли.
Плагин VocalNet существует в предварительно сконфигурированных версиях для работы на CPU, GPU и нейро-ядрах Apple Silicon. Версия для CPU работает в режиме конвертации только файлов до 30 секунд всегда. Видимо, потому что не только лишь все пользователи понимают, что на CPU ML-модели работают ОООООЧЕНЬ медленно.
Резюмируя. Для тех, кому лень разбираться с опенсорсом, устанавливать Python и руками настраивать окружения для запуска оригинального RVC ради того чтобы побаловаться нейрокаверами с голосами звёзд или побыстрому нагенерить бэков — Session Loops VocalNet отличный вариант. Для более сложных задач с генеративными голосами лучше всё же разобраться с оригинальной RVC. Это не так уж и сложно на самом деле.
Лично я остаюсь на RVC, удаляю VocalNet чтоб не захламлял комп (4,6 Гб по современным меркам не много, но всё же), и продолжаю допиливать собственный скрипт. Обязательно им поделюсь, когда буду уверен что показывать такое не стыдно.
Кип ин тач.
Всем звук.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Теперь все культовые педали BOSS и комбарь Jazz Chorus есть в формате VST и входят в подписку Roland Cloud Ultimate.
Балдёж!🤗
Балдёж!
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Ну что, коллеги, будем устраивать слепой тест и сравнивать суперпилы железных синих синтезаторов и их VST собратьев, как делали это с JX-8P?
Media is too big
VIEW IN TELEGRAM
Мощный наброс 💩 💩 💩 💩 💩 💩 💩 от Шаумарова.
Но возразить как будто бы и нечего.
Но возразить как будто бы и нечего.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Suno теперь позволяет скачивать стэмы. Они по прежнему ужасные, но...
Причём, судя по количеству стемов, которые он пытается отдать, модели разделения аудио приобретены у lalal.ai. Хотя может и свои обучили, делов то.
Так же обновился редактор сгенерированных треков.
В общем, нейропродакшн продолжает наступать.
Спешите вкатываться пока не остались не удел.
Причём, судя по количеству стемов, которые он пытается отдать, модели разделения аудио приобретены у lalal.ai. Хотя может и свои обучили, делов то.
Так же обновился редактор сгенерированных треков.
В общем, нейропродакшн продолжает наступать.
Спешите вкатываться пока не остались не удел.
блог pro звук 🎛 AI-powered
Suno теперь позволяет скачивать стэмы. Они по прежнему ужасные, но... Причём, судя по количеству стемов, которые он пытается отдать, модели разделения аудио приобретены у lalal.ai. Хотя может и свои обучили, делов то. Так же обновился редактор сгенерированных…
Please open Telegram to view this post
VIEW IN TELEGRAM
Media is too big
VIEW IN TELEGRAM
Самый нужный в 2025 году банк пресетов 😮
Please open Telegram to view this post
VIEW IN TELEGRAM
Спонтанно в предпоследний момент залетел на курс по RF.
Автор курса, Сергей Борзов, кроме того, что в принципе дядька на опыте, так ещё и в настоящее время является техническим директором Октавы и внедряет там соответствующие направления производства. В общем, точно будет полезно как минимум для общего развития.
До конца приема заявок на прохождение курса осталось два часа. А в 14:00 по МСК уже первая лекция.
Так что это…👇
https://t.me/RF_FAQ/19056
Автор курса, Сергей Борзов, кроме того, что в принципе дядька на опыте, так ещё и в настоящее время является техническим директором Октавы и внедряет там соответствующие направления производства. В общем, точно будет полезно как минимум для общего развития.
До конца приема заявок на прохождение курса осталось два часа. А в 14:00 по МСК уже первая лекция.
Так что это…
https://t.me/RF_FAQ/19056
Please open Telegram to view this post
VIEW IN TELEGRAM
Media is too big
VIEW IN TELEGRAM
Наконец-то появилась ML-чистилка голоса от шума, изначально обученная именно на реставрацию вокала. Ну и для речи, соответственно, тоже работает. Сделали её, внезапно, в Antares. Хотя, почему внезапно? По логике, они должны были выкатить подобное решение одними из первых. Ну, догнали, и молодцы. Жаль что не плагин. Хотя у standalone приложений тоже есть свои плюсы.
Приложение Vocal Prep сейчас на сейле со скидкой 50%. Как и многие другие продукты Antares, к слову — весенняя распродажа ещё не закончилась. В общем, постоянная лицензия на очередное нейро-чудо со скидкой обойдется примерно в ~ ₽6K. Ну, с учётом необходимости как-то перевести деньги в недружественную страну, наверное, чуть больше.
Посмотрим, справится ли их моделька со скрипом плохо уложенного ламината😅
Приложение Vocal Prep сейчас на сейле со скидкой 50%. Как и многие другие продукты Antares, к слову — весенняя распродажа ещё не закончилась. В общем, постоянная лицензия на очередное нейро-чудо со скидкой обойдется примерно в ~ ₽6K. Ну, с учётом необходимости как-то перевести деньги в недружественную страну, наверное, чуть больше.
Посмотрим, справится ли их моделька со скрипом плохо уложенного ламината
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Удобство сомнительное, но прикольно. 😀