Содержание:
В нашем очередном обзоре нейронных сетей мы решили разобрать программы и сервисы для создания и редактирования звуковых элементов. Они будут полезны при разработке и озвучке креатива, видео для соцсетей, музыки и других целей.
Сегодня в обзоре 13 нейронок, на которые стоит обратить внимание. Расскажем, как ими пользоваться, протестируем их и посмотрим, насколько это целесообразно в целом.
Zvukogram
В Zvukogram можно озвучить любой текст, а также выбрать подходящий стиль и тембр. Сервис работает на базе нейросети, которая хорошо справляется, правдоподобно имитируя человеческий голос. Всего есть 49 вариантов мужских и женских голосов, а также 2 голоса робота:
При этом есть обычные голоса, а есть голоса с желтой пометкой Pro, которые звучат гораздо натуральнее. Сравнить их звучание можно здесь. Также для озвучки доступно много языков:
Помимо этого, в редакторе можно отрегулировать скорость повествования и выбрать его тон. Например, нейтральный, дружеский или раздраженный. Оплатить услугу на сайте можно за токены. Их стоимость рассчитывается отдельно, в зависимости от выбранного голоса.
Этот сервис просто идеально подойдет для озвучки креативов, и мы решили протестировать его. Взяли текстовое крео на румынском языке из прелендинга средства от паразитов и загрузили его в Zvukogram. Вот что получилось:
При выборе румынского языка голос определился автоматически. Результат действительно отличный, а озвучка похожа на человеческую. Многим арбитражникам сервис будет очень полезен.
Приятный бонус в том, что для тестов каждому дается 5 токенов, которых хватит на озвучку одного большого или нескольких маленьких текстов.
В любом случае это будет дешевле человеческой озвучки или проще, чем искать условного румына, который качественно озвучит текст.
NaturalReaders
NaturalReaders — это онлайн-сервис для озвучки и прослушивания текста на любом из шестнадцати доступных языков:
NaturalReaders отлично подойдет для тех, кто лучше воспринимает информацию на слух. Особенно сервис будет незаменим при изучении иностранного языка.
Как правило, при чтении книг на иностранном языке можно выучить много новых слов и оборотов. Проблема всегда в том, что незнакомые слова могут неправильно читаться. NaturalReaders помогает решить эту задачу. Нужно загрузить книгу в PDF-формате, выбрать язык озвучивания, скорость воспроизведения, а затем слушать и следить за текстом. При чтении каждое слово подсвечивается, как в караоке, и это невероятно удобно:
Как работает NaturalReaders можно посмотреть здесь:
Вторая функция этого сервиса — максимально реалистичное озвучивание текста. Сюда входит редактор, в котором можно полностью отрегулировать звучание голоса. Можно выбрать эмоцию для каждого отдельного слова, паузы, скорость речи и, конечно, сам тембр и язык:
Чтобы озвучка была еще более натуральной, можно выбрать даже этническую принадлежность, диалект и возраст:
Давайте, наконец, протестируем NaturalReaders и сделаем две озвучки. Первая будет в формате видео для YouTube с коротким текстом:
После того, как в поле введен текст, нужно выбрать стиль озвучки, например, книга, реклама, подкаст, разговор и так далее:
Последним шагом выбираем голос. У нас он мужской на русском языке. Далее настраиваем произношение отдельных слов и пауз. Вот что у нас получилось:
Это действительно хороший результат, хоть голос не на 100% похож на человеческий. При этом он не уступает платным Pro озвучкам из Zvukogram, которые мы попробовали. Интересный момент в том, что на английском результат получается в разы лучше и реалистичнее. Давайте посмотрим, как это будет звучать.
Мы написали небольшой текст, выбрали женский голос, расставили ударения, отрегулировали скорость речи, и вот что получилось в итоге:
Честно скажем, нас впечатлил результат. Он настолько хорош, что даже непонятно, зачем платить за профессиональную озвучку. С помощью этого сервиса можно создавать креативы для арбитража и, в частности, для дейтинг-вертикали. Таким образом, можно имитировать голосовые сообщения от девушек в переписках.
Самое приятное, что сервис полностью бесплатный и доступен после простой и быстрой регистрации по почте. Есть также варианты платных подписок:
В подписке за $49 добавлены некоторые дополнительные функции, без которых легко можно обойтись. За $79 можно купить расширенную подписку на целую команду из 4-х человек. Сервис доступен в десктоп-версии, приложении для смартфона или расширении для Google Chrome.
Voicechanger.io
Voicechanger.io — это онлайн-сервис на базе нейросети, на котором можно бесплатно озвучить текст или отредактировать уже готовый звуковой файл. На выбор доступно только два языка: русский и английский в мужском и женском вариантах:
В окне нужно просто ввести текст для озвучки и нажать кнопку Play:
Вот такой результат выдала нейронка:
Ну это, конечно, довольно забавно. Разумеется, в таком варианте использовать Voicechanger.io для креативов не целесообразно. Зато сервис полностью бесплатный, и озвучивать можно сколько угодно текстов.
Также можно выбрать готовый файл или записать его через микрофон, а затем наложить нужный эффект. Всего доступен 51 фильтр для изменения голоса в стиле героев разных фильмов и животных, которые могут пригодиться при озвучке видео для соцсетей:
Respeecher
Этот сервис работает на глубоко обученной нейросети по принципу speech to speech и создает безупречный Deep Fake голоса. Его отличие в том, что в готовых результатах невозможно понять, что говорит не человек.
Respeecher настолько безупречно справляется со своими задачами, что с ним уже заключила контракт одна из голливудских студий. Также создатели сервиса работали вместе с Массачусетским технологическим институтом, где снимали короткометражный фильм с Ричардом Никсоном. В конечном счете нужно было настолько хорошо воспроизвести бывшего президента США, чтобы не было и намека на Deep Fake. Вы можете сами посмотреть, что у них вышло, и убедиться в том, насколько хорошо работает технология Respeecher:
Вся эмоциональная составляющая речи, а именно скорость, особенности произношения слов, смысловые интонации, акцент сохраняются из первоисточника. Для того, чтобы пересадить голос, потребуется запись речи длиной более часа, чтобы получить все необходимые сочетания звуков.
Respeecher сотрудничает с разными проектами, независимо от их величины. Чтобы получить доступ к сервису, нужно подать заявку, но перед этим можно запросить демонстрацию.
Сервис будет очень полезен разработчикам игр, режиссерам, монтажерам и контент-мейкерам соцсетей. Такой подход поможет сэкономить существенную часть бюджета и получить качественный результат.
Resemble.AI
Это инструмент, позволяет превращать текст в звук, редактировать готовые звуковые файлы, менять голоса и переводить речь на другие языки с помощью функции Resemble Localize:
Искусственный интеллект, метавселенные и господство видео. Что ждет бурж-арбитраж в 2023 году?
В настройках редактора можно добавлять нужные эмоции, регулировать скорость и менять тональность:
В целом, редактор ничем не лучше того, что был в NaturalReaders, а, возможно, даже немного хуже.
Большим плюсом Resemble.AI является то, что он очень удобен для встраивания на сторонние ресурсы благодаря поддержке API. Это будет полезно для разработчиков, которым необходимо озвучить много голосов в игре, не тратя огромные деньги. В этом случае можно воспользоваться сервисом и передать звуковые данные напрямую на движок Unity, который поддерживается Resemble.AI.
На главной странице проекта есть много примеров того, как работает нейросеть, но, как мы уже знаем, не стоит верить таким демонстрациям. В открытом доступе программы нет, а чтобы воспользоваться ей, нужно заполнить заявку вот здесь.
Вот видео, где пользователь решил полностью озвучить ролик для YouTube с помощью Resemble.AI:
То, как Resemble.AI справился с этим, сложно оценить, потому что с одной стороны это и правда больше похоже на человека, чем на работа. С другой стороны, если это озвучивает человек, то он или очень пьяный и постоянно засыпает, или у него проблемы с речью. Временами это звучит действительно жутко и смешно одновременно. В Resemble.AI есть свои плюсы и полезные функции, но сервис не впечатлил так сильно, как ожидалось.
Musika!
Musika! — это нейросеть, которая создает музыку, а точнее, звуковой ряд, похожий на музыку. Нейронка способна генерировать произведения в стиле метал, техно и лоу-фай. Можно моментально генерировать аудио через Huggin Face по определенному ограниченному депозитарию, а можно обучить нейросеть на собственной музыке.
В первом варианте музыка будет получаться более странной и рваной. Во втором, если приложить достаточно усилий, в будущем можно получать интересные варианты.
Такая программа может пригодиться, например, для YouTube-контента, так как можно не беспокоиться об авторских правах на музыку. Также Musika! будет полезна самим музыкантам и битмейкерам. Не для создания конечного результата, но для вдохновения.
Конечно, музыка получается странной и даже немного безумной, по крайней мере те варианты, которые получились у нас. Особенно жуткие композиции получаются при выборе варианта Misc. Ведь в этом случае в трек добавится пение:
MusicLM
MusicLM от Google делает то же самое, что и Musica! и также работает на базе нейронной сети. Разработчики рассказали о новой нейронке и сразу предупредили о том, что не планируют выпускать ее в открытый доступ.
Программа была обучена на 280 000 часах музыки, что помогло научить ее создавать сложные мелодии, которые звучат связно. При этом она не просто генерирует рандомную музыку, как Musica!, но способна создавать музыку по текстовому описанию или даже картинке. Вот пример, где MusicLM создала музыку на основе картины Ван Гога «Звездная ночь»:
Здесь пример того, что сгенерировала нейронка на основе текстового запроса на английском языке:
Также она может создавать музыку на основе голосовых подсказок. Достаточно просто напеть мелодию или мотив, который нужен, и нейросеть выдаст крутой результат:
Разработчики обнаружили, что 1% сгенерированной музыки повторяет куски мелодий из набора для обучения. Это говорит о том, что с нейронкой будет связано много проблем, в том числе с авторским правом. Одного этого достаточно, чтобы не выпускать MusicLM в открытый доступ.
Murf.AI
Murf.AI — это онлайн-сервис для озвучивания и редактирования текста, который похож на NaturalReader и Resemble.AI. От последнего он отличается тем, что находится в открытом доступе, и любой желающий может его протестировать.
Проверим, насколько хорошо сервис выполняет свои функции. После быстрой регистрации нас просят выбрать тип занятости:
Далее выбираем тип проекта, например, аудиокнига, публичное выступление, презентация, обучающее видео, реклама и так далее:
В качестве проекта мы выбрали рекламное видео. В редакторе доступно 20 языков, а также есть возможность выбрать пол, возраст и диалект для некоторых стран:
Чтобы протестировать, насколько хорошо сервис озвучивает текст, мы выбрали корейский язык. Затем написали одно предложение, которое можно было бы использовать для креатива на гемблинг и выбрали молодой женский голос:
Это довольно живое и хорошее произношение, которое почти не похоже на робота. Причем, мы не использовали все преимущества редактора, например, паузы, ударения, скорость и так далее. С применением всего этого, речь звучала бы еще более живо и естественно.
Также в редакторе можно менять уже записанную речь. Сделать это можно в формате mp3 и mp4. Мы решили загрузить видео, которое записывали в NaturalReader, записанный отрывок речи и отредактировать его:
После обработки файла в редакторе появился новый блок с текстом, который считался с записи вместе с паузами:
Теперь мы можем выбрать другой голос, изменить паузы, ударения и расставить акценты в конкретных словах, если это нужно:
Например, на скриншоте выше можно выбрать несколько вариантов произношения слова you с разными акцентами, и это просто волшебно. Вот такой результат у нас получился:
Murf.AI — это платный сервис, и месячная подписка Basic стоит $29. В нее входят безграничные загрузки, 60 базовых голосов, 10 языков и суммарно 2 часа сгенерированного звука. В подписку Pro входят вдвое больше языков и голосов, а в подписку Enterprise можно добавить до четырех человек и генерировать без ограничений:
Подводя итог, Murf.AI просто отличный сервис, который способен сделать качественную озвучку. Он будет полезен арбитражникам для создания креативов для любого гео и поможет добиться нужного эффекта контент-мейкерам.
Mubert text-to-music
Это онлайн-сервис на основе нейросети, который генерирует музыку по текстовому запросу или на основании выбранных параметров. Также можно загрузить музыку по ссылке из YouTube. Вводить текстовый промт нужно на английском:
Попробовать сгенерировать музыку онлайн можно здесь, но также есть возможно скачать репозиторий с GitHub для лучшего взаимодействия. Перед началом работы нужно пройти короткое, но полезное обучение по всем кнопкам взаимодействия:
Мы решили попробовать сгенерировать трек по текстовому запросу «приятная летняя музыка для солнечного путешествия». Вот что из этого вышло:
Результат очень крутой, это очень хорошо олицетворяет промт, который мы ввели. Здорово, что такой трек действительно можно было бы вставить в YouTube-видео, чтобы избежать проблем с авторскими правами. Теперь попробуем создать мрачную и спокойную музыку в стиле фильмов про вампиров:
На этот раз сервис не совсем понял, чего именно от него ждут и выдал какой-то странный веселый трек. Он в целом неплох, но не совпадает с запросом. Возможно, чтобы добиться нужного результата, стоит прописывать свои требования более подробно.
На выходе во всех треках каждые 15 секунд произносится слово-вотермарк Mubert. Чтобы убрать все ограничения, можно приобрести подписку за $14 в месяц:
Чем опасны старые системы бампов и как эффективно лить трафик на аналог TikTok — самые интересные посты из корпоративных блогов за июнь 2022
В целом, сервис хороший, и если сравнивать его с Musika!, то он, конечно, в разы превосходит его и в плане качества, и в отношении обслуживания.
Image to Music
Интересный онлайн-сервис, который генерирует музыку на основе фотографии. Он работает на двух нейросетях: первая генерирует текстовый промт на основе выбранного изображения, а вторая, уже знакомая нам нейронка Mubert, создает музыку.
Система работает очень просто: загружаете изображение в поле, выбираете продолжительность, интенсивность и режим. После этого нажимаем кнопку «Сгенерировать».
Для теста мы решили взять картину Матисса «Танец». Давайте посмотрим, что из этого получилось:
Результат просто волшебный! Это действительно довольно точное попадание под изображение, оно кажется вполне соответствующим. Теперь попробуем загрузить картинку с плачущим грустным котом и посмотрим, что выдаст нейронка на этот раз:
Опять точное попадание. Музыка получилась грустной, но милой и доброй, прямо как кот на картинке. Однозначно рекомендуем попробовать Image to Music, тем более, что это абсолютно бесплатно.
Podcastle
Это инструмент, который позволяет редактировать звук в видео без лишних проблем и в очень высоком качестве. В Podcastle поддерживается многодорожечная запись, преобразование текста в речь и наоборот, а также улучшения звука с поддержкой искусственного интеллекта.
Как ясно из названия, сервис создан для работы с подкастами — длинными разговорными видео. Помимо этого, в Podcastle можно редактировать аудиокниги, обучающий контент или для общения:
Самая важная функция здесь — это именно редактирование звука, которое включает в себя не только улучшение качества звучания, но и автоматическое удаление лишних пауз, мычания, слов-паразитов и прочего словесного мусора.
Использовать инструмент могут не только блогеры, которые записывают подкасты, но и копирайтеры, например. В Podcastle есть функция транскрипции живой речи в текст. Достаточно загрузить нужное видео, и все, что было сказано в нем, конвертируется в текстовый формат, который останется только отредактировать. Помимо этого, здесь можно преобразовать и текст в речь.
Редактор прост и интуитивно понятен:
Для того, чтобы попробовать перевести текст в речь, нужна как минимум стандартная подписка за $12 в месяц. В этом случае пользователю будет ежемесячно доступно до 10 часов транскрипции:
При редактировании самого звука есть множество функций, которые удобно расположены. Также после загрузки видео или аудио-файла Podcastle автоматически анализирует звук и предлагает свои исправления:
Podcastle — платный сервис, но несмотря на это, в нем действительно много полезных инструментов, которые способны заменить сложные программы. Тем более, что начать использовать базовые функции можно бесплатно.
Descrip
Это практически идентичный Podcastle инструмент с таким же набором функций, за исключением пары преимуществ. Здесь можно не только записывать подкасты, редактировать видео, улучшать звук и работать с текстом, но и клонировать голос:
К примеру, если пользователь оговорился в тексте, то не нужно перезаписывать все сначала. Достаточно исправить текстовую версию речи, а ИИ сам заменит нужное слово голосом. Здесь также есть функция очистки речи от слов-паразитов и лишних пауз для более чистого звучания:
В Descript также доступна транскрипция, которая за считанные секунды превращает речь в текст:
Для начала использования программы ее нужно скачать и установить на компьютер. Подойдет как MacOS High Sierra, так и Windows, но не старше 10 версии.
Также для работы необходимо иметь 20 Гб свободного пространства на диске:
Descript — платная программа, но есть и бесплатный пробный период. На выбор можно оформить 2 варианта подписки: за $12, $24. Для больших команд можно оформить индивидуальную подписку наиболее отвечающую запросам:
Одним словом, Descript станет идеальной программой для контент-мейкеров, копирайтеров, арбитражников и всех, кто работает с видео, текстами и аудио.
Speechactors
Этот инструмент на базе нейросети, позволяет превратить любой текст в человекоподобную речь за пару кликов. В нем доступно более 300 голосов, 129 языков, эмоции и наложение закадровой музыки:
Протестировать работу инструмента можно бесплатно. Каждому новичку выдается 10 кредитов, которых хватит на пару тестов:
Стоит нажать всего одну кнопку, и нейросеть сделает написанный текст более человечным:
Каждое слово можно вручную отредактировать, чтобы задать нужное произношение и сделать речь живой и подвижной:
Теперь, наконец, послушаем, как будет звучать результат. Мы выбрали женский голос, расставили ударение, паузы и скорость произношения отдельных слов. Вот что получилось:
Произношение и звучание такое же отличное, как и в NaturalReaders, но здесь легче редактировать некоторые слова, и поэтому речь звучит чуть более натурально.
Стоимость Pro-подписки на Speechactors начинается от $49 и доходит до $99, причем оплачивается она единоразово. Для единоличного использования подойдет самая дешевая подписка, в которую входят 200 000 символов в месяц:
37 SEO-экспертов поделились своими мнениями о том, как будет развиваться индустрия продвижения сайтов в 2023 году
Заключение
На данный момент программ и сервисов для работы со звуком, на базе ИИ, огромное количество, и все они показывают хороший уровень проработки. Большинство инструментов, которые мы сегодня рассмотрели, действительно могут облегчить работу по озвучке креатива или видео для YouTube. Также музыкальные нейросети могут полностью решить проблему с баном видео за авторские права. Надеемся, что сегодняшний обзор был полезен, и каждый смог найти именно то, что искал!
Подписывайтесь на наш Telegram-канал по нейросетям, где мы публикуем свежие новости, интересные кейсы и много забавных работ нейросетей!