Siterem

Создание сайтов под ключ

Пн-Вс: 12:00-22:00 (MSK)
Заказать звонок

Последние наработки NVIDIA придают сгенерированным ИИ голосам эмоциональность и реалистичность

Голоса цифровых ассистентов вроде Alexa, Google Assistant  и других ИИ-помощников ушли далеко вперед по сравнению с голосами из GPS-навигаторов прошлых лет. Тем не менее, им все еще недостает ряда моментов, чтобы быть полностью похожими на реальные человеческие голоса. Компания NVIDIA провела изучение этой проблемы и опубликовала результаты исследования, а также ряд инструментов, которые помогают придать сгенерированному голосу реалистичность и эмоции. Все это было представлено на конференции  Interspeech 2021 conference.

Для того, чтобы улучшить параметры искусственных голосов, NVIDIA разработала модель, которая называется RAD-TTS. С ней должен работать один человек, который и тренирует нейросеть, генерирующую голос. После тренировки искусственный голос похож на оригинал — тембр, тональность, темп речи похожи на «учителя».

При этом, конечно, речь не идет о записи голоса, мы говорим о полностью искусственном голосе. При этом есть у модели и еще одна особенность — голос «учителя» можно наложить на речь другого человека, и она будет звучать точно так же, как если бы ее произнес «учитель» — с той же скоростью, тоном и т.п.

 Используя эту технологию, исследователи из NVIDIA создали более «человеческий» голос для озвучки серии роликов «I Am AI». Если не знать, что говорит компьютер, можно подумать, что это речь диктора-человека.

Целью проекта является создание реалистичного голоса для цифрового ассистента, что можно использовать при озвучке роликов и для других целей.

 «С помощью этой технологии наш видеопродюсер мог записать себя, читая сценарий видеоролика, а затем использовать модель искусственного интеллекта для преобразования своей речи в голос женского рассказчика. Затем сотрудник смог использовать обученный ИИ в качестве голосового актера, настроив синтезированную речь, чтобы выделить определенные слова, и изменить темп повествования, чтобы лучше передать тон видео », — написала NVIDIA.

 NVIDIA оптимизировала наработки на собственных GPU.  Компания предоставляет эти технологии всем, кто хочет их протестировать. При этом проект лицензирован по свободной лицензии. Поставляется он вместе с  инструментарием NVIDIA NeMo Python для разговорного ИИ с ускорением на GPU, доступного в концентраторе контейнеров NGC, а также другим программным обеспечением.

Источник: habr.com

Обратный звонок

Оставьте свой телефон и мы свяжемся с Вами

Заявка принята, спасибо!
Мы вскоре свяжемся с Вами ;)