Yandex SpeechKit Brand Voice: представляем технологию для создания фирменных голосов

Yandex.Cloud представила технологию Yandex SpeechKit Brand Voice, с помощью которой можно синтезировать для своей компании новый уникальный и не отличимый от человеческого голос. Решение позволит выделиться на фоне конкурентов и спамеров, повысить лояльность клиентов, а также откроет новые возможности для рекламных кампаний.

Технология разработана на базе ML-моделей, которые обучаются с использованием записей речи реального человека и выдают полную цифровую копию голоса. Также она позволяет автоматизировать коммуникации с клиентами в несколько раз быстрее других решений на рынке.

С июля 2021 года SpeechKit Brand Voice представлен в версии Full и Adaptive и доступен на сайте Yandex.Cloud.

Yandex SpeechKit Brand Voice Adaptive

С помощью версии Adaptive уникальный голос создается всего за один месяц. Это решение подойдет для самых востребованных бизнес-задач:

  • маршрутизация звонков на первой линии;
  • телемаркетинг;
  • подтверждение заказов, записи на прием, напоминания клиентам;
  • опросы и замер NPS.

В основе версии Adaptive лежит синтез переменных — разработка Yandex.Cloud не имеющая аналогов в мире. Она уникальна тем, что создает цифровую копию голоса конкретного человека по заданным заранее шаблонам всего за несколько часов, а затем персонализирует речь: добавляет нужное обращение, данные конкретного заказа, сумму и так далее. При этом синтезированный голос звучит так же естественно, как если бы фразу произносил реальный человек.

Пример записи: диктор →

Пример записи: склейка фраз диктора →

Пример записи: SpeechKit Brand Voice Adaptive →

SpeechKit Brand Voice Adaptive требует всего несколько часов записей диктора, чтобы обучить модель воспроизводить цифровую копию голоса. Стоимость решения — от 150 тыс. руб/мес.

Yandex SpeechKit Brand Voice Full

Версия Full предназначена для решения комплексных задач, таких как:

  • голосовой ассистент в мобильном приложении;
  • входящие звонки на ваш номер, IVR;
  • озвучивание книг и любого текстового контента.

Время внедрения диалогового робота составляет примерно шесть месяцев, а стоимость разработки модели определяется индивидуально, в зависимости от сложности задач клиента.

Версия Full — это полная цифровая копия голоса реального человека без ограничений. Для «обучения» такого ассистента требуется около 50 часов записи речи, после чего робот будет способен произносить уникальным голосом любой текст.

Никита Ткачев, руководитель группы развития ML-сервисов в Yandex.Cloud: «С помощью технологии можно реализовывать персональные диалоги с клиентами и создавать новые бизнес-сценарии, недоступные ранее из-за дороговизны и сложности создания уникальных голосов. Например, использовать несколько голосовых роботов с разными голосами в одном диалоге с клиентом. Компании, заинтересованные в создании полнотекстового синтеза, могут воспользоваться другой нашей технологией — Brand Voice Full. Для нее потребуется заметно больше данных, но при этом появится возможность синтезировать произвольные фразы без необходимости готовить шаблоны заранее».

  • Новости