О чем эта история

Онлайн-платформа Speechki с помощью облачного сервиса Yandex SpeechKit озвучила более 800 русскоязычных художественных и деловых книг.

В результате синергии собственных разработок компании и технологии синтеза речи Yandex Cloud удалось сократить время создания аудиокниги на русском языке в 10 раз по сравнению с созданием в студии звукозаписи и живым диктором.

Сегодня Speechki поставляют клиентам готовые к продаже аудиокниги за 1-2 рабочих дня — это примерно в 30 раз быстрее, чем с работой диктора.

Финансово издательствам это обходится в 5-8 раз дешевле — до 10 000 руб.

Как все началось

Онлайн-платформа Speechki с помощью облачного сервиса Yandex SpeechKit превращает художественную и деловую литературу на русском языке в аудиокниги. Также на сегодняшний день в каталоге Speechki присутствует более 250 нейронных голосов на более чем 70 языках мира.

Стартап Speechki появился в 2019 году. До этого команда разработчиков оказывала услуги по заказной веб-разработке для бизнеса и проводила эксперименты с речевыми технологиями. Они создавали навыки для голосового помощника Алиса и тестировали озвучивание текстовых статей.

Команда проекта, проанализировав книгоиздательский рынок, обнаружила информацию о том, что в год в мире публикуется около 2,2 млн уникальных произведений. Аудиоверсию создают только для 4,5% от общего количества книг, то есть около 100 тыс. Это происходит потому, что традиционный процесс создания аудиокниг в студии звукозаписи отнимает много времени и ресурсов: согласование и проверка документов, подбор диктора, контроль за качеством записи и т. д. При этом сегмент аудиокниг в России по итогам первой половины 2021 года вырос на 55% по сравнению с аналогичным периодом прошлого года, и составляет 1,6 млрд руб. По прогнозам экспертов в ближайшие 5 лет это направление обеспечит половину продаж всей цифровой литературы. Но уже сейчас аудиокниги превысили порог примерно в 30%.

Озвучка с помощью технологии синтеза речи позволит издательствам получать высокое и, что важнее, прогнозируемое качество аудиокниг — синтезируемые голоса не меняются, не устают, не простужаются и могут работать 24/7. А благодаря их постоянной доступности и готовности к озвучиванию книг, можно обозначать сроки производства без рисков, что диктор или звукорежиссер заболеют, будут заняты другим проектом и т. п.

Разработка в облаке

Для создания нового сервиса команда проекта Speechki решила использовать облачную платформу Yandex Cloud, так как разработчики уже имели опыт работы с технологиями Яндекса. Разработка в облаке позволяет сосредоточиться на продукте и не отвлекаться на администрирование инфраструктуры.
Также Yandex Cloud предоставляет готовый сервис для синтеза речи на русском языке Yandex SpeechKit, который лежит в основе голосового помощника Алиса и позволяет реалистично озвучивать тексты.

Интеллектуальная система разметки

Первая версия онлайн-платформы Speechki была создана примерно за 6 месяцев небольшой командой из нескольких разработчиков. Вся инфраструктура была построена на виртуальных машинах и управляемых сервисах Yandex Cloud:

  • Yandex SpeechKit — синтез голоса на русском языке;
  • Yandex Compute Cloud — web-сервисы и различные воркеры разворачиваются через docker на виртуальных машинах;
  • Yandex Object Storage — хранение статического контента (стили, js скрипты админки) и медиа контента, который загружают пользователи или генерирует сама платформа (аудиокниги);
  • Yandex Container Registry — хранение docker образов, которые собираются через github actions;
  • Yandex Managed Service for PostgreSQL — основная СУБД на проекте для персистентного хранения данных;
  • Yandex Managed Service for Redis — хранения кеша и различных блокировок;
  • Yandex Managed Service for ClickHouse — хранение аналитических данных и последующего их просмотра.

Основная трудность озвучки на русском языке была в том, что синтезированная речь не очень подходила под специфику аудиокниг. Показывая отличные результаты в бизнес-сценариях, технологии нуждались в адаптации для применения в озвучке литературы. Этим и занялась команда Speechki. Ими была разработана система автоматической подготовки текста для последующего синтеза речи — интеллектуальная система разметки, с помощью которой еще до озвучивания минимизируются возможные ошибки в произношении и интонации. Это позволяет значительно сократить время создания аудиокниги.

В итоге если на первую десятичасовую аудиокнигу редакторы потратили 120 ч, то сейчас это время сократилось до 12 ч.

Как работает озвучка на русском языке с помощью Yandex SpeechKit

После обработки и разметки текста, в Speechki формируется ряд запросов для API облачного сервиса Yandex SpeechKit. В параметрах можно выбрать понравившийся голос и скорость воспроизведения. После этого отправляется запрос на синтез речи, а Yandex Speechkit возвращает готовый аудиофайл в формате LPCM.

Далее Speechki уже самостоятельно конвертирует файл в нужный формат и проводит постпродакшн-обработку. Программа исправляет оставшиеся ошибки с помощью визуального редактора, который спроектирован таким образом, что для внесения исправлений человеку нужно совершить в 5-10 раз меньше действий. С редактированием речи робота справится любой человек, для этого не нужны знания языков программирования или языка разметки синтетической речи (SSML).

Иван
00:00
Элина
00:00

За 12 ч полностью создается одна восьмичасовая книга. На озвучивание уходит буквально несколько минут, всё остальное время — отслушивание получившегося продукта и редактирование речи искусственного интеллекта.

Планы на будущее

Всего за время существования сервиса с помощью Yandex SpeechKit на платформе Yandex Cloud было озвучено более 800 русскоязычных книг. Сегодня Speechki поставляют клиентам готовые к продаже аудиокниги за 1-2 рабочих дня — это примерно в 30 раз быстрее, чем с работой диктора. Финансово издательствам это обходится дешевле в 5-8 раз — до 10 000 руб. Таким образом, книгоиздатели возвращают инвестиции в производство аудиокниги за 2-3 мес.

К 2024 году команда планирует сократить время работы над книгой до 40 мин и максимально автоматизировать работу благодаря искусственному интеллекту. Это поможет ускорить «доставку» аудиокниги заказчику. Для этого планируется использовать облачные сервисы Yandex Cloud, а также новые возможности, которые появились у Yandex SpeechKit.

Мнение

Сергей Баранов,
операционный директор Speechki
Сергей Баранов,
операционный директор Speechki

В результате синергии наших собственных разработок и синтеза речи от Yandex Speechkit удалось сократить время создания аудиокниги в 10 раз по сравнению с созданием в студии звукозаписи и живым диктором. Сократилась и стоимость создания (тут нельзя сказать во сколько раз, так как там много зависит от диктора, один диктор записывается за 2000 руб./ч, другой — за 20 000 руб./ч). Благодаря Yandex Cloud и Yandex SpeechKit удается строить успешный проект с большим потенциалом. Yandex Cloud занимается развитием движка синтеза речи, самой технологией и новыми голосами, а мы делаем эту технологию доступной для конкретного рынка — издательской индустрии.

Партнёры, которые могут помочь