Синтез речи

Синтез речи (text-to-speech — tts) — это процесс генерирования речи по печатному тексту. SpeechKit позволяет озвучить любой текст на нескольких языках. При этом можно выбрать голос (мужской или женский) и интонацию.

Языки

  • русский
  • английский
  • турецкий

Качество синтеза

Под качеством синтезированной речи понимается сходство с человеческим голосом и способность передать эмоции с помощью интонаций.

Особенность технологии синтеза в Яндексе — мы не склеиваем фрагменты реальной речи, а обучаем акустическую модель на речи диктора. Для этого используется статистический подход на базе рекуррентных нейронных сетей. Тембр голоса, созданного таким образом, несколько искусственный, но речь получается плавной, а интонации естественными.

Статистический подход также позволяет менять параметры уже существующих голосов. Благодаря этому можно выбирать интонацию, с которой произносится текст.

Поддержка SSML

Чтобы получить больше контроля над синтезом речи, вы можете использовать Speech Synthesis Markup Language (SSML). Это язык разметки на основе XML, который позволяет настроить длительность пауз, произношение отдельных звуков и многое другое. Подробнее о поддерживаемых тегах и их использовании читайте в разделе Использование SSML.

См. также