Yandex Cloud
  • Сервисы
  • Решения
  • Почему Yandex Cloud
  • Сообщество
  • Тарифы
  • Документация
  • Связаться с нами
Подключиться
Language / Region
© 2022 ООО «Яндекс.Облако»
Yandex SpeechKit
  • Начало работы
  • Распознавание речи
    • О технологии
    • Потоковое распознавание
    • Распознавание аудиофайлов
      • Синхронное распознавание
      • Асинхронное распознавание
    • Форматы аудио
    • Модели распознавания
    • Расширение модели распознавания речи
    • Загрузка данных для дообучения модели
    • Справочник API
      • Аутентификация в API
      • API v2
        • API потокового распознавания
        • Примеры использования API потокового распознавания
        • API синхронного распознавания
        • Примеры использования API синхронного распознавания
        • API асинхронного распознавания
        • Распознавание речи в формате LPCM
        • Распознавание речи в формате OggOpus
      • API v3 gRPC (англ.)
        • Overview
        • Recognizer
  • Синтез речи
    • О технологии
    • Список голосов
    • Настройка генерации речи
    • SpeechKit Brand Voice
      • О технологии SpeechKit Brand Voice
      • Формат входных данных Brand Voice Adaptive
      • Загрузка данных для Brand Voice
    • Справочник API
      • Аутентификация в API
      • API v1
        • Описание метода API
        • Использование SSML
        • Список поддерживаемых фонем в SSML
      • API v3 gRPC (англ.)
        • Overview
        • Synthesizer
  • SpeechKit Hybrid
    • О технологии
    • Системные требования
    • Синтез речи
    • Распознавание речи
    • Мониторинг
    • Справочники API gRPC (англ.)
      • Аутентификация в API
      • Синтез речи
        • Overview
        • Synthesizer
      • Потоковое распознавание
        • Overview
        • Recognizer
  • Интеграция телефонии
  • Использование API
    • Аутентификация в API
    • Формат ответа
    • Диагностика ошибок
  • Квоты и лимиты
  • Управление доступом
  • Правила тарификации
  • Релизы
    • Релизы распознавания
    • Релизы синтеза
    • Архив релизов
  • Публичные материалы
  • Вопросы и ответы
  1. Синтез речи
  2. О технологии

Синтез речи

Статья создана
Yandex Cloud
  • Языки
  • Выбор голоса и настройка произношения
    • Настройки произношения
    • Качество переданного текста
  • Управление произношением

Синтез речи в сервисе Yandex SpeechKit позволяет озвучить любой текст на нескольких языках. При этом вы можете выбрать голос и управлять параметрами речи.

При синтезе SpeechKit не склеивает фрагменты записанной речи, а обучает акустическую модель на речи диктора, используя нейронные сети. Благодаря этому синтезированная речь получается плавной, а интонации — естественными.

Работа со SpeechKit осуществляется через API. Подробнее о принципах работы API Yandex Cloud см. в документе Концепции API.

Языки

Модели SpeechKit могут синтезировать речь на русском (ru-RU) языке.

Некоторые голоса, предназначенные для синтеза текста на русском языке, могут произносить и текст на английском, однако синтезированный текст будет звучать с акцентом.

Выбор голоса и настройка произношения

Каждый голос соответствует модели, обученной на речи диктора. Голоса отличаются тембром, основным языком и полом говорящего: мужским или женским. Список доступных голосов.

Голосовые модели используют технологию глубоких нейронных сетей. При синтезе речи модель обращает внимание на большое количество деталей исходного голоса. Кроме того, перед стартом модель оценивает весь текст целиком, а не отдельные предложения. Благодаря этому синтезированный голос звучит чисто и естественно, без электронных искажений, и воспроизводит уместные интонации, присущие речи живого человека.

Чтобы качество произношения выбранного голоса оставалось высоким:

  • Указывайте рекомендуемые настройки произношения.
  • Следите за качеством переданного текста.

Настройки произношения

Качество произношения и голос зависят от настроек произношения:

  • Язык — каждый голос создавался для определенного языка, на котором разговаривал диктор. Чтобы получить желаемое качество, используйте тот голос из списка, для которого выбранный язык является основным.

    Если выбрать не основной язык, то использование выбранного голоса и высокое качество произношения не гарантируются.

  • Скорость — слишком быстрое и слишком медленное произношение звучит неестественно, но может быть полезно в рекламе, где каждая секунда эфира стоит дорого.

  • Амплуа — это возможность выбрать характер произношения для одного и того же диктора. Для разных голосов доступны разные наборы амплуа. Попытка использовать амплуа, которого нет у выбранного голоса, вызовет ошибку сервиса.

Качество переданного текста

В некоторых случаях в синтезированном тексте может меняться голос. Это происходит, если для синтеза передан текст низкого качества:

  • длинный текст без пунктуации;
  • текст, содержащий специфичные предложения и сленг;
  • текст с большим количеством слов из других языков.

Управление произношением

Чтобы получить больше контроля над синтезом речи, вы можете использовать Speech Synthesis Markup Language (SSML) и TTS-разметку. Эти способы разметки позволяют настроить длительность пауз, произношение отдельных звуков и многое другое. SSML и TTS-разметка отличаются параметрами передачи данных:

  • Чтобы передать текст в формате SSML, укажите параметр ssml в теле запроса, а текст оберните в тег <speak>. Поддержка SSML доступна только при использовании API v1. Подробнее читайте в разделе Использование SSML.
  • Для использования TTS-разметки укажите параметр text в теле запроса API v1. Подробнее читайте в разделе Настройка генерации речи.

Что дальше

  • Попробуйте синтез речи с помощью демо на странице сервиса.
  • Ознакомьтесь с параметрами метода API v1.

Была ли статья полезна?

Language / Region
© 2022 ООО «Яндекс.Облако»
В этой статье:
  • Языки
  • Выбор голоса и настройка произношения
  • Настройки произношения
  • Качество переданного текста
  • Управление произношением