Yandex.Cloud
  • Сервисы
  • Почему Yandex.Cloud
  • Сообщество
  • Решения
  • Тарифы
  • Документация
  • Связаться с нами
Подключиться
Синтез переменных в Yandex SpeechKit
  • Синтез переменных
  • Справочник API
    • Аутентификация в API
    • GRPC
      • Обзор
      • TtsService
  1. Синтез переменных

Синтез переменных

  • Требования к записи
  • Требования к оборудованию и процессу записи
  • Требования к диктору
  • Требования к итоговым данным

Преимущества:

  • Синтезируемый голос обучается на записях диктора, голос которого должна имитировать результирующая модель.
    Две фразы в одном разговоре — предзаписанная диктором и синтезированная — звучат как фразы, произнесенные одним и тем же говорящим.
  • Для такого синтеза требуется гораздо меньше данных для обучения, что экономит затраты.

Ограничения:

  • Помимо текста, потребуется предзаписанное аудио с образцом (шаблоном) фразы, которая будет синтезирована
  • Применение ограничено фразами, характерными для телефонного звонка: достаточно короткие тексты, ограниченная интонационная выразительность. Для озвучивания художественных текстов такой голос вряд ли подойдет.

Требования к записи

Требование Значение
Частота дискретизации 44 kHz
Битрейт 16 bit PCM
Канал Mono
Формат .wav

Также должны соблюдаться следующие условия:

  • Отсутствие эхо.
  • Отсутствие посторонних шумов.
  • Минимальная постобработка.

Требования к оборудованию и процессу записи

В данный момент для записи звука мы рекомендуем использовать гарнитуру Apple AirPods Pro.

Посторонние шумы и эхо при записи напрямую влияют на результирующее качество синтеза. Комната, оборудованная акустическими панелями, будет отличным местом для записи. Если запись происходит в бытовых условиях, снизить эхо помогут мягкие поверхности и мебель, например ковер, мягкий диван и т.д.
Рекомендуется проводить все записи в одних и тех же условиях, в одном и том же помещении. Это касается как записи исходных аудио диктора, нужных для обучения, так и последующих записи аудио для новых шаблонов.

Требования к диктору

  • Громкость голоса на всех записях должна быть одинаковой.
  • Все фразы должны быть произнесены в одном стиле и настроении.

Рекомендации:

  • Если диктор не является профессионалом, мы рекомендуем не производить записи дольше 2 часов в день.
  • Если фраза вызывает у диктора непонимание или отторжение — ее стоит пропустить.
  • Если диктор не уверен в правильности произнесения фразы или считает, что произносит не естественно – ее стоит пропустить.

Требования к итоговым данным

На выходе должно быть представлено 2 набора данных (записей диктора):

  1. Основной сет.

    Состоит из набора фраз, специально подготовленного командой Yandex.Cloud, которые нужно проговорить и записать. Его изменение невозможно — допускается только пропуск фраз.

  2. Набор для построения фраз.

    В качестве текстов нужны записи шаблонов, которые потом предлагается синтезировать, с учетом переменных. Этот набор формируется на основе пользовательских данных и должен пройти рецензирование перед началом записи.

Основные требования к обоим наборам данных

  • Одна фраза — одна запись (файл).

    Неточности, микроповторы, оговорки и замены слов недопустимы.

  • Каждая запись должна сопровождаться абсолютно точной текстовой расшифровкой.

  • Расшифровки не должны содержать грамматических ошибок.

  • Для наименования файлов необходимо использовать номер фразы.

  • Обязательным условием является явное указание буквы ё.

    Использование буквы е, вместо ё недопустимо.

  • Аббревиатуры должны быть денормализованы (ВТБ -> вэтэбэ) или развернуты.

Требования к шаблонам

  • Шаблон должен соответствовать желаемому скрипту.

  • В шаблоне должна быть одна или несколько переменных для замены.

  • Длительность переменной должна соответствовать образцу в шаблоне. В случае если переменные сильно различаются по длине, рекомендуем записать несколько шаблонов с примерами разной длины.

  • Длинные реплики диктора необходимо разбить на самостоятельные предложения и разные шаблоны.

  • Для каждого шаблона должно быть представлено не менее 10 вариантов переменных, различных по длительности произношения.

    Например:

    Здравствуйте, меня зовут Анастасия, компания Яндекс Облако.

    Здравствуйте, меня зовут Анна, компания Яндекс.

В этой статье:
  • Требования к записи
  • Требования к оборудованию и процессу записи
  • Требования к диктору
  • Требования к итоговым данным
Language
Вакансии
Политика конфиденциальности
Условия использования
© 2021 ООО «Яндекс.Облако»