Синтез переменных
Преимущества:
- Синтезируемый голос обучается на записях диктора, голос которого должна имитировать результирующая модель.
Две фразы в одном разговоре — предзаписанная диктором и синтезированная — звучат как фразы, произнесенные одним и тем же говорящим. - Для такого синтеза требуется гораздо меньше данных для обучения, что экономит затраты.
Ограничения:
- Помимо текста, потребуется предзаписанное аудио с образцом (шаблоном) фразы, которая будет синтезирована
- Применение ограничено фразами, характерными для телефонного звонка: достаточно короткие тексты, ограниченная интонационная выразительность. Для озвучивания художественных текстов такой голос вряд ли подойдет.
Требования к записи
Требование | Значение |
---|---|
Частота дискретизации | 44 kHz |
Битрейт | 16 bit PCM |
Канал | Mono |
Формат | .wav |
Также должны соблюдаться следующие условия:
- Отсутствие эхо.
- Отсутствие посторонних шумов.
- Минимальная постобработка.
Требования к оборудованию и процессу записи
В данный момент для записи звука мы рекомендуем использовать гарнитуру Apple AirPods Pro.
Посторонние шумы и эхо при записи напрямую влияют на результирующее качество синтеза. Комната, оборудованная акустическими панелями, будет отличным местом для записи. Если запись происходит в бытовых условиях, снизить эхо помогут мягкие поверхности и мебель, например ковер, мягкий диван и т.д.
Рекомендуется проводить все записи в одних и тех же условиях, в одном и том же помещении. Это касается как записи исходных аудио диктора, нужных для обучения, так и последующих записи аудио для новых шаблонов.
Требования к диктору
- Громкость голоса на всех записях должна быть одинаковой.
- Все фразы должны быть произнесены в одном стиле и настроении.
Рекомендации:
- Если диктор не является профессионалом, мы рекомендуем не производить записи дольше 2 часов в день.
- Если фраза вызывает у диктора непонимание или отторжение — ее стоит пропустить.
- Если диктор не уверен в правильности произнесения фразы или считает, что произносит не естественно – ее стоит пропустить.
Требования к итоговым данным
На выходе должно быть представлено 2 набора данных (записей диктора):
-
Основной сет.
Состоит из набора фраз, специально подготовленного командой Yandex.Cloud, которые нужно проговорить и записать. Его изменение невозможно — допускается только пропуск фраз.
-
Набор для построения фраз.
В качестве текстов нужны записи шаблонов, которые потом предлагается синтезировать, с учетом переменных. Этот набор формируется на основе пользовательских данных и должен пройти рецензирование перед началом записи.
Основные требования к обоим наборам данных
-
Одна фраза — одна запись (файл).
Неточности, микроповторы, оговорки и замены слов недопустимы.
-
Каждая запись должна сопровождаться абсолютно точной текстовой расшифровкой.
-
Расшифровки не должны содержать грамматических ошибок.
-
Для наименования файлов необходимо использовать номер фразы.
-
Обязательным условием является явное указание буквы
ё
.Использование буквы
е
, вместоё
недопустимо. -
Аббревиатуры должны быть денормализованы (ВТБ ->
вэтэбэ
) или развернуты.
Требования к шаблонам
-
Шаблон должен соответствовать желаемому скрипту.
-
В шаблоне должна быть одна или несколько переменных для замены.
-
Длительность переменной должна соответствовать образцу в шаблоне. В случае если переменные сильно различаются по длине, рекомендуем записать несколько шаблонов с примерами разной длины.
-
Длинные реплики диктора необходимо разбить на самостоятельные предложения и разные шаблоны.
-
Для каждого шаблона должно быть представлено не менее 10 вариантов переменных, различных по длительности произношения.
Например:
Здравствуйте, меня зовут Анастасия, компания Яндекс Облако.
Здравствуйте, меня зовут Анна, компания Яндекс.