TtsService
Набор методов для управления синтезом переменных
Вызов | Описание |
---|---|
AdaptiveSynthesize |
AdaptiveSynthesize
rpc AdaptiveSynthesize (AdaptiveSynthesizeRequest) returns (stream AdaptiveSynthesizeResponse)
AdaptiveSynthesizeRequest
Поле | Описание |
---|---|
template_audio | AudioContent Обязательное поле. Шаблон с которого будет склонировано произношение синтезируемой фразы. |
template_text | string Обязательное поле. Текст, озвученный в исходном шаблоне. Максимальная длина строки в символах — 256. |
replacements[] | ReplacementUnit Массив замен, в котором указаны переменные и их значения. Максимальное количество элементов — 10. |
folder_id | string Идентификатор каталога Максимальная длина строки в символах — 50. |
output_audio_spec | AudioSpec |
AudioContent
Поле | Описание |
---|---|
audio_source | oneof: content |
content | bytes Содержимое аудиофайла Максимальная длина строки в символах — 10485760. |
audio_spec | AudioSpec Обязательное поле. Описание аудиоформата. |
AudioSpec
Поле | Описание |
---|---|
audio_encoding | enum AudioEncoding Формат файла.
|
sample_rate_hertz | int64 Частота дискретизации сигнала. |
voice | string Подсказка для определения голоса, которым необходимо синтезировать фразу. |
ReplacementUnit
Поле | Описание |
---|---|
word_index_start | int64 Порядковый номер слова, с которого начинается переменная (знаки препинания не учитываются). Допустимые значения — от 0 до 128 включительно. |
word_index_end | int64 Gорядковый номер слова, перед которым заканчивается переменная. (знаки препинания не учитываются). Допустимые значения — от 0 до 128 включительно. |
replacement_text | string Обязательное поле. Текст синтезируемой переменной. Максимальная длина строки в символах — 100. |
audio_unit_start_ms | int64 Позиция начала переменной в аудио (в миллисекундах). Минимальная значение — 0. |
audio_unit_end_ms | int64 Позиция конца переменной в аудио (в миллисекундах). Минимальная значение — 0. |
AudioSpec
Поле | Описание |
---|---|
audio_encoding | enum AudioEncoding Формат файла.
|
sample_rate_hertz | int64 Частота дискретизации сигнала. |
voice | string Подсказка для определения голоса, которым необходимо синтезировать фразу. |
AdaptiveSynthesizeResponse
Поле | Описание |
---|---|
audio_chunk | AudioChunk Фрагмент синтезированного аудио. |
AudioChunk
Поле | Описание |
---|---|
data | bytes Последовательность байт синтезированного звука в формате, указанном в output_audio_spec |