Распознавание речи

Статья создана

Обновлена 7 марта 2024 г.

Способы распознавания
- Какое распознавание выбрать
Процесс распознавания
Точность распознавания

Распознавание речи (speech-to-text — STT) — это процесс преобразования речи в текст.

Работа со SpeechKit осуществляется через API. Подробнее о принципах работы API Yandex Cloud см. в документе Концепции API.

Сервис доступен по адресу stt.api.cloud.yandex.net:443.

Для работы со SpeechKit также доступен Python SDK. Он основан на API v3 SpeechKit.

Вы можете попробовать синтез и распознавание речи на сайте на странице SpeechKit.

Способы распознавания

SpeechKit предоставляет два способа распознавания речи:

Потоковое распознавание применяется для распознавания в режиме реального времени. При потоковом распознавании SpeechKit получает короткие аудиофрагменты и отправляет результаты, в том числе промежуточные, в рамках одного соединения.
Распознавание аудиофайлов. SpeechKit может распознавать аудиозаписи в синхронном и асинхронном режиме.
- Синхронное распознавание имеет жесткие ограничения на размер и длительность файла и подходит для распознавания одноканальных аудио до 30 секунд.
- Асинхронное распознавание может обрабатывать многоканальные аудиозаписи. Максимальная длительность файла — 4 часа.

Какое распознавание выбрать

	Потоковое распознавание	Синхронное распознавание	Асинхронное распознавание
Сценарии использования	Телефонные ассистенты и роботы Виртуальные ассистенты	Виртуальные ассистенты Голосовое управление Распознавание коротких голосовых сообщений в мессенджерах	Транскрибация аудиозвонков и выступлений Создание субтитров Контроль соблюдения скриптов колл-центров Выявление успешных скриптов Оценка качества работы операторов колл-центров
Входные данные	Голос в режиме реального времени	Предзаписанные одноканальные короткие аудиофайлы	Предзаписанные многоканальные и длинные аудиофайлы
Принцип работы	Обмен сообщениями с сервером в рамках одного соединения	Запрос — быстрый ответ	Запрос — отложенный ответ
Поддерживаемые API	gRPC v2 gRPC v3	REST v1	REST v2
Максимальная длительность аудиоданных	5 минут	30 секунд	4 часа
Максимальный объем переданных данных	10 МБ	1 МБ	1 ГБ
Количество распознаваемых каналов	1	1	2

Процесс распознавания

Распознавание аудио происходит в три этапа:

Акустическая модель определяет, какой набор низкоуровневых признаков соответствует звуковому сигналу.
Языковая модель на основе выхода акустической модели генерирует текст по словам.
Сервис обрабатывает текст: производит расстановку пунктуации, преобразование числительных в цифры и т.п.

Точность распознавания зависит от модели распознавания. Вы можете повысить точность распознавания модели, предоставив данные для дообучения модели. Подробнее о дообучении моделей см. в разделе Расширение модели распознавания речи.

Также на точность распознавания влияют:

качество исходного звука;
качество кодирования аудио;
разборчивость и темп речи;
сложность фраз и их длина.

Распознавание речи

Способы распознавания

Какое распознавание выбрать

Процесс распознавания

Точность распознавания

См. также

Была ли статья полезна?

Распознавание речи

Способы распознаванияСпособы распознавания

Какое распознавание выбратьКакое распознавание выбрать

Процесс распознаванияПроцесс распознавания

Точность распознаванияТочность распознавания

См. такжеСм. также

Была ли статья полезна?

Способы распознавания

Какое распознавание выбрать

Процесс распознавания

Точность распознавания

См. также