Распознавание речи

Распознавание речи (speech-to-text — stt) — это процесс преобразования речи в текст.

Сервис позволяет распознавать речь на языках:

  • русский;
  • английский;
  • турецкий.

Способы распознавания

Есть три способа распознавания:

  1. Распознавание коротких аудио. Подходит для распознавания одноканального аудио небольшого размера.
  2. Потоковый режим для распознавания коротких аудио. Позволяет в рамках одного соединения отправлять аудиофрагменты и получать результаты, в том числе промежуточные результаты распознавания.
  3. Распознавание длинных аудио. Позволяет распознавать длинные многоканальные аудиозаписи, но скорость ответа может быть ниже..

Процесс распознавания

Распознавание аудио происходит в три этапа:

  1. Выделяются слова. Обычно существует несколько гипотез распознанного слова.
  2. Гипотезы проверяются с помощью языковой модели. Модель проверяет, насколько согласуется новое слово со словами, распознанными ранее.
  3. Обрабатывается распознанный текст — числительные преобразуются в цифры, расставляются некоторые знаки препинания (например, дефисы) и т. д. Этот преобразованный текст и является финальным результатом распознавания, который отправляется в теле ответа.

Точность распознавания

Чтобы повысить точность распознавания, уточните языковую модель, которую должен использовать сервис. Модель должна соответствовать тематике речи.

Еще на точность распознавания влияют:

  • качество исходного звука;
  • качество кодирования аудио;
  • разборчивость и темп речи;
  • сложность фраз и их длина.

См. также