Распознавание речи

Распознавание речи (speech-to-text — stt) — это процесс преобразования речи в текст.

Сервис позволяет распознавать речь на языках:

  • русский;
  • английский;
  • турецкий.

Способы распознавания

Есть три способа распознавания:

  1. Распознавание коротких аудио. Подходит для распознавания одноканального аудио небольшого размера.

  2. Потоковый режим для распознавания коротких аудио. Позволяет в рамках одного соединения отправлять аудиофрагменты и получать результаты, в том числе промежуточные результаты распознавания.

  3. Распознавание длинных аудио. Позволяет распознавать длинные многоканальные аудиозаписи, но скорость ответа может быть ниже.

    Сейчас вы можете распознавать длинные аудио только на русском языке.

Процесс распознавания

Распознавание аудио происходит в три этапа:

  1. Выделяются слова. Обычно существует несколько гипотез распознанного слова.
  2. Гипотезы проверяются с помощью языковой модели. Модель проверяет, насколько согласуется новое слово со словами, распознанными ранее.
  3. Обрабатывается распознанный текст — числительные преобразуются в цифры, расставляются некоторые знаки препинания (например, дефисы) и т. д. Этот преобразованный текст и является финальным результатом распознавания, который отправляется в теле ответа.

Точность распознавания

Чтобы повысить точность распознавания, уточните языковую модель, которую должен использовать сервис. Модель должна соответствовать тематике речи.

Еще на точность распознавания влияют:

  • качество исходного звука;
  • качество кодирования аудио;
  • разборчивость и темп речи;
  • сложность фраз и их длина.

См. также