Асинхронное распознавание
Асинхронное распознавание позволяет преобразовывать в текст многоканальные аудиофайлы следующих характеристик:
- Максимальная длительность записи — 4 часа.
- Максимальный размер файла — 1 ГБ.
Результаты распознавания хранятся на сервере 3 суток, после чего вы не сможете их получить.
Асинхронное распознавание не подходит для распознавания диалога в режиме реального времени. Если вам нужны промежуточные результаты и минимальное время ответа, используйте потоковое распознавание.
Список поддерживаемых языков см. в разделе Теги версий.
Как распознать длинное аудио
Чтобы распознать длинное аудио, необходимо выполнить 2 запроса:
- Отправить файл на распознавание.
- Получить результаты распознавания.
Примеры запросов см. в разделе Примеры использования API потокового распознавания.
Особенности использования gRPC
Чтобы использовать сервис, создайте приложение, которое будет отправлять аудиофрагменты и обрабатывать ответ с результатами распознавания.
Чтобы приложение смогло отправлять запросы и запрашивать результат, необходимо сгенерировать код интерфейса клиента для используемого языка программирования. Сгенерируйте этот код из файлов stt_service.proto и operation_service.proto из репозитория Yandex Cloud API.
В документации gRPC вы можете найти подробные инструкции по генерации интерфейсов и реализации клиентских приложений для различных языков программирования.
Важно
При запросе результатов операции gRPC-клиенты по умолчанию ограничивают максимальный размер сообщения, который они могут принять в качестве ответа, — не более 4 МБ. Если ответ с результатами распознавания будет больше этого размера, то вы получите ошибку.
Чтобы получить ответ целиком, повысьте ограничение на максимальный размер сообщения:
- для Go используйте функцию MaxCallRecvMsgSize;
- для C++ в методе call задайте значение
max_receive_message_size
.