Yandex Cloud
  • Сервисы
  • Решения
  • Почему Yandex Cloud
  • Сообщество
  • Тарифы
  • Документация
  • Связаться с нами
Подключиться
Language / Region
© 2022 ООО «Яндекс.Облако»
Yandex SpeechKit
  • Начало работы
  • Распознавание речи
    • О технологии
    • Потоковое распознавание
    • Распознавание аудиофайлов
      • Синхронное распознавание
      • Асинхронное распознавание
    • Форматы аудио
    • Модели распознавания
    • Расширение модели распознавания речи
    • Загрузка данных для дообучения модели
    • Справочник API
      • Аутентификация в API
      • API v2
        • API потокового распознавания
        • Примеры использования API потокового распознавания
        • API синхронного распознавания
        • Примеры использования API синхронного распознавания
        • API асинхронного распознавания
        • Распознавание речи в формате LPCM
        • Распознавание речи в формате OggOpus
      • API v3 gRPC (англ.)
        • Overview
        • Recognizer
  • Синтез речи
    • О технологии
    • Список голосов
    • Настройка генерации речи
    • SpeechKit Brand Voice
      • О технологии SpeechKit Brand Voice
      • Формат входных данных Brand Voice Adaptive
      • Загрузка данных для Brand Voice
    • Справочник API
      • Аутентификация в API
      • API v1
        • Описание метода API
        • Использование SSML
        • Список поддерживаемых фонем в SSML
      • API v3 gRPC (англ.)
        • Overview
        • Synthesizer
  • SpeechKit Hybrid
    • О технологии
    • Системные требования
    • Синтез речи
    • Распознавание речи
    • Мониторинг
    • Справочники API gRPC (англ.)
      • Аутентификация в API
      • Синтез речи
        • Overview
        • Synthesizer
      • Потоковое распознавание
        • Overview
        • Recognizer
  • Интеграция телефонии
  • Использование API
    • Аутентификация в API
    • Формат ответа
    • Диагностика ошибок
  • Квоты и лимиты
  • Управление доступом
  • Правила тарификации
  • Релизы
    • Релизы распознавания
    • Релизы синтеза
    • Архив релизов
  • Публичные материалы
  • Вопросы и ответы
  1. Распознавание речи
  2. Распознавание аудиофайлов
  3. Асинхронное распознавание

Асинхронное распознавание

Статья создана
Yandex.Cloud
  • Как распознать длинное аудио
    • Особенности использования gRPC

Асинхронное распознавание позволяет преобразовывать в текст многоканальные аудиофайлы следующих характеристик:

  • Максимальная длительность записи — 4 часа.
  • Максимальный размер файла — 1 ГБ.

Результаты распознавания хранятся на сервере 3 суток, после чего вы не сможете их получить.

Асинхронное распознавание не подходит для распознавания диалога в режиме реального времени. Если вам нужны промежуточные результаты и минимальное время ответа, используйте потоковое распознавание.

Список поддерживаемых языков см. в разделе Теги версий.

Как распознать длинное аудио

Чтобы распознать длинное аудио, необходимо выполнить 2 запроса:

  1. Отправить файл на распознавание.
  2. Получить результаты распознавания.

Примеры запросов см. в разделе Примеры использования API потокового распознавания.

Особенности использования gRPC

Чтобы использовать сервис, создайте приложение, которое будет отправлять аудиофрагменты и обрабатывать ответ с результатами распознавания.

Чтобы приложение смогло отправлять запросы и запрашивать результат, необходимо сгенерировать код интерфейса клиента для используемого языка программирования. Сгенерируйте этот код из файлов stt_service.proto и operation_service.proto из репозитория Yandex Cloud API.

В документации gRPC вы можете найти подробные инструкции по генерации интерфейсов и реализации клиентских приложений для различных языков программирования.

Важно

При запросе результатов операции gRPC-клиенты по умолчанию ограничивают максимальный размер сообщения, который они могут принять в качестве ответа, — не более 4 МБ. Если ответ с результатами распознавания будет больше этого размера, то вы получите ошибку.

Чтобы получить ответ целиком, повысьте ограничение на максимальный размер сообщения:

  • для Go используйте функцию MaxCallRecvMsgSize;
  • для C++ в методе call задайте значение max_receive_message_size.

Была ли статья полезна?

Language / Region
© 2022 ООО «Яндекс.Облако»
В этой статье:
  • Как распознать длинное аудио
  • Особенности использования gRPC