Метод batchAnalyze

Анализирует набор изображений и возвращает результаты с аннотациями.

HTTP-запрос

POST https://vision.api.cloud.yandex.net/vision/v1/batchAnalyze

Параметры в теле запроса

{
  "analyzeSpecs": [
    {
      "features": [
        {
          "type": "string",

          // `analyzeSpecs[].features[]` включает только одно из полей `classificationConfig`, `textDetectionConfig`
          "classificationConfig": {
            "model": "string"
          },
          "textDetectionConfig": {
            "languageCodes": [
              "string"
            ],
            "model": "string"
          },
          // конец списка возможных полей`analyzeSpecs[].features[]`

        }
      ],
      "mimeType": "string",
      "content": "string"
    }
  ],
  "folderId": "string"
}
Поле Описание
analyzeSpecs[] object

Обязательное поле. Список спецификаций. Каждая спецификация содержит файл для анализа и возможности для анализа.

Ограничения

  • Поддерживаемые форматы файлов: JPEG, PNG.
  • Максимальный размер файла: 1 МБ.
  • Размер изображения не должен превышать 20 мегапикселей (длина x ширина).

Количество элементов должно находиться в диапазоне от 1 до 8.

analyzeSpecs[].
features[]
object

Обязательное поле. Запрошенные возможности для анализа.

Максимальное количество запрошенных возможностей для одного файла - 8.

Количество элементов должно находиться в диапазоне от 1 до 8.

analyzeSpecs[].
features[].
type
string
Тип запрашиваемой возможности для анализа.
  • TEXT_DETECTION: Распознавание текста (OCR).
  • CLASSIFICATION: Возможность Классификация.
  • FACE_DETECTION: Возможность Обнаружение лиц.
analyzeSpecs[].
features[].
classificationConfig
object
Обязательно для типа CLASSIFICATION. Задает конфигурацию для классификации.
analyzeSpecs[].features[] включает только одно из полей classificationConfig, textDetectionConfig

analyzeSpecs[].
features[].
classificationConfig.
model
string

Модель, которая будет использоваться для анализа изображений.

Максимальная длина строки в символах — 256.

analyzeSpecs[].
features[].
textDetectionConfig
object
Обязательно для типа TEXT_DETECTION. Задает конфигурацию для распознавания текста (OCR).
analyzeSpecs[].features[] включает только одно из полей classificationConfig, textDetectionConfig

analyzeSpecs[].
features[].
textDetectionConfig.
languageCodes[]
string

Обязательное поле. Список языков для распознавания текста. Указывается в формате ISO 639-1 (например, ru).

Количество элементов должно находиться в диапазоне от 1 до 8. Максимальная длина строки в символах для каждого значения — 3.

analyzeSpecs[].
features[].
textDetectionConfig.
model
string

Модель, которая будет использоваться при распознавании текста. Возможные значения:

  • page (по умолчанию) — эта модель подходит для распознавания изображений со множеством текстовых блоков на нем.
  • line — эта модель подходит для обрезанных изображений, которые содержат одну строку текста.

Максимальная длина строки в символах — 50.

analyzeSpecs[].
mimeType
string

MIME-тип контента (например, application/pdf).

Максимальная длина строки в символах — 255.

analyzeSpecs[].
content
string (byte)

Содержимое изображения, представленное в виде потока байтов. Примечание: как и во всех полях с байтами, в protobuf используется чистое двоичное представление, тогда как в JSON-представлении используется base64.

Максимальная длина строки в символах — 10485760.

folderId string

Идентификатор каталога, к которому у вас есть доступ. Требуется для авторизации с пользовательским аккаунтом (см. ресурс UserAccount ). Не используйте это поле, если вы делаете запрос от имени сервисного аккаунта.

Максимальная длина строки в символах — 50.

Ответ

HTTP Code: 200 - OK

{
  "results": [
    {
      "results": [
        {
          "error": {
            "code": "integer",
            "message": "string",
            "details": [
              "object"
            ]
          },

          // `results[].results[]` включает только одно из полей `textDetection`, `classification`, `faceDetection`
          "textDetection": {
            "pages": [
              {
                "width": "string",
                "height": "string",
                "blocks": [
                  {
                    "boundingBox": {
                      "vertices": [
                        {
                          "x": "string",
                          "y": "string"
                        }
                      ]
                    },
                    "lines": [
                      {
                        "boundingBox": {
                          "vertices": [
                            {
                              "x": "string",
                              "y": "string"
                            }
                          ]
                        },
                        "words": [
                          {
                            "boundingBox": {
                              "vertices": [
                                {
                                  "x": "string",
                                  "y": "string"
                                }
                              ]
                            },
                            "text": "string",
                            "confidence": "number",
                            "languages": [
                              {
                                "languageCode": "string",
                                "confidence": "number"
                              }
                            ]
                          }
                        ],
                        "confidence": "number"
                      }
                    ]
                  }
                ]
              }
            ]
          },
          "classification": {
            "properties": [
              {
                "name": "string",
                "probability": "number"
              }
            ]
          },
          "faceDetection": {
            "faces": [
              {
                "boundingBox": {
                  "vertices": [
                    {
                      "x": "string",
                      "y": "string"
                    }
                  ]
                }
              }
            ]
          },
          // конец списка возможных полей`results[].results[]`

        }
      ],
      "error": {
        "code": "integer",
        "message": "string",
        "details": [
          "object"
        ]
      }
    }
  ]
}
Поле Описание
results[] object

Результаты запроса. Результаты имеют тот же порядок, что и спецификации в запросе.

results[].
results[]
object

Результаты для каждой запрошенной возможности для анализа. Результаты имеют тот же порядок, что и указанные возможности в запросе.

results[].
results[].
error
object
Возвращает информацию об ошибке, если ошибка произошла при выполнении анализа для указанной возможности.

Описание ошибки в случае сбоя или отмены операции.

results[].
results[].
error.
code
integer (int32)

Код ошибки. Значение из списка google.rpc.Code.

results[].
results[].
error.
message
string

Текст ошибки.

results[].
results[].
error.
details[]
object

Список сообщений с подробными сведениями об ошибке.

results[].
results[].
textDetection
object
Результат распознавания текста (OCR).
results[].results[] включает только одно из полей textDetection, classification, faceDetection

results[].
results[].
textDetection.
pages[]
object

Страницы распознанного файла.

Для JPEG и PNG файлов содержит только 1 страницу.

results[].
results[].
textDetection.
pages[].
width
string (int64)

Ширина страницы в пикселях.

results[].
results[].
textDetection.
pages[].
height
string (int64)

Высота страницы в пикселях.

results[].
results[].
textDetection.
pages[].
blocks[]
object

Распознанные блоки текста на этой странице.

results[].
results[].
textDetection.
pages[].
blocks[].
boundingBox
object

Область на странице, где находится блок текста.

results[].
results[].
textDetection.
pages[].
blocks[].
boundingBox.
vertices[]
object

Вершины обрамляющей фигуры.

results[].
results[].
textDetection.
pages[].
blocks[].
boundingBox.
vertices[].
x
string (int64)

Координата по оси X в пикселях.

results[].
results[].
textDetection.
pages[].
blocks[].
boundingBox.
vertices[].
y
string (int64)

Координата по оси Y в пикселях.

results[].
results[].
textDetection.
pages[].
blocks[].
lines[]
object

Распознанные строки в этом блоке.

results[].
results[].
textDetection.
pages[].
blocks[].
lines[].
boundingBox
object

Область на странице, где расположена строка.

results[].
results[].
textDetection.
pages[].
blocks[].
lines[].
boundingBox.
vertices[]
object

Вершины обрамляющей фигуры.

results[].
results[].
textDetection.
pages[].
blocks[].
lines[].
boundingBox.
vertices[].
x
string (int64)

Координата по оси X в пикселях.

results[].
results[].
textDetection.
pages[].
blocks[].
lines[].
boundingBox.
vertices[].
y
string (int64)

Координата по оси Y в пикселях.

results[].
results[].
textDetection.
pages[].
blocks[].
lines[].
words[]
object

Распознанные слова в этой строке.

results[].
results[].
textDetection.
pages[].
blocks[].
lines[].
words[].
boundingBox
object

Область на странице, где расположена строка.

results[].
results[].
textDetection.
pages[].
blocks[].
lines[].
words[].
boundingBox.
vertices[]
object

Вершины обрамляющей фигуры.

results[].
results[].
textDetection.
pages[].
blocks[].
lines[].
words[].
boundingBox.
vertices[].
x
string (int64)

Координата по оси X в пикселях.

results[].
results[].
textDetection.
pages[].
blocks[].
lines[].
words[].
boundingBox.
vertices[].
y
string (int64)

Координата по оси Y в пикселях.

results[].
results[].
textDetection.
pages[].
blocks[].
lines[].
words[].
text
string

Распознанное слово.

results[].
results[].
textDetection.
pages[].
blocks[].
lines[].
words[].
confidence
number (double)

Достоверность результатов OCR для слова. Диапазон [0, 1].

results[].
results[].
textDetection.
pages[].
blocks[].
lines[].
words[].
languages[]
object

Список распознанных языков и достоверность распознавания.

results[].
results[].
textDetection.
pages[].
blocks[].
lines[].
words[].
languages[].
languageCode
string

Код распознанного языка.

results[].
results[].
textDetection.
pages[].
blocks[].
lines[].
words[].
languages[].
confidence
number (double)

Достоверность распознанного языка. Диапазон [0, 1].

results[].
results[].
textDetection.
pages[].
blocks[].
lines[].
confidence
number (double)

Достоверность результатов OCR для строки. Диапазон [0, 1].

results[].
results[].
classification
object
Результат классификации.
results[].results[] включает только одно из полей textDetection, classification, faceDetection

results[].
results[].
classification.
properties[]
object

Признаки, извлеченные указанной моделью.

Например, если вы попросите оценить качество изображения, сервис может вернуть такие признаки, как good и bad.

results[].
results[].
classification.
properties[].
name
string

Имя признака.

results[].
results[].
classification.
properties[].
probability
number (double)

Вероятность для признака, от 0 до 1.

results[].
results[].
faceDetection
object
Результат обнаружения лиц.
results[].results[] включает только одно из полей textDetection, classification, faceDetection

results[].
results[].
faceDetection.
faces[]
object

Массив обнаруженных лиц для указанного изображения.

results[].
results[].
faceDetection.
faces[].
boundingBox
object

Область на изображении, где находится лицо.

results[].
results[].
faceDetection.
faces[].
boundingBox.
vertices[]
object

Вершины обрамляющей фигуры.

results[].
results[].
faceDetection.
faces[].
boundingBox.
vertices[].
x
string (int64)

Координата по оси X в пикселях.

results[].
results[].
faceDetection.
faces[].
boundingBox.
vertices[].
y
string (int64)

Координата по оси Y в пикселях.

results[].
error
object

Возвращает информацию об ошибке, если ошибка произошла при обработке файла.

Описание ошибки в случае сбоя или отмены операции.

results[].
error.
code
integer (int32)

Код ошибки. Значение из списка google.rpc.Code.

results[].
error.
message
string

Текст ошибки.

results[].
error.
details[]
object

Список сообщений с подробными сведениями об ошибке.