Yandex Data Proc

Сервис для обработки многотерабайтных массивов данных с использованием инструментов с открытым исходным кодом, таких как Apache Spark, Apache Hadoop®, Apache HBase, Apache Hive, Apache Zeppelin и других сервисов экосистемы Apache®.

Простота использования
Выберите размер кластера, мощность узлов и набор сервисов, а Data Proc автоматически создаст и настроит кластеры Spark, Hadoop и другие компоненты. Для совместной работы есть возможность использовать Zeppelin notebooks и другие WEB-приложения через UI Proxy.
Низкая стоимость
Можно запустить кластер Data Proc, содержащий 10 узлов всего за 18 рублей в час. Кроме того, можно экономить до 70% от стоимости виртуальных машин, выбирая прерываемые виртуальные машины.
Полный контроль над кластером
Вы полностью контролируете кластер с root-пользователем для каждой виртуальной машины. Устанавливайте собственные приложения и библиотеки на работающих кластерах без необходимости их перезагружать.
Автоматическое масштабирование
Preview
Data Proc использует группы виртуальных машин Instance Groups, чтобы автоматически наращивать или уменьшать вычислительные ресурсы compute-подкластеров на основе показателей загруженности процессоров.
Безопасное хранение данных
Data Proc заменяет вышедшие из строя узлы, перераспределяет нагрузку между ними автоматически и перезапускает задачи. Эксплуатация и разработка Data Proc соответствует требованиям 152-ФЗ, индустриальным стандартам ISO и GDPR.
Автоматизация задач
Сэкономьте время на построении ETL-пайплайнов и пайплайнов для обучения и разработки моделей, а также для описания других итерационных задач. В Apache Airflow уже встроен оператор Data Proc.

Решайте свои задачи с Data Proc

Анализ действий пользователей

Анализируйте события с помощью кластера Hadoop. Используйте инструменты аналитики для категоризации данных, выявления закономерностей и тенденций.

Обработка данных в потоковом режиме

Обрабатывайте потоки данных в режиме реального времени с помощью кластера Apache Spark. Стройте метрики и сохраняйте необходимые срезы, интегрируя Yandex Data Proc c Yandex Object Storage.
Работает в связке с
Object Storage

Извлечение, преобразование и загрузка данных

Описывайте и обрабатывайте потоки данных с помощью системы Apache Oozie. Автоматически стройте витрины данных и бизнес-метрики.

Мы берём на себя большую часть работы по обслуживанию кластеров

Процессы
Data Proc
Самостоятельная инсталляция Apache Hadoop
Разграничение доступа к данным
Создание и изменение кластеров
Настройка сети
Установка ОС и ПО
Обновление версий образов
Интерфейсы запуска заданий
Автоматизация масштабирования
Интеграция с сервисами Yandex.Cloud
Инструменты мониторинга

Самостоятельный контроль

Контроль на стороне Yandex.Cloud

С чего начать

Выберите необходимые вычислительные мощности, сервисы Apache® и создайте готовый к работе кластер DataProc.

Создать кластер

Вопросы и ответы

Какие сервисы Apache® доступны в Yandex Data Proc?

Spark, HDFS, YARN, Hive, HBase®, Oozie, Sqoop, Flume, Tez®, Zeppelin.

Spark, HDFS, YARN, Hive, HBase®, Oozie, Sqoop, Flume, Tez®, Zeppelin.

Может ли кто-нибудь получить доступ к моим данным?

Доступом к данным управляете только вы с помощью сервиса Yandex Resource Manager. Базы разных клиентов Yandex.Cloud полностью изолированы друг от друга.

Доступом к данным управляете только вы с помощью сервиса Yandex Resource Manager. Базы разных клиентов Yandex.Cloud полностью изолированы друг от друга.

Начните пользоваться Data Proc

  1. Apache, Apache Hadoop, Apache Spark и Apache Oozie являются зарегистрированными товарными знаками или товарными знаками Apache Software Foundation в США и/или других странах.