Yandex Data Proc

Сервис для обработки многотерабайтных массивов данных с использованием инструментов с открытым исходным кодом, таких как Apache Spark, Apache Hadoop®, Apache HBase®, Apache Hive, Apache Zeppelin и других сервисов экосистемы Apache®.

Простота использования

Выберите размер кластера, мощность узлов и набор сервисов, а Data Proc автоматически создаст и настроит кластеры Spark, Hadoop и другие компоненты. Для совместной работы есть возможность использовать Zeppelin notebooks и другие WEB-приложения через UI Proxy.

Низкая стоимость

Вы можете запустить кластер Data Proc всего за 18 рублей в час. Кроме того, можно экономить до 70% от стоимости виртуальных машин, выбирая прерываемые виртуальные машины.

Полный контроль над кластером

Вы полностью контролируете кластер с root-пользователем для каждой виртуальной машины. Устанавливайте собственные приложения и библиотеки на работающих кластерах без необходимости их перезагружать.

АвтомасштабированиеPreview

Data Proc использует группы виртуальных машин Instance Groups, чтобы автоматически наращивать или уменьшать вычислительные ресурсы compute-подкластеров на основе показателей загруженности процессоров.

Управление метаданными таблиц

В Data Proc доступно создание управляемых кластеров Hive Metastore. Их использование позволит сократить вероятность отказов и потерь из-за недоступности метаданных.

Автоматизация задач

Сэкономьте время на построении ETL-пайплайнов и пайплайнов для обучения и разработки моделей, а также для описания других итерационных задач. В Apache Airflow уже встроен оператор Data Proc.

Решайте свои задачи с Data Proc

Первичное хранение и предобработка данных

С помощью Hive Metastore вы можете управлять табличными метаданными объектов, которые находятся в бакетах Object Storage. Решайте задачи подготовки и очистки данных, создавайте полноценные хранилища и предметно-ориентированные витрины данных.

Работает в связке с
Object Storage

Анализ действий пользователей

Анализируйте события с помощью кластера Hadoop. Используйте инструменты аналитики для категоризации данных, выявления закономерностей и тенденций.

Обработка данных в потоковом режиме

Обрабатывайте потоки данных в режиме реального времени с помощью кластера Apache Spark. Стройте метрики и сохраняйте необходимые срезы, интегрируя Yandex Data Proc c Yandex Object Storage.

Работает в связке с
Object Storage

Мы берём на себя большую часть работы по обслуживанию кластеров

Процессы
Data Proc
Самостоятельная инсталляция Apache Hadoop
Разграничение доступа к данным
Создание и изменение кластеров
Настройка сети
Установка ОС и ПО
Обновление версий образов
Интерфейсы запуска заданий
Автоматизация масштабирования
Интеграция с сервисами Yandex Cloud
Инструменты мониторинга

Самостоятельный контроль

Контроль на стороне Yandex Cloud

С чего начать

Выберите необходимые вычислительные мощности, сервисы Apache® и создайте готовый к работе кластер Data Proc.

Научим работать с сервисом

На курсе «Инженер облачных сервисов» вы научитесь создавать отказоустойчивые облачные системы, работать с управляемыми базами данных и контейнерами, изучите основы бессерверных технологий и подходы к созданию защищённой от внешних атак облачной инфраструктуры.

Вопросы и ответы

Какие сервисы Apache® доступны в Yandex Data Proc?

Spark, HDFS, YARN, Hive, HBase®, Oozie, Sqoop, Flume, Tez®, Zeppelin.

Начните пользоваться Data Proc

Apache, Apache Hadoop, Apache Spark и Apache Oozie являются зарегистрированными товарными знаками или товарными знаками Apache Software Foundation в США и/или других странах.