Yandex Data Proc

Сервис для обработки многотерабайтных массивов данных с использованием инструментов с открытым исходным кодом, таких как Apache Spark^™, Apache Hadoop^®, Apache HBase^®, Apache Hive^™, Apache Zeppelin^™ и других сервисов экосистемы Apache^®.

Подключиться Документация

Простота использования

Выберите размер кластера, мощность узлов и набор сервисов, а Data Proc автоматически создаст и настроит кластеры Spark, Hadoop и другие компоненты. Для совместной работы есть возможность использовать Zeppelin notebooks и другие WEB-приложения через UI Proxy.

Низкая стоимость

Вы можете запустить кластер Data Proc всего за 18 рублей в час. Кроме того, можно экономить до 70% от стоимости виртуальных машин, выбирая прерываемые виртуальные машины.

Подробнее

Полный контроль над кластером

Вы полностью контролируете кластер с root-пользователем для каждой виртуальной машины. Устанавливайте собственные приложения и библиотеки на работающих кластерах без необходимости их перезагружать.

АвтомасштабированиеPreview

Data Proc использует группы виртуальных машин Instance Groups, чтобы автоматически наращивать или уменьшать вычислительные ресурсы compute-подкластеров на основе показателей загруженности процессоров.

Подробнее

Управление метаданными таблиц

В Data Proc доступно создание управляемых кластеров Hive Metastore. Их использование позволит сократить вероятность отказов и потерь из-за недоступности метаданных.

Подробнее

Автоматизация задач

Сэкономьте время на построении ETL-пайплайнов и пайплайнов для обучения и разработки моделей, а также для описания других итерационных задач. В Apache Airflow уже встроен оператор Data Proc.

Подробнее

Решайте свои задачи с Data Proc

С помощью Hive Metastore вы можете управлять табличными метаданными объектов, которые находятся в бакетах Object Storage. Решайте задачи подготовки и очистки данных, создавайте полноценные хранилища и предметно-ориентированные витрины данных.

Работает в связке с

Object Storage

Анализируйте события с помощью кластера Hadoop. Используйте инструменты аналитики для категоризации данных, выявления закономерностей и тенденций.

Обрабатывайте потоки данных в режиме реального времени с помощью кластера Apache Spark. Стройте метрики и сохраняйте необходимые срезы, интегрируя Yandex Data Proc c Yandex Object Storage.

Работает в связке с

Object Storage

Мы берём на себя большую часть работы по обслуживанию кластеров

Процессы

Data Proc

Самостоятельная инсталляция Apache Hadoop

Разграничение доступа к данным

Создание и изменение кластеров

Настройка сети

Установка ОС и ПО

Обновление версий образов

Интерфейсы запуска заданий

Автоматизация масштабирования

Интеграция с сервисами Yandex Cloud

Инструменты мониторинга

Самостоятельный контроль

Контроль на стороне Yandex Cloud

С чего начать

Выберите необходимые вычислительные мощности, сервисы Apache^® и создайте готовый к работе кластер Data Proc.

Создать кластер

Научим работать с сервисом

На курсе «Инженер облачных сервисов» вы научитесь создавать отказоустойчивые облачные системы, работать с управляемыми базами данных и контейнерами, изучите основы бессерверных технологий и подходы к созданию защищённой от внешних атак облачной инфраструктуры.

Узнать больше о курсе

Мероприятия и вебинары

Вопросы и ответы

Какие сервисы Apache^® доступны в Yandex Data Proc?

Spark^™, HDFS, YARN^™, Hive^™, HBase^®, Oozie^™, Sqoop^™, Flume^™, Tez^®, Zeppelin^™.

В документацию

Может ли кто-нибудь получить доступ к моим данным?

Новости

Начните пользоваться Data Proc

Консоль Документация

Полезные ссылки

Найти партнёра

Задать вопрос

Тарифы

Apache, Apache Hadoop, Apache Spark и Apache Oozie являются зарегистрированными товарными знаками или товарными знаками Apache Software Foundation в США и/или других странах.

Yandex Data Proc

Простота использования

Низкая стоимость

Полный контроль над кластером

АвтомасштабированиеPreview

Управление метаданными таблиц

Автоматизация задач

Решайте свои задачи с Data Proc

Первичное хранение и предобработка данных

Анализ действий пользователей

Обработка данных в потоковом режиме

Извлечение, преобразование и загрузка данных

Мы берём на себя большую часть работы по обслуживанию кластеров

С чего начать

Научим работать с сервисом

Мероприятия и вебинары

Вопросы и ответы

Какие сервисы Apache^® доступны в Yandex Data Proc?

Может ли кто-нибудь получить доступ к моим данным?

Новости

Начните пользоваться Data Proc

Полезные ссылки

Для работы

Почему Yandex Cloud

Сообщество

Компания

Контакты

Простота использования

Низкая стоимость

Полный контроль над кластером

АвтомасштабированиеPreview

Управление метаданными таблиц

Автоматизация задач

Решайте свои задачи с Data Proc

Первичное хранение и предобработка данных

Анализ действий пользователей

Обработка данных в потоковом режиме

Мы берём на себя большую часть работы по обслуживанию кластеров

С чего начать

Научим работать с сервисом

Мероприятия и вебинары

Вопросы и ответы

Какие сервисы Apache® доступны в Yandex Data Proc?

Может ли кто-нибудь получить доступ к моим данным?

Новости

Начните пользоваться Data Proc

Полезные ссылки

Какие сервисы Apache^® доступны в Yandex Data Proc?