Как Data Warehouse (DWH) помогает экономить бизнесу? Разбираемся в корпоративном хранилище данных

Рассказываем про корпоративное хранилище данных, его архитектуру и преимущества для бизнеса.

9 июня 2022 г.
10 минут чтения
13

Data Warehouse — хранилище, предназначенное для сбора и аналитической обработки исторических данных организации. Анализ помогает руководителям видеть цельную картину бизнеса и принимать решения, как развивать отдельные направления или бизнес в целом.

В DWH данные из всех СУБД предприятия аккумулируют и очищают, формируя их единый источник. Благодаря этому Data Warehouse содержит самую точную информацию обо всех аспектах деятельности предприятия за годы работы.

Данные из хранилища затем можно визуализировать и проанализировать с помощью систем бизнес-аналитики (BI). Расширенные функции BI — это поиск закономерностей и взаимосвязей в данных (Data Mining), искусственный интеллект, машинное обучение и средства визуализации результатов. Перечисленные инструменты помогают бизнесу находить новые возможности на рынке и быстро их реализовывать, отталкиваясь от данных и прогнозных моделей.

Однако возникает вопрос: зачем использовать для аналитики отдельное хранилище, а не анализировать данные в каждой СУБД по отдельности, ведь DWH — это тоже база данных?

Отличия DWH от транзакционной БД

Дело в том, что Data Warehouse и транзакционные БД — это разные типы баз данных. Хранилище предназначено для анализа данных, которые поступают в него с определённой периодичностью — например, ежечасно или ежедневно. Оно разворачивается поверх СУБД и способно быстро обрабатывать большие массивы данных, собранные за несколько лет. DWH фактически — инструмент для комплексного анализа данных из множества источников: по товарам, сделкам, персоналу, логистике и т. д.

СУБД в основном предназначены не для аналитики, а для повседневной работы. Информация в них обновляется в реальном времени. В основе CRM, ERP, 1C и многих других систем и программ лежит именно функциональность БД. Актуальные сведения поступают сначала в основные БД, а уже оттуда значимые данные пересылаются в DWH. Таким образом удаётся получить целостную информационную картину.

Архитектура Data Warehouse

DWH может состоять из нескольких уровней. Расскажем о наиболее значимых:

  • Источники данных. Уровень, на котором собираются первичные данные. Загружаются сведения с веб-сайта, из биллинговой системы, CRM- и ERP-систем и других баз данных, информация из которых отправляется в хранилище.
  • Хранилище. Вся поступившая в DWH разрозненная информация структурируется и приводится к нужному виду. Эта компонента отвечает за полноту и целостность данных. Здесь хорошо себя проявляет сервис Managed Service for Greenplum, но можно использовать и другие решения. Например, построенные на базе ClickHouse или Data Proc.
  • Витрина. На этом уровне выполняется преобразование массива данных в удобную для дальнейшего анализа структуру. Витрины DWH бывают первичные — для решения сравнительно простых задач, и вторичные — для сложной аналитики и нестандартных проектов. Строить витрины можно с помощью Managed Service for ClickHouse. Этот сервис позволяет управлять быстрой аналитической СУБД в инфраструктуре Yandex Cloud.
  • Сервисный уровень. Необходим для управления тремя предыдущими уровнями. С его помощью в DWH обеспечивается мониторинг данных и быстрое устранение ошибок. Например, Yandex Monitoring отвечает за сбор, хранение и отображение метрик, настройку алертов и их уведомлений. Yandex Identity and Access Management упрощает управление доступом к виртуальным машинам и другим облачным ресурсам, а Yandex Audit Trails используется для сбора и выгрузки аудитных логов ресурсов Yandex Cloud.
  • Доступ и бизнес-логика. Этот уровень агрегирует данные из витрин и хранилищ, с помощью Yandex DataLens приводя их к более простому и доступному виду. Пользователи выстраивают аналитику и работают с дашбордами и графиками, доступ к которым различается в зависимости от прав.

Решения для хранения данных, отличные от Data Warehouse

Хранилище содержит уже преобразованные, структурированные данные, готовые к последующей обработке и анализу. Это делает Data Warehouse удобным инструментом для решения бизнес-задач. Но DWH — не единственный способ хранения и аналитической обработки данных. Например, можно вспомнить Data Lake (озёра данных) и Data Mart (витрины данных). Эти подходы к работе с большими данными тоже активно используются компаниями. Попробуем сравнить их с Data Warehouse.

Data Lake

В Data Lake данные поступают и хранятся в необработанном виде без какой-либо упорядоченной структуры. Подобного рода хранилища полезны, когда хочется обрабатывать и анализировать данные из различных внешних источников, которые проблематично пробрасывать в контур компании. Например, в таких хранилищах можно обрабатывать данные для проектирования маркетинговых стратегий.

Data Mart

Витрина данных — это разновидность хранилища, в котором содержится информация об определённом бизнес-направлении или департаменте предприятия. Витрина строится из данных, которые запрашиваются чаще других или нужны для выполнения задач. Этот подход удобен тем, что хранилище не нагружается дополнительными расчётами, а нужные данные становится проще найти.

В Yandex Cloud витрины данных можно создать с помощью управляемых баз данных.

Попробуйте Managed Service for ClickHouse. Этот сервис помогает разворачивать и поддерживать кластеры серверов ClickHouse в инфраструктуре Yandex Cloud. Взаимодействие с сервисом осуществляется с помощью консоли управления, интерфейса командной строки Yandex Cloud (CLI), API или HTTP-интерфейса.

Корпоративное хранилище данных в экосистеме Yandex Cloud

Для развёртывания DWH в облаке провайдера пользователи получают доступ к платформе с набором сервисов, на базе которых они строят хранилище. Часто ядром архитектуры хранилища данных выбирают Yandex Managed Service for Greenplum. Подробнее его возможности описаны в видео.

Создание корпоративного хранилища в облаке помогает организациям снизить расходы на IT-инфраструктуру. Логикой Data Warehouse занимаются штатные IT-специалисты, а поддержку и обслуживание инфраструктуры берёт на себя облачный провайдер. Также он обеспечивает бесперебойную работу всех сервисов облака.

Корпоративное хранилище данных предоставляет организациям надёжное масштабируемое решение для поддержки работоспособности сервисов. Благодаря возможностям Yandex Cloud клиенты при любом изменении нагрузки почти мгновенно масштабируют ресурсы горизонтально и вертикально без каких-либо ограничений.

Облачное хранилище содержит большой список технологий — каждый клиент облака может подобрать стек под свои задачи. Важно, что это не просто набор сервисов, а экосистема, где все сервисы интегрированы друг с другом без написания кода.

Основные источники данных для работы с корпоративным хранилищем:

  • MySQL
  • PostgreSQL
  • Hadoop Distributed File System (HDFS)
  • S3-совместимые хранилища
  • API веб-сервисы
  • Потоковые данные

При создании DWH может возникнуть ряд сложностей

  1. Нужны знания или время на погружение в процессы. Чтобы всё организовать и настроить, требуются опытные специалисты, которые стоят дорого. Самостоятельно справиться можно, но понадобится время, чтобы разобраться в сервисах и интеграциях.
  2. На получение нужного объёма вычислительных ресурсов уходит много времени. Ждать не хочется, обычно ресурсы нужны здесь и сейчас.
  3. Добавление нового сервиса хранения/обработки данных требует нового погружения в процессы или найма дополнительных специалистов (см. пункт 1). Расширение существующего возможно только после поставки новой партии техники (см. пункт 2).
  4. Существует риск жёсткой привязки к продуктам и технологиям конкретного поставщика, которая затруднит развитие в будущем. А переход на другие решения окажется слишком болезненным и затратным.

Yandex Cloud помогает закрыть эти вопросы

  1. Экономится до 70% затрат на обслуживание хранилищ. Сервисы интегрированы между собой и легко подключаются. Можно быстро собрать свою платформу DWH из «кубиков».
  2. Вычислительные ресурсы и сервисы доступны сразу, по нажатию кнопки.
  3. Дополнительные ресурсы добавляются быстро, а если на рынке появится новый востребованный сервис для хранения или обработки данных, его могут добавить и в Yandex Cloud.
  4. Более 80% сервисов Yandex Cloud — с открытым исходным кодом. Это снижает затраты пользователей и даёт им гибкость в работе, потому что не привязывает к поставщику решений.

Онлайн-митап по работе c Greenplum®

Инструмент для анализа данных

DWH строится для того, чтобы анализировать данные. Соответственно, необходим инструмент, который будет подключаться и визуализировать их. Yandex Cloud предлагает готовое BI-решение для этой задачи: бесплатный сервис Yandex DataLens. Он используется для быстрой визуализации данных, создания корпоративных дашбордов, совместной работы с аналитикой внутри команды. Сервис позволяет быстро подключиться к источнику данных, построить график и собрать дашборд с нуля за несколько минут, даже не имея специальной подготовки.

DataLens поддерживает возможность подключения к облачным и локальным базам данных, сервисам и плоским файлам, — можно комбинировать данные из разных источников в одном дашборде. Также пользователям доступны дополнительные типы подключений, шаблоны дашбордов, датасеты и геослои для обогащения аналитики. Сервис подходит для аналитики результатов машинного обучения, геоаналитики, веб-аналитики и других задач.

Часто возникает ситуация, когда данные для DWH приходится переносить из других источников. Для этого требуется решать вопросы сбора, миграции, репликации и обновления данных. В такой ситуации практикуются разные подходы, порой дорогостоящие и требующие специальной экспертизы. Yandex Cloud предлагает более доступное решение: сервис Data Transfer.

Корпоративное хранилище Yandex Cloud — это гибкое и надёжное решение для широкого спектра бизнес-задач, связанных с расчётом показателей и анализом данных. Если возникнут сложности с настройкой DWH или другими сервисами, на помощь придут эксперты Yandex Cloud. При необходимости можно запросить помощь у архитекторов. Партнёры Yandex Cloud готовы разработать оптимальную архитектуру для задач вашего бизнеса, подобрать технологии, организовать дальнейшую поддержку решения.

Откройте большой демодашборд Yandex DataLens

Напишите нам

Начать пользоваться Yandex Cloud

Тарифы

Узнать цены и рассчитать стоимость

Мероприятия

Календарь событий Yandex Cloud
Как Data Warehouse (DWH) помогает экономить бизнесу? Разбираемся в корпоративном хранилище данных
9 июня 2022 г.
10 минут чтения
13