Выгрузка базы данных в Yandex Data Proc

Статья создана

Обновлена 10 апреля 2024 г.

Перед началом работы
- Вручную
- С помощью Terraform
Подготовка кластера-источника
Импорт базы данных
Проверка корректности импорта
Удаление созданных ресурсов

Утилита Sqoop позволяет импортировать базы данных в кластер Data Proc. В зависимости от конфигурации кластера Data Proc вы можете выполнить импорт в:

бакет Yandex Object Storage;
директорию HDFS;
Apache Hive;
Apache HBase.

Чтобы импортировать базы данных кластера-источника с помощью Sqoop в кластер-приемник Data Proc:

Если созданные ресурсы вам больше не нужны, удалите их.

Примечание

Утилита Sqoop не поддерживается для кластеров Data Proc версии 2.0 и выше. В качестве альтернативы используйте функциональные возможности Apache Spark™.

Перед началом работы

Примечание

Разместите кластеры и виртуальную машину в одной облачной сети.

Создайте облачную сеть.
Создайте подсеть в зоне доступности ru-central1-d.
Настройте NAT-шлюз для созданной подсети — это обязательное условие для работы кластера Data Proc.

Остальные ресурсы вы можете создать вручную или с помощью Terraform.

Вручную

Создайте кластер Managed Service for PostgreSQL любой подходящей вам конфигурации со следующими настройками:
- Имя БД — db1;
- Имя пользователя — user1.
Чтобы импортировать данные в бакет Object Storage:
1. Создайте бакет с ограниченным доступом.
2. Создайте сервисный аккаунт.
3. Выдайте этому сервисному аккаунту разрешения на чтение и запись в бакет.
Создайте кластер Data Proc любой подходящей вам конфигурации.

Укажите настройки, соответствующие хранилищу, в которое будут импортированы данные:
Object Storage

Директория HDFS

Apache Hive

Apache HBase
- Сервисный аккаунт — имя созданного ранее сервисного аккаунта.
- Имя бакета — имя созданного ранее бакета.
- Сервисы — Sqoop.
Сервисы:
- HBase,
- HDFS,
- Sqoop,
- Yarn,
- Zookeeper.
- Сервисы:
  - HDFS,
  - Hive,
  - Mapreduce,
  - Sqoop,
  - Yarn.
- Свойства — ключ hive:hive.execution.engine со значением mr.
Сервисы:
- HBase,
- HDFS,
- Sqoop,
- Yarn,
- Zookeeper.
Создайте виртуальную машину для подключения к кластерам Managed Service for PostgreSQL и Data Proc.
Если вы используете группы безопасности для кластеров и виртуальной машины, настройте их так, чтобы разрешить подключение:
- к виртуальной машине и кластеру Data Proc;
- к кластеру Managed Service for PostgreSQL.

С помощью Terraform

Если у вас еще нет Terraform, установите его.
Получите данные для аутентификации. Вы можете добавить их в переменные окружения или указать далее в файле с настройками провайдера.
Настройте и инициализируйте провайдер. Чтобы не создавать конфигурационный файл с настройками провайдера вручную, скачайте его.
Поместите конфигурационный файл в отдельную рабочую директорию и укажите значения параметров. Если данные для аутентификации не были добавлены в переменные окружения, укажите их в конфигурационном файле.
Скачайте в ту же рабочую директорию файл конфигурации clusters-postgresql-data-proc-and-vm.tf.

В этом файле описаны:
- группы безопасности для кластеров и виртуальной машины;
- сервисный аккаунт для кластера Data Proc;
- бакет Object Storage;
- кластер Managed Service for PostgreSQL;
- кластер Data Proc;
- виртуальная машина с публичным доступом из интернета.
Укажите параметры инфраструктуры в файле конфигурации clusters-postgresql-data-proc-and-vm.tf в блоке locals:
- folder_id — идентификатор каталога, в котором будут созданы ресурсы.
- network_id — идентификатор созданной ранее облачной сети.
- subnet_id — идентификатор созданной ранее подсети.
- storage_sa_id — идентификатор сервисного аккаунта, с помощью которого будет создан бакет в Object Storage.
- data_proc_sa — имя сервисного аккаунта для кластера Data Proc. Оно должны быть уникальным в каталоге.
- pg_cluster_version — версия PostgreSQL кластера Managed Service for PostgreSQL.
- pg_cluster_password — пароль для пользователя user1 базы данных db1 Managed Service for PostgreSQL.
- vm_image_id — идентификатор публичного образа с Ubuntu без GPU. Например, для Ubuntu 20.04 LTS.
- vm_username и vm_public_key — логин и абсолютный путь к публичному SSH-ключу, которые будут использоваться для доступа к виртуальной машине. По умолчанию в образе Ubuntu 20.04 LTS указанный логин игнорируется, вместо него создается пользователь с логином ubuntu. Используйте его для подключения к виртуальной машине.
- bucket_name — имя бакета в Object Storage. Оно должны быть уникальным для всего Object Storage.
- dp_public_key — абсолютный путь к публичному SSH-ключу для кластера Data Proc.
  
  Для SSH-подключения к хостам кластера Data Proc версии 1.х используйте имя пользователя root.
Проверьте корректность файлов конфигурации Terraform с помощью команды:
```
terraform validate
```
Если в файлах конфигурации есть ошибки, Terraform на них укажет.
Создайте необходимую инфраструктуру:
1. Выполните команду для просмотра планируемых изменений:
```
terraform plan
```
  Если конфигурации ресурсов описаны верно, в терминале отобразится список изменяемых ресурсов и их параметров. Это проверочный этап: ресурсы не будут изменены.
2. Если вас устраивают планируемые изменения, внесите их:
  1. Выполните команду:
```
terraform apply
```
  2. Подтвердите изменение ресурсов.
  3. Дождитесь завершения операции.
В указанном каталоге будут созданы все требуемые ресурсы. Проверить появление ресурсов и их настройки можно в консоли управления.

Подготовка кластера-источника

Подключитесь к базе данных db1 кластера Managed Service for PostgreSQL от имени пользователя user1.

Наполните базу тестовыми данными. В качестве примера используется простая таблица с именами и возрастом людей:

Создайте таблицу:

CREATE TABLE persons (
    Name VARCHAR(30) NOT NULL,
    Age INTEGER DEFAULT 0,
    PRIMARY KEY (Name)
);

Наполните таблицу данными:

INSERT INTO persons (Name, Age) VALUES
    ('Anna', 19),
    ('Michael', 65),
    ('Fred', 28),
    ('Alsou', 50),
    ('Max', 27),
    ('John', 34),
    ('Dmitry', 42),
    ('Oleg', 19),
    ('Alina', 20),
    ('Maria', 28);

Чтобы обеспечить параллелизм базы данных, Sqoop позволяет разделять импортируемые данные не только по первичному ключу, но и по другим столбцам таблицы. В примере разделение данных выполняется по столбцу age.

Пусть:

FQDN хоста подкластера Data Proc для хранения данных: rc1c-dataproc-d-vfw6fa8x********.mdb.yandexcloud.net.
Имя бакета в Object Storage.
Имена директорий в Object Storage и HDFS: import-directory.
Имя базы данных Apache Hive: db-hive.
Имя семейства столбцов Apache HBase: family1.
Имена таблиц HBase и Hive: import-table.

Идентификатор кластера Managed Service for PostgreSQL: c9qgcd6lplrs********.

Object Storage

Директория HDFS

Apache Hive

Apache HBase

Выполните все необходимые подготовительные шаги.

Выполните команду:

sqoop import "-Dorg.apache.sqoop.splitter.allow_text_splitter=true" \
    --connect "jdbc:postgresql://c-c9qgcd6lplrs********.rw.mdb.yandexcloud.net:6432/db1" \
    --username "user1" \
    --P \
    --table "persons" \
    --target-dir "s3a://<имя_бакета>/import-directory" \
    --split-by "age"

Выполните все необходимые подготовительные шаги.

Выполните команду:

sqoop import "-Dorg.apache.sqoop.splitter.allow_text_splitter=true" \
    --connect "jdbc:postgresql://c-c9qgcd6lplrs********.rw.mdb.yandexcloud.net:6432/db1" \
    --username "user1" \
    --table "persons" \
    --target-dir "import-directory" \
    --P \
    --split-by "age"

Выполните все необходимые подготовительные шаги.

Выполните команду:

sqoop import "-Dorg.apache.sqoop.splitter.allow_text_splitter=true" \
    --connect "jdbc:postgresql://c-c9qgcd6lplrs********.rw.mdb.yandexcloud.net:6432/db1" \
    --username "user1" \
    --P \
    --table "persons" \
    --hive-import \
    --create-hive-table \
    --hive-database "db-hive" \
    --hive-table "import-table" \
    --split-by "age"

Выполните все необходимые подготовительные шаги.

Выполните команду:

sqoop import "-Dorg.apache.sqoop.splitter.allow_text_splitter=true" \
    --connect "jdbc:postgresql://c-c9qgcd6lplrs********.rw.mdb.yandexcloud.net:6432/db1" \
    --username "user1" \
    --P \
    --table "persons" \
    --hbase-create-table \
    --column-family "family1" \
    --hbase-table "import-table" \
    --split-by "age"

Проверка корректности импорта

Если импорт прошел успешно, вы увидите содержимое таблицы persons.

Object Storage

Директория HDFS

Apache Hive

Apache HBase

Скачайте из бакета файлы с результатами импорта.

Подключитесь по SSH к хосту подкластера Data Proc для хранения данных.

Выполните команду:

hdfs dfs -cat /user/root/import-directory/*

Подключитесь по SSH к хосту подкластера Data Proc для хранения данных.
Выполните команду:
```
hive -e "SELECT * FROM import-table;"
```

Подключитесь по SSH к хосту подкластера Data Proc для хранения данных.

Выполните команду:

echo -e "scan 'import-table'" | hbase shell -n

Удаление созданных ресурсов

Некоторые ресурсы платные. Чтобы за них не списывалась плата, удалите ресурсы, которые вы больше не будете использовать:

Вручную

Terraform

Удалите виртуальную машину.
Если вы зарезервировали для виртуальной машины публичный статический IP-адрес, освободите и удалите его.
Удалите кластеры:
- Managed Service for PostgreSQL;
- Data Proc.
Если вы создавали бакет Object Storage, удалите его.
Удалите подсеть.
Удалите облачную сеть.

Чтобы удалить инфраструктуру, созданную с помощью Terraform:

В терминале перейдите в директорию с планом инфраструктуры.
Удалите конфигурационный файл clusters-postgresql-data-proc-and-vm.tf.
Проверьте корректность файлов конфигурации Terraform с помощью команды:
```
terraform validate
```
Если в файлах конфигурации есть ошибки, Terraform на них укажет.
Подтвердите изменение ресурсов.
1. Выполните команду для просмотра планируемых изменений:
```
terraform plan
```
  Если конфигурации ресурсов описаны верно, в терминале отобразится список изменяемых ресурсов и их параметров. Это проверочный этап: ресурсы не будут изменены.
2. Если вас устраивают планируемые изменения, внесите их:
  1. Выполните команду:
```
terraform apply
```
  2. Подтвердите изменение ресурсов.
  3. Дождитесь завершения операции.
Все ресурсы, которые были описаны в конфигурационном файле clusters-postgresql-data-proc-and-vm.tf, будут удалены.

Удалите созданные вручную:

Выгрузка базы данных в Yandex Data Proc

Перед началом работыПеред началом работы

ВручнуюВручную

С помощью TerraformС помощью Terraform

Подготовка кластера-источникаПодготовка кластера-источника

Импорт базы данныхИмпорт базы данных

Проверка корректности импортаПроверка корректности импорта

Удаление созданных ресурсовУдаление созданных ресурсов

Была ли статья полезна?

Перед началом работы

Вручную

С помощью Terraform

Подготовка кластера-источника

Импорт базы данных

Проверка корректности импорта

Удаление созданных ресурсов