Yandex Cloud
  • Сервисы
  • Решения
  • Почему Yandex Cloud
  • Сообщество
  • Тарифы
  • Документация
  • Связаться с нами
Подключиться
Language / Region
© 2022 ООО «Яндекс.Облако»
Практические руководства
  • Веб-сервис
    • Все руководства
    • Cтатический сайт в Object Storage
    • Cайт на LAMP- или LEMP-стеке
    • Отказоустойчивый сайт с балансировкой нагрузки через Network Load Balancer
    • Отказоустойчивый сайт с балансировкой нагрузки через Application Load Balancer
    • Сайт на базе Joomla с БД PostgreSQL
    • Сайт на WordPress
    • Сайт на WordPress с БД MySQL
    • Перенос WordPress сайта с хостинга в Yandex Cloud
    • Веб-сайт на базе 1С-Битрикс
    • Интеграция L7-балансировщика с Cloud CDN и Object Storage
    • Сине-зеленое и канареечное развертывание версий сервиса
  • Интернет-магазины
    • Все руководства
    • Интернет-магазин на 1С-Битрикс
    • Интернет-магазин на Opencart
  • Архив данных
    • Все руководства
    • Однонодовый файловый сервер
    • Настройка SFTP-сервера на Centos 7
    • Резервное копирование в Object Storage через Acronis
    • Резервное копирование в Object Storage через CloudBerry Desktop Backup
    • Резервное копирование в Object Storage через Duplicati
    • Резервное копирование в Object Storage через Bacula
    • Резервное копирование в Object Storage через Veritas Backup Exec
    • Оцифровка архива в Yandex Vision
  • Тестовая среда
    • Все руководства
    • Тестирование приложений с помощью GitLab
    • Создание тестовых ВМ через GitLab CI
    • Высокопроизводительные вычисления на прерываемых виртуальных машинах
    • Эмуляция множества IoT-устройств
    • Нагрузочное тестирование gRPC-сервиса
    • HTTPS-тест с постоянной нагрузкой с помощью Phantom
    • HTTPS-тест со ступенчатой нагрузкой с помощью Pandora
  • Управление инфраструктурой
    • Все руководства
    • Начало работы с Terraform
    • Загрузка состояний Terraform в Object Storage
    • Начало работы с Packer
    • Сборка образа ВМ с набором инфраструктурных инструментов с помощью Packer
    • Автоматизация сборки образов ВМ с помощью Jenkins
    • Непрерывное развертывание контейнеризованных приложений с помощью GitLab
    • Создание кластера Linux-серверов «1С:Предприятия» с кластером Managed Service for PostgreSQL
    • Создание кластера Windows-серверов «1С:Предприятия» с базой данных SQL Server
    • Миграция в Yandex Cloud с помощью Hystax Acura
    • Защита от сбоев с помощью Hystax Acura
    • Настройка отказоустойчивой архитектуры в Yandex Cloud
    • Создание SAP-программы в Yandex Cloud
  • Построение Data Platform
    • Все руководства
    • Синхронизация данных из MySQL с помощью Yandex Data Transfer
    • Миграция базы данных из Yandex Managed Service for MySQL в MySQL
    • Настройка управляемой базы данных в кластере ClickHouse для Graphite
    • Обмен данными между Yandex Managed Service for ClickHouse и Yandex Data Proc
    • Импорт базы данных в Yandex Data Proc с использованием Sqoop
    • Использование Confluent Schema Registry с Yandex Managed Service for Apache Kafka®
    • Поставка данных из Yandex Managed Service for PostgreSQL в Yandex Managed Service for Apache Kafka® с помощью Debezium
    • Поставка данных из Yandex Managed Service for PostgreSQL в Yandex Managed Service for Apache Kafka® с помощью Yandex Data Transfer
    • Миграция данных в Yandex Managed Service for Apache Kafka®
    • Перенос коллекций из MongoDB в Yandex Managed Service for MongoDB
    • Миграция базы данных в Yandex Managed Service for SQL Server
    • Перенос данных из PostgreSQL в ClickHouse с помощью Yandex Data Transfer
    • Настройка Kafka Connect для работы с кластером Yandex Managed Service for Apache Kafka®
    • Настройка Yandex Cloud DNS для доступа к кластерам управляемых баз данных из других облачных сетей
    • Миграция в Yandex Managed Service for Elasticsearch с помощью Reindex API
    • Использование скриптов инициализации для настройки GeeseFS в Yandex Data Proc
  • Windows в Yandex Cloud
    • Все руководства
    • Развертывание Active Directory
    • Развертывание Microsoft Exchange
    • Развертывание Remote Desktop Services
    • Развертывание группы доступности Always On
    • Развертывание группы доступности Always On с внутренним сетевым балансировщиком
    • Развертывание Remote Desktop Gateway
  • Сетевая маршрутизация
    • Все руководства
    • Маршрутизация с помощью NAT-инстанса
    • Создание VPN-туннеля
    • Установка виртуального роутера Cisco CSR1000v
    • Установка виртуального роутера Mikrotik CHR
    • Соединение с облачной сетью при помощи OpenVPN
    • Настройка сети для Yandex Data Proc
  • Визуализация и анализ данных
    • Все руководства
    • Визуализация данных из CSV-файла
    • Создание и публикация диаграммы с картой Москвы из CSV-файла
    • Анализ продаж сети магазинов из БД ClickHouse
    • Анализ открытых данных ДТП на дорогах России
    • Анализ продаж и локаций пиццерий на данных из БД ClickHouse и Marketplace
    • Веб-аналитика с подключением к Яндекс Метрике
    • Веб-аналитика с расчетом воронок и когорт на данных Яндекс Метрики
    • Аналитика мобильного приложения на данных AppMetrica
    • Анализ статистики подкастов Яндекс Музыки (для авторов подкастов)
    • Визуализация данных с помощью SQL-чарта
    • Анализ customer journey мобильного приложения на данных AppMetrica
    • Анализ логов Object Storage при помощи DataLens
  • Интернет вещей
    • Руководства по работе с интернетом вещей
    • Мониторинг состояния географически распределенных устройств
    • Мониторинг показаний датчиков и уведомления о событиях
  • Бессерверные технологии
    • Сокращатель ссылок
    • Ввод данных в системы хранения
    • Хранение журналов работы приложения
  1. Построение Data Platform
  2. Импорт базы данных в Yandex Data Proc с использованием Sqoop

Импорт базы данных в Yandex Data Proc с использованием Sqoop

Статья создана
Yandex Cloud
  • Перед началом работы
  • Подготовка кластера-источника
  • Импорт базы данных
    • Импорт в Yandex Object Storage
    • Импорт в директорию HDFS
    • Импорт в Apache Hive
    • Импорт в Apache HBase
  • Проверка корректности импорта
    • Проверка импорта в Yandex Object Storage
    • Проверка импорта в директорию HDFS
    • Проверка импорта в Apache Hive
    • Проверка импорта в Apache HBase
  • Удаление созданных ресурсов

Утилита Sqoop позволяет импортировать базы данных в кластер Yandex Data Proc. В зависимости от конфигурации кластера Yandex Data Proc вы можете выполнить импорт в:

  • бакет Yandex Object Storage;
  • директорию HDFS;
  • Apache Hive;
  • Apache HBase.

Чтобы импортировать базы данных кластера-источника с помощью Sqoop в кластер-приемник Yandex Data Proc:

  1. Подготовьте кластер-источник.
  2. Выполните импорт.
  3. Проверьте корректность импорта.

Перед началом работы

Примечание

Разместите кластеры и виртуальную машину в одной облачной сети.

  1. Создайте кластер-источник:

    Yandex Managed Service for MySQL
    Yandex Managed Service for PostgreSQL

    Создайте кластер Yandex Managed Service for MySQL любой подходящей вам конфигурации со следующими настройками:

    • с базой данных db1;
    • с пользователем user1.

    Создайте кластер Yandex Managed Service for PostgreSQL любой подходящей вам конфигурации со следующими настройками:

    • с базой данных db1;
    • с пользователем user1.
  2. Чтобы импортировать данные в бакет Yandex Object Storage:

    1. Создайте бакет с именем my-bucket.
    2. Создайте сервисный аккаунт с именем bucket-sa.
    3. Выдайте этому сервисному аккаунту права на запись в бакет my-bucket.
  3. Создайте кластер Yandex Data Proc любой подходящей вам конфигурации.

    Укажите настройки, соответствующие хранилищу, в которое будут импортированы данные:

    Бакет Yandex Object Storage
    Директория HDFS
    Apache Hive
    Apache HBase
    • Сервисный аккаунт — bucket-sa.
    • Имя бакета — my-bucket.
    • Сервисы — Sqoop.

    Сервисы:

    • HBase,
    • HDFS,
    • Sqoop,
    • Yarn,
    • Zookeeper.
    • Сервисы:

      • HDFS,
      • Hive,
      • Mapreduce,
      • Sqoop,
      • Yarn.
    • Свойства — ключ hive:hive.execution.engine со значением mr.

    Сервисы:

    • HBase,
    • HDFS,
    • Sqoop,
    • Yarn,
    • Zookeeper.
  4. Создайте виртуальную машину для подключения к кластеру-источнику и Yandex Data Proc.

  5. Настройте группы безопасности кластеров и виртуальной машины, чтобы разрешить подключение:

    • к виртуальной машине и кластеру Yandex Data Proc;
    • к кластеру Yandex Managed Service for MySQL;
    • к кластеру Yandex Managed Service for PostgreSQL.

Подготовка кластера-источника

Yandex Managed Service for MySQL
Yandex Managed Service for PostgreSQL
  1. Подключитесь к базе данных db1 кластера Yandex Managed Service for MySQL от имени пользователя user1.
  2. Наполните базу тестовыми данными. В качестве примера используется простая таблица с именами и возрастом людей:
    1. Создайте таблицу:

      CREATE TABLE persons (
          Name VARCHAR(30) NOT NULL,
          Age INTEGER DEFAULT 0,
          PRIMARY KEY (Name)
      );
      
    2. Наполните таблицу данными:

      INSERT INTO persons (Name, Age) VALUES
          ('Anna', 19),
          ('Michael', 65),
          ('Fred', 28),
          ('Alsou', 50),
          ('Max', 27),
          ('John', 34),
          ('Dmitry', 42),
          ('Oleg', 19),
          ('Alina', 20),
          ('Maria', 28);
      
  1. Подключитесь к базе данных db1 кластера Yandex Managed Service for PostgreSQL от имени пользователя user1.
  2. Наполните базу тестовыми данными. В качестве примера используется простая таблица с именами и возрастом людей:
    1. Создайте таблицу:

      CREATE TABLE persons (
          Name VARCHAR(30) NOT NULL,
          Age INTEGER DEFAULT 0,
          PRIMARY KEY (Name)
      );
      
    2. Наполните таблицу данными:

      INSERT INTO persons (Name, Age) VALUES
          ('Anna', 19),
          ('Michael', 65),
          ('Fred', 28),
          ('Alsou', 50),
          ('Max', 27),
          ('John', 34),
          ('Dmitry', 42),
          ('Oleg', 19),
          ('Alina', 20),
          ('Maria', 28);
      

Импорт базы данных

Чтобы обеспечить параллелизм базы данных, Sqoop позволяет разделять импортируемые данные не только по первичному ключу, но и по другим столбцам таблицы. В примере разделение данных выполняется по столбцу age.

Пусть:

  • FQDN хоста подкластера Yandex Data Proc для хранения данных: rc1c-dataproc-d-vfw6fa8xqfukq23m.mdb.yandexcloud.net.
  • Имя базы данных Apache Hive: db-hive.
  • Имя семейства столбцов Apache HBase: family1.
  • Имена директорий в Yandex Object Storage и HDFS: import-directory.
  • Имена таблиц HBase и Hive: import-table.
  • Идентификатор кластера Yandex Managed Service for MySQL: c9qo26aher8lc71ns36p.
  • Идентификатор кластера Yandex Managed Service for PostgreSQL: c9qgcd6lplrsjt9jhtuu.

Импорт в Yandex Object Storage

  1. Выполните все необходимые подготовительные шаги.

  2. Выполните команду:

    Yandex Managed Service for MySQL
    Yandex Managed Service for PostgreSQL
    sqoop import "-Dorg.apache.sqoop.splitter.allow_text_splitter=true" \
        --connect "jdbc:mysql://c-c9qo26aher8lc71ns36p.rw.mdb.yandexcloud.net:3306/db1" \
        --username "user1" \
        --P \
        --table "persons" \
        --target-dir "s3a://my-bucket/import-directory" \
        --split-by "age"
    
    sqoop import "-Dorg.apache.sqoop.splitter.allow_text_splitter=true" \
        --connect "jdbc:postgresql://c-c9qgcd6lplrsjt9jhtuu.rw.mdb.yandexcloud.net:6432/db1" \
        --username "user1" \
        --P \
        --table "persons" \
        --target-dir "s3a://my-bucket/import-directory" \
        --split-by "age"
    

Импорт в директорию HDFS

  1. Выполните все необходимые подготовительные шаги.

  2. Выполните команду:

    Yandex Managed Service for MySQL
    Yandex Managed Service for PostgreSQL
    sqoop import "-Dorg.apache.sqoop.splitter.allow_text_splitter=true" \
        --connect "jdbc:mysql://c-c9qo26aher8lc71ns36p.rw.mdb.yandexcloud.net:3306/db1" \
        --username "user1" \
        --table "persons" \
        --target-dir "import-directory" \
        --P \
        --split-by "age"
    
    sqoop import "-Dorg.apache.sqoop.splitter.allow_text_splitter=true" \
        --connect "jdbc:postgresql://c-c9qgcd6lplrsjt9jhtuu.rw.mdb.yandexcloud.net:6432/db1" \
        --username "user1" \
        --table "persons" \
        --target-dir "import-directory" \
        --P \
        --split-by "age"
    

Импорт в Apache Hive

  1. Выполните все необходимые подготовительные шаги.

  2. Выполните команду:

    Yandex Managed Service for MySQL
    Yandex Managed Service for PostgreSQL
    sqoop import "-Dorg.apache.sqoop.splitter.allow_text_splitter=true" \
        --connect "jdbc:mysql://c-c9qo26aher8lc71ns36p.rw.mdb.yandexcloud.net:3306/db1" \
        --username "user1" \
        --P \
        --table "persons" \
        --hive-import \
        --create-hive-table \
        --hive-database "db-hive" \
        --hive-table "import-table" \
        --split-by "age"
    
    sqoop import "-Dorg.apache.sqoop.splitter.allow_text_splitter=true" \
        --connect "jdbc:postgresql://c-c9qgcd6lplrsjt9jhtuu.rw.mdb.yandexcloud.net:6432/db1" \
        --username "user1" \
        --P \
        --table "persons" \
        --hive-import \
        --create-hive-table \
        --hive-database "db-hive" \
        --hive-table "import-table" \
        --split-by "age"
    

Импорт в Apache HBase

  1. Выполните все необходимые подготовительные шаги.

  2. Выполните команду:

    Yandex Managed Service for MySQL
    Yandex Managed Service for PostgreSQL
    sqoop import "-Dorg.apache.sqoop.splitter.allow_text_splitter=true" \
        --connect "jdbc:mysql://c-c9qo26aher8lc71ns36p.rw.mdb.yandexcloud.net:3306/db1" \
        --username "user1" \
        --P \
        --table "persons" \
        --hbase-create-table \
        --column-family "family1" \
        --hbase-table "import-table" \
        --split-by "age"
    
    sqoop import "-Dorg.apache.sqoop.splitter.allow_text_splitter=true" \
        --connect "jdbc:postgresql://c-c9qgcd6lplrsjt9jhtuu.rw.mdb.yandexcloud.net:6432/db1" \
        --username "user1" \
        --P \
        --table "persons" \
        --hbase-create-table \
        --column-family "family1" \
        --hbase-table "import-table" \
        --split-by "age"
    

Проверка корректности импорта

Если импорт прошел успешно, вы увидите содержимое таблицы persons.

Проверка импорта в Yandex Object Storage

Скачайте из бакета my-bucket файлы с результатами импорта.

Проверка импорта в директорию HDFS

  1. Подключитесь по SSH к хосту подкластера Data Proc для хранения данных.

  2. Выполните команду:

    hdfs dfs -cat /user/root/import-directory/*
    

Проверка импорта в Apache Hive

  1. Подключитесь по SSH к хосту подкластера Data Proc для хранения данных.

  2. Выполните команду:

    hive -e "SELECT * FROM import-table;"
    

Проверка импорта в Apache HBase

  1. Подключитесь по SSH к хосту подкластера Data Proc для хранения данных.

  2. Выполните команду:

    echo -e "scan 'import-table'" | hbase shell -n
    

Удаление созданных ресурсов

Если созданные ресурсы вам больше не нужны, удалите их:

  1. Удалите виртуальную машину.

  2. Если вы зарезервировали для виртуальной машины публичный статический IP-адрес, освободите и удалите его.

  3. Удалите кластеры:

    • Yandex Managed Service for MySQL;
    • Yandex Managed Service for PostgreSQL;
    • Yandex Data Proc.
  4. Если вы создавали бакет Yandex Object Storage, удалите его.

Была ли статья полезна?

Language / Region
© 2022 ООО «Яндекс.Облако»
В этой статье:
  • Перед началом работы
  • Подготовка кластера-источника
  • Импорт базы данных
  • Импорт в Yandex Object Storage
  • Импорт в директорию HDFS
  • Импорт в Apache Hive
  • Импорт в Apache HBase
  • Проверка корректности импорта
  • Проверка импорта в Yandex Object Storage
  • Проверка импорта в директорию HDFS
  • Проверка импорта в Apache Hive
  • Проверка импорта в Apache HBase
  • Удаление созданных ресурсов