Yandex Cloud
  • Сервисы
  • Решения
  • Почему Yandex Cloud
  • Сообщество
  • Тарифы
  • Документация
  • Связаться с нами
Подключиться
Language / Region
© 2022 ООО «Яндекс.Облако»
Практические руководства
  • Веб-сервис
    • Все руководства
    • Cтатический сайт в Object Storage
    • Cайт на LAMP- или LEMP-стеке
    • Отказоустойчивый сайт с балансировкой нагрузки через Network Load Balancer
    • Отказоустойчивый сайт с балансировкой нагрузки через Application Load Balancer
    • Сайт на базе Joomla с БД PostgreSQL
    • Сайт на WordPress
    • Сайт на WordPress с БД MySQL
    • Перенос WordPress сайта с хостинга в Yandex Cloud
    • Веб-сайт на базе 1С-Битрикс
    • Интеграция L7-балансировщика с Cloud CDN и Object Storage
    • Сине-зеленое и канареечное развертывание версий сервиса
  • Интернет-магазины
    • Все руководства
    • Интернет-магазин на 1С-Битрикс
    • Интернет-магазин на Opencart
  • Архив данных
    • Все руководства
    • Однонодовый файловый сервер
    • Настройка SFTP-сервера на Centos 7
    • Резервное копирование в Object Storage через Acronis
    • Резервное копирование в Object Storage через CloudBerry Desktop Backup
    • Резервное копирование в Object Storage через Duplicati
    • Резервное копирование в Object Storage через Bacula
    • Резервное копирование в Object Storage через Veritas Backup Exec
    • Оцифровка архива в Yandex Vision
  • Тестовая среда
    • Все руководства
    • Тестирование приложений с помощью GitLab
    • Создание тестовых ВМ через GitLab CI
    • Высокопроизводительные вычисления на прерываемых виртуальных машинах
    • Эмуляция множества IoT-устройств
    • Нагрузочное тестирование gRPC-сервиса
    • HTTPS-тест с постоянной нагрузкой с помощью Phantom
    • HTTPS-тест со ступенчатой нагрузкой с помощью Pandora
  • Управление инфраструктурой
    • Все руководства
    • Начало работы с Terraform
    • Загрузка состояний Terraform в Object Storage
    • Начало работы с Packer
    • Сборка образа ВМ с набором инфраструктурных инструментов с помощью Packer
    • Автоматизация сборки образов ВМ с помощью Jenkins
    • Непрерывное развертывание контейнеризованных приложений с помощью GitLab
    • Создание кластера Linux-серверов «1С:Предприятия» с кластером Managed Service for PostgreSQL
    • Создание кластера Windows-серверов «1С:Предприятия» с базой данных SQL Server
    • Миграция в Yandex Cloud с помощью Hystax Acura
    • Защита от сбоев с помощью Hystax Acura
    • Резервное копирование ВМ с помощью Hystax Acura Backup
    • Настройка отказоустойчивой архитектуры в Yandex Cloud
    • Создание SAP-программы в Yandex Cloud
  • Построение Data Platform
    • Все руководства
    • Миграция базы данных из стороннего кластера Apache Kafka® в Yandex Managed Service for Apache Kafka®
    • Поставка данных из Yandex Managed Service for PostgreSQL в Yandex Managed Service for Apache Kafka® с помощью Yandex Data Transfer
    • Поставка данных из Yandex Managed Service for MySQL в Yandex Managed Service for Apache Kafka® с помощью Debezium
    • Поставка данных из Yandex Managed Service for PostgreSQL в Yandex Managed Service for Apache Kafka® с помощью Debezium
    • Настройка Kafka Connect для работы с кластером Yandex Managed Service for Apache Kafka®
    • Управление схемами данных в Yandex Managed Service for Apache Kafka®
    • Использование Managed Schema Registry с Yandex Managed Service for Apache Kafka®
    • Использование Confluent Schema Registry с Yandex Managed Service for Apache Kafka®
    • Миграция базы данных из PostgreSQL в ClickHouse с помощью Yandex Data Transfer
    • Обмен данными между Yandex Managed Service for ClickHouse и Yandex Data Proc
    • Настройка Yandex Managed Service for ClickHouse для Graphite
    • Настройка Yandex Cloud DNS для доступа к кластерам управляемых баз данных из других облачных сетей
    • Импорт данных из Yandex Managed Service for MySQL в Yandex Data Proc с помощью Sqoop
    • Импорт данных из Yandex Managed Service for PostgreSQL в Yandex Data Proc с помощью Sqoop
    • Использование скриптов инициализации для настройки GeeseFS в Yandex Data Proc
    • Миграция данных из стороннего кластера Elasticsearch в Yandex Managed Service for Elasticsearch с помощью Reindex API
    • Миграция коллекций из стороннего кластера MongoDB в Yandex Managed Service for MongoDB
    • Миграция базы данных из стороннего кластера MySQL в кластер Yandex Managed Service for MySQL
    • Синхронизация данных из стороннего кластера MySQL в Yandex Managed Service for MySQL с помощью Yandex Data Transfer
    • Миграция базы данных из Yandex Managed Service for MySQL в сторонний кластер MySQL
    • Импорт данных из Yandex Managed Service for MySQL в Yandex Data Proc с помощью Sqoop
    • Поставка данных из Yandex Managed Service for MySQL в Yandex Managed Service for Apache Kafka® с помощью Debezium
    • Миграция базы данных из PostgreSQL в ClickHouse с помощью Yandex Data Transfer
    • Поставка данных из Yandex Managed Service for PostgreSQL в Yandex Managed Service for Apache Kafka® с помощью Yandex Data Transfer
    • Поставка данных из Yandex Managed Service for PostgreSQL в Yandex Managed Service for Apache Kafka® с помощью Debezium
    • Импорт данных из Yandex Managed Service for PostgreSQL в Yandex Data Proc с помощью Sqoop
    • Миграция базы данных из стороннего кластера Redis в Yandex Managed Service for Redis
    • Миграция базы данных из стороннего кластера SQL Server в Yandex Managed Service for SQL Server
    • Миграция базы данных из Managed Service for SQL Server в сторонний кластер SQL Server
  • Windows в Yandex Cloud
    • Все руководства
    • Развертывание Active Directory
    • Развертывание Microsoft Exchange
    • Развертывание Remote Desktop Services
    • Развертывание группы доступности Always On
    • Развертывание группы доступности Always On с внутренним сетевым балансировщиком
    • Развертывание Remote Desktop Gateway
  • Сетевая маршрутизация
    • Все руководства
    • Маршрутизация с помощью NAT-инстанса
    • Создание VPN-туннеля
    • Установка виртуального роутера Cisco CSR1000v
    • Установка виртуального роутера Mikrotik CHR
    • Соединение с облачной сетью при помощи OpenVPN
    • Создание и настройка шлюза UserGate в режиме прокси-сервера
    • Настройка сети для Yandex Data Proc
  • Визуализация и анализ данных
    • Все руководства
    • Визуализация данных из CSV-файла
    • Создание и публикация диаграммы с картой Москвы из CSV-файла
    • Анализ продаж сети магазинов из БД ClickHouse
    • Анализ открытых данных ДТП на дорогах России
    • Анализ продаж и локаций пиццерий на данных из БД ClickHouse и Marketplace
    • Веб-аналитика с подключением к Яндекс Метрике
    • Веб-аналитика с расчетом воронок и когорт на данных Яндекс Метрики
    • Аналитика мобильного приложения на данных AppMetrica
    • Анализ статистики подкастов Яндекс Музыки (для авторов подкастов)
    • Визуализация данных с помощью SQL-чарта
    • Анализ customer journey мобильного приложения на данных AppMetrica
    • Анализ логов Object Storage при помощи DataLens
  • Интернет вещей
    • Руководства по работе с интернетом вещей
    • Мониторинг состояния географически распределенных устройств
    • Мониторинг показаний датчиков и уведомления о событиях
  • Бессерверные технологии
    • Сокращатель ссылок
    • Ввод данных в системы хранения
    • Хранение журналов работы приложения
  1. Построение Data Platform
  2. Использование скриптов инициализации для настройки GeeseFS в Yandex Data Proc

Использование скриптов инициализации для настройки GeeseFS в Yandex Data Proc

Статья создана
Yandex Cloud
  • Перед началом работы
  • Подготовьте скрипт инициализации
  • Создайте кластер, использующий скрипт инициализации
  • Проверьте доступность бакета
  • Удалите созданные ресурсы

В сервисе Yandex Data Proc вы можете использовать для настройки хостов скрипты инициализации (initialization actions).

С их помощью можно автоматизировать установку и настройку программы GeeseFS, позволяющей хостам кластера Yandex Data Proc монтировать бакеты Yandex Object Storage через FUSE.

Чтобы настроить GeeseFS:

  1. Подготовьте скрипт инициализации.
  2. Создайте кластер, использующий скрипт инициализации.
  3. Проверьте доступность бакета.

Если созданные ресурсы вам больше не нужны, удалите их.

Перед началом работы

  1. Создайте сервисный аккаунт с ролью mdb.dataproc.agent.

  2. Создайте бакет Yandex Object Storage.

  3. Предоставьте сервисному аккаунту доступ на чтение из бакета. Для этого воспользуйтесь одним из способов:

    • Настройте ACL бакета и выдайте сервисному аккаунту разрешение READ.

      Сервисный аккаунт получит доступ на чтение только к указанному бакету.

    • Назначьте сервисному аккаунту роль storage.viewer.

      Сервисный аккаунт получит доступ на чтение ко всем бакетам в каталоге.

Подготовьте скрипт инициализации

  1. Создайте файл скрипта инициализации geesefs_mount.sh, принимающий два позиционных аргумента — имя бакета Yandex Object Storage и директорию в файловой системе хоста, куда он должен быть смонтирован.

    #!/bin/bash
    
    set -e
    
    BUCKET=$1
    MOUNT_POINT=$2
    
    # Загрузка GeeseFS
    wget https://github.com/yandex-cloud/geesefs/releases/latest/download/geesefs-linux-amd64 -O /opt/geesefs
    chmod a+rwx /opt/geesefs
    mkdir -p "${MOUNT_POINT}"
    
    # Подготовка скрипта, выполняющегося при каждой загрузке
    BOOT_SCRIPT="/var/lib/cloud/scripts/per-boot/80-geesefs-mount.sh"
    echo "#!/bin/bash" >> ${BOOT_SCRIPT}
    echo "/opt/geesefs -o allow_other --iam ${BUCKET} ${MOUNT_POINT}" >> ${BOOT_SCRIPT}
    chmod 755 ${BOOT_SCRIPT}
    
    # Запуск скрипта
    ${BOOT_SCRIPT}
    
  2. Загрузите файл geesefs_mount.sh в созданный ранее бакет Yandex Object Storage.

Создайте кластер, использующий скрипт инициализации

Создайте кластер Data Proc со следующими параметрами:

  • Сервисный аккаунт — выберите созданный ранее сервисный аккаунт.

  • Пользовательские скрипты — добавьте скрипт со следующими настройками:

    • URI — укажите путь к файлу скрипта в бакете, например:

      s3a://<имя бакета>/geesefs_mount.sh
      
    • Аргументы — укажите имя созданного ранее бакета и точку монтирования /mnt/test. Аргументы указываются на отдельных строках:

      <имя бакета>
      /mnt/test
      
  • Имя бакета — выберите созданный ранее бакет.

  • Подкластеры — включите в настройках опцию Публичный доступ. Это позволит подключаться к хостам подкластеров без использования промежуточной виртуальной машины.

Проверьте доступность бакета

  1. После того, как кластер перейдет в статус Alive, подключитесь по SSH от имени пользователя ubuntu к любому из его хостов.

  2. Чтобы убедиться в успешном монтировании бакета, выполните команду:

    ls /mnt/test/<имя бакета>
    

    Она вернет список объектов, хранящихся в корневом каталоге бакета. В данном случае — имя файла geesefs_mount.sh.

Удалите созданные ресурсы

Если созданные ресурсы вам больше не нужны, удалите их:

  1. Удалите кластер Data Proc.
  2. Если для доступа к хостам кластера использовались статические публичные IP-адреса, освободите и удалите их.
  3. Удалите бакет Yandex Object Storage.

Была ли статья полезна?

Language / Region
© 2022 ООО «Яндекс.Облако»
В этой статье:
  • Перед началом работы
  • Подготовьте скрипт инициализации
  • Создайте кластер, использующий скрипт инициализации
  • Проверьте доступность бакета
  • Удалите созданные ресурсы