Генетические исследования

Genotek — медицинская высокотехнологичная компания, российский лидер в области персональной и медицинской генетики, участник российской инициативы «Генетический паспорт». Конкурентное положение компании на рынке генетических услуг обеспечивают передовые геномные и вычислительные технологии, связанные в единой системе — от получения образцов ДНК и роботизированного извлечения генетической информации из массивов образцов до подготовки результатов генетико-медицинских тестов, персонифицированных медицинских рекомендаций, рекомендаций по образу жизни и генеалогической информации.

Выбор платформы

Специфика деятельности Genotek делает генетические услуги массовыми и доступными на федеральном и даже международном уровне. И происходит это во многом благодаря развитию информационных технологий, автоматизации и роботизации процессов. Использование облачной архитектуры в вычислительном процессе компании Genotek отвечает сложившимся особенностям работы:

  • высокая вычислительная сложность;
  • большие временные колебания в количестве вычислительных ресурсов (от десятка до сотен виртуальных машин);
  • высокая надежность, безопасность и доступность;
  • сравнительная дешевизна вычислительных ресурсов.

Новые задачи

Изначально Genotek использовал собственные серверы, расположенные в офисе компании, для хранения и обработки персональных и других чувствительных данных, а также облачные ресурсы Google, включая стандартные и прерываемые ВМ (принудительно останавливаются в течение 24 часов), а также высокоуровневые сервисы AppEngine.

Но по мере накопления данных, возникли задачи по ускорению работы ИТ-сервисов, причём наибольшие сложности вызывало поддержание синхронной работы собственной вычислительной инфраструктуры и облачной инфраструктуры сторонних компаний. Было принято решение отказаться от разделения данных, которые отчасти хранятся в Genotek, отчасти в Google, за счёт переезда в Yandex Cloud.

Генетическая информация российских граждан рассматривается как персональные данные. В обозримом будущем это будет установлено законодательно, соответственно, она должна храниться на территории РФ. Помимо этого, Genotek также хранит другие категории чувствительной информации: контакты клиентов, их медицинские данные, информацию о происхождении и самочувствии. В контексте этого было особенно привлекательно, что Yandex Object Storage демонстрирует очень высокий уровень надёжности хранения данных, который полностью соответствует законодательству РФ и нормам GDPR, благодаря тому, что критическая информация о гражданах РФ реплицируется сразу на три площадки.

Для переноса сервисов с собственных серверов Genotek и Google Cloud, платформа Yandex Cloud предложила широкие альтернативы. Также интересен сам процесс переноса, отличающийся от миграции из AWS, для которого поддерживается протокол объектного хранилища.

Внутренняя структура компании

В компании три отдела. Наиболее разнообразные сервисы использует IT-отдел Genotek, который переехал первым. Его специалисты отвечают за портал самообслуживания genotek.ru и запуск нового личного кабинета в Yandex Cloud.

Отделы биоинформатики и биостатистики занимаются обработкой больших данных, собственно анализом ДНК, поэтому потребляют значительный объём ресурсов. Им в первую очередь требуются вычислительные мощности, на которых производится расчёт, и объектное хранилище для данных.

Компания Genotek содержит небольшой штат ИТ-специалистов. В первом отделе трудятся Front-end разработчики, веб-программисты и ответственный за DevOps, в двух других работают учёные, которые одновременно запускают машины.

Требования заказчика

Внутренняя структура наряду со спецификой деятельности, объясняет особенности ИТ-процессов в компании Genotek:

  • автоматическое горизонтальное масштабирование вычислительных ресурсов,
  • неравномерность и лабильность распределённой IT-экспертизы компании,
  • динамический рост требований к вычислительной инфраструктуре (объём обрабатываемых данных на протяжении последних трёх лет увеличивался год от года в среднем в 3 раза),
  • короткие циклы выпуска нового функционала по требованию бизнеса, включая обновление биоинфоматических алгоритмов обработки, добавление новых функций,
  • высокогетерогенная среда вычислительных платформ и языков программирования.

Несмотря на множество особенностей и требований, переезд прошел организованно в несколько этапов.

Сложная миграция

При переносе вычислительной инфраструктуры в Yandex Cloud со стороны Genotek над проектом работала существующая команда разработчиков программного обеспечения. В отсутствие узких специалистов по отдельным сервисам, экспертиза восполнялась за счёт расширенной платной техподдержки со стороны платформы.

Знакомство с платформой

Разработчики Genotek участвовали в тестировании сервисов Yandex Cloud в числе первых клиентов на протяжении последних полутора лет: проверялись работа прерываемых машин, возможности интерфейса, удобство инструментов и т. п. Обратная связь помогала платформе совершенствоваться, и на момент принятия решения стек Yandex Cloud полностью соответствовал задачам компании Genotek.

Первый шаг

Переезд вычислительной инфраструктуры отдела, который занимается сайтом genotek.ru и личным кабинетом, занял три недели.

Этапы переезда отдела вычислительной инфраструктуры

Отдел использовал Google Storage, Google Cloud, Google AppEngine. При переезде образа Google AppEngine в виде контейнеров были загружены в Yandex Container Registry, запущены в Managed Service for Kubernetes, через Yandex Managed Service for MySQL присоединены БД, включены Yandex Network Load Balancer и Yandex DDoS Protection.

Второй шаг

Отделы биоинформатики и биостатистики заняты анализом подготовленных генетических данных и используют объектное хранилище.

Этапы переезда отделов биоинформатики и биостатистики

Единство и доступность

Ключевой итог переезда в том, что хранение и обработка персональных данных клиентов сосредоточена в одном месте — Yandex Cloud, которое обеспечивает надежность хранения и соответствие законодательству РФ. После отказа от разделения данных Genotek получил увеличение масштабируемости и повышение скорости работы.

В процессе переезда в том числе был переписан код существующих сервисов. Но если биостатистики использовали лишь около 30-40% существующего кода, то код личного кабинета с результатами теста, как и код биоинформатической обработки данных, создавался с нуля в Yandex Cloud.

В итоге увеличилась доступность сервисов Genotek, ускорился оборот производства генетических результатов в массовых количествах, была обеспечена безопасность генетических данных в надёжном российском облаке.

Готовность к высокой нагрузке

Валерий Ильинский,
генеральный директор Genotek
Валерий Ильинский,
генеральный директор Genotek

Генетические данные человека не меняются с течением жизни, поэтому безопасность их хранения является абсолютным приоритетом для Genotek. В то же время, большие объёмы данных и высоконагруженные процессы вынуждают нас использовать облачные сервисы. Yandex Cloud дает нам и нашим клиентам уверенность в том, что генетические и другие чувствительные данные надёжно защищены, а обработка результатов генетических тестов и добавление новых функций в личные кабинеты выполняются быстро с использованием всех возможностей Яндекса. Отдельно хочется отметить профессионализм сотрудников поддержки и архитекторов Yandex Cloud, которые поддерживали наших сотрудников и совершенствовали сервисы Yandex Cloud в соответствии с нашими потребностями на всём протяжении нашего сотрудничества.