Визуализация данных из CSV-файла

В качестве исходных данных будет использоваться файл SuperHeroes.csv с информацией о супергероях — имя, пол, раса, издатель комиксов и т.д.

В этом сценарии с помощью DataLens можно использовать для исследования зависимостей, например:

  • Веса супергероя от его пола.
  • Веса супергероя от его принадлежности к лагерю хороших или плохих.

Чтобы визуализировать и ислледовать данные, необходимо пройти следущие шаги:

Шаг 1. Создайте подключение и датасет

Создайте датасет на основе подключения к CSV-файлу.

  1. Перейдите в интерфейс DataLens.

  2. Нажмите кнопку Создать подключение.

    image

  3. Выберите CSV.

    image

  4. Нажмите кнопку Выбрать CSV-файл.

    image

  5. Выберите необходимый файл. В данном примере SuperHeroes.csv (ссылка на скачивание).

    Дождитесь, когда на экране появится содержимое таблицы.

  6. Нажмите кнопку Сохранить.

    image

  7. После сохранения нажмите кнопку Создать датасет.

    image

Шаг 2. Создайте датасет

  1. Перетащите таблицу SuperHeroes.csv из панели выбора на рабочую область.

    image

  2. Перейдите на вкладку Датасет.

    image

  3. Создайте поле с показателем среднего веса супергероя:

    1. Нажмите значок image в строке Weight.

    2. Выберите Продублировать.

      image

    3. Переименуйте дубликат поля Weight (1) в Weight avg: нажмите на имя строки, удалите текущее имя и введите новое.

    4. В столбце Агрегация для поля Weight avg выберите Среднее.

      image

  4. Нажмите кнопку Сохранить в верхнем правом углу и сохраните датасет.

    image

  5. Введите имя датасета SuperHeroes dataset, нажмите Создать.

  6. После сохранения датасета нажмите Создать чарт

    image

Шаг 3. Создайте первый чарт

Для визуализации разделения по половому признаку создайте чарт — столбчатую диаграмму.

  1. Добавьте на график имена супергероев. Для этого из раздела Измерения перетащите поле Name в секцию X.

  2. Добавьте на график веса супергероев. Для этого из раздела Показатели перетащите поле Weight avg в секциию Y.

    image

  3. Отсортируйте график по весам, например, по убыванию.

    1. Из первой колонки из раздела Показатели перетащите поле Weight avg в секцию Сортировка.

      image

  4. Оставьте на графике только тех супергероев, чей вес известен (больше нуля).

    1. Из первой колонки из раздела Показатели перетащите поле Weight avg в секцию Фильтры.

    2. В открывшемся окне укажите операцию Больше и значение 0.

    3. Нажмите кнопку Применить.

      image

  5. Добавьте на график цветовое разделение супергероев по половому призаку. Для этого из раздела Измерения перетащите поле Gender в секцию Цвет.

    image

  6. Переопределите цвета значений измерения Gender.

    1. Нажмите значок настройки в секции Цвет.

      image

    2. Выберите цвета: Female — розовый, Male — синий, unknown — оранжевый.

      image

  7. Сохраните чарт.

    1. Нажмите кнопку Сохранить в верхнем правом углу и сохраните чарт.

      image

    2. В открывшемся окне введите название чарта SuperHeroes — gender и нажмите кнопку Сохранить.

Шаг 4. Создайте второй чарт

Для визуализации по принадлежности к лагерю хороших или плохих создайте чарт — столбчатую диаграмму.

  1. Скопируйте чарт, получившийся на предыдущем шаге.

    1. Нажмите значок галочки направленной вниз радом с кнопкой Сохранить в верхнем правом углу.

    2. Нажмите Сохранить как.

      image

    3. В открывшемся окне введите название нового чарта SuperHeroes — alignment.

    4. Нажмите кнопку Готово.

  2. Добавьте на график цветовое разделение супергероев по принадлежности к лагерю хороших или плохих. Для этого из раздела Измерения перетащите поле Alignment в секцию Цвет.

    Предыдущее значение секции (поле Gender) будет заменено на Alignment.

    image

  3. Переопределите цвета значений измерения Alignment.

    1. Нажмите значок настройки в секции Цвет.

    2. Выберите цвета: good — зеленый, neutral — синий, bad — красный, unknown — оранжевый.

      image

  4. Нажмите кнопку Сохранить в верхнем правом углу и сохраните чарт.

Шаг 5. Создайте дашборд

Создайте дашборд, на который будут добавлены чарты.

  1. Перейдите на главную страницу DataLens. Для этого нажмите на надпись Yandex DataLens в левом верхнем углу.

  2. Нажмите кнопку Создать дашборд.

    image

  3. Введите название дашборда SuperHeroes dashboard и нажмите кнопку Создать.

Шаг 6. Добавьте чарты на дашборд

  1. При первом открытии после сохранения дашборд открывается в режиме редактирования. Если вы открыли его повторно, то нажмите Редактировать в правом верхнем углу.

    image

  2. Нажмите кнопку Добавить.

  3. Выберите Чарт.

    image

  4. В открывшемся окне нажмите кнопку Выбрать и выберите чарт SuperHeroes — gender.

    После этого автоматически заполнится поле Заголовок по названию выбранного чарта.

  5. Нажмите кнопку Добавить.

    image

  6. Добавьте еще один чарт. Пройдите все шаги сначала и укажите на 5 пункте чарт SuperHeroes — alignment.

    image

Шаг 7. Добавьте селекторы на дашборд

Добавьте селекторы, чтобы иметь возможность фильтровать супергероев по расам (поле Race) и издательствам (поле Publisher).

  1. Нажмите кнопку Добавить.

  2. Выберите Селектор.

    image

  3. Выберите датасет SuperHeroes dataset.

  4. Выберите поле Race.

    После этого автоматически заполнится Заголовок по названию выбранного поля.

  5. Нажмите галочку Показывать напротив заголовка селектора.

  6. Включите опцию Множественный выбор.

  7. Нажмите кнопку Добавить.

    image

  8. Добавьте еще один селектор. Пройдите все шаги сначала и укажите в пункте 6 поле Publisher.

    image

Шаг 8. Настройте отображение виджетов и приступите к исследованию зависимостей

  1. Перетащите селекторы наверх страницы рядом друг с другом.

  2. Растяните чарты по ширине дашборда.

  3. Нажмите кнопку Сохранить в верхнем правом углу и сохраните дашборд.

    image

  4. Примените различные фильтры и исследуйте зависимости веса от пола и лагеря супергероя.

    image

    В датасете, который был исследован, прослеживаются следующие зависимости:

    • Мужчины в основном тяжелее женщин.
    • Плохие супергерои в основном тяжелее хороших.

Шаг 9. Продолжите исследование данных о супергероях

Вы можете создать новые показатели в датасете, например, средний рост (среднее от поля Height) и количество супергероев (количество уникальных от поля Name) и ответить на вопросы:

  • Представителей какой расы больше всего?
  • Есть ли зависимость роста от принадлежности к лагерю хороших или плохих?
  • Какая студия создала больше всего супергероев?