Датасет

Датасет описывает набор данных и его структуру. Набор данных датасета представлен в виде полей. Подробнее в разделе Модель данных.

Yandex DataLens позволяет создать датасет на основе источника данных, для которого существует подключение. Источником данных для датасета может быть только одна таблица.

В DataLens есть несколько режимов работы датасета с источниками данных. Подробнее в разделе Режимы работы с источником данных.

Модель данных

Набор данных датасета представлен в виде набора полей.

Поле данных

Поля определяют структуру и формат набора данных. Существуют следующие типы полей:

  • Измерение. Содержит значения, которые определяют характеристику данных. Например, город, дата покупки, категория продукта. К полю с измерением не применяется функция агрегации, в противном случае поле становится показателем. В интерфейсе измерения отображаются зеленым цветом.
  • Показатель. Содержит числовые значения, к которым применяются функции агрегации (сведения). Например, сумма кликов, количество переходов. Если снять с такого поля функцию агрегации, оно станет измерением. В интерфейсе показатели отображаются синим цветом.

При создании датасета вы можете дублировать существующие поля и создавать новые.

Вычисляемое поле

DataLens позволяет создавать вычисляемые поля с помощью функций агрегации и функций, которые доступны для источника данных. Полный список функций приведен в разделе Справочник функций.

Подробнее о вычисляемых полях в разделе Вычисляемые поля.

Типы данных

В сервисе DataLens есть следующие типы данных:

Тип Формат записи Пример
Логический TRUE/FALSE TRUE, FALSE
Дата #ГГГГ-ММ-ДД# #2018-01-18#, #2015-01-01#
Дата и время #ГГГГ-ММ-ДД чч:мм:сс#
#ГГГГ-ММ-ДДTчч:мм:сс#
#2018-01-12 01:08:03#, #2018-05-01T#
Дробное число 0.00001 1.47113, 0.62024
Целое число 1 1234, 88, 90
Строка "string"
'string'
"значение", "city", 'Строка с "подстрокой"'
Геоточка GEOPOINT("[широта, долгота]") GEOPOINT("[55.7912,37.6872]"), GEOPOINT("[55.8538,37.6312]")
Геополигон GEOPOLYGON("[[[широта1, долгота1], [широта2, долгота2]], ... , [[широтаN-1, долготаN-1], [широтаN, долготаN]]]") GEOPOLYGON("[[[55.8570, 37.6250], [55.8572, 37.6251]], [[55.8574, 37.6251, [55.8572, 37.6251]]]")

Примечание

Вы можете использовать следующие символы в строковых значениях:

  • \n - перенос строки (LF);
  • \r - возврат каретки (CR);
  • \t - табуляция;
  • \" - двойная кавычка;
  • \' - одинарная кавычка;
  • \\ - обратная косая черта.

Агрегация данных

Для полей с различными типами данных доступны следующие функции агрегации:

Имя Описание Поддерживаемые типы
Нет Без агрегации Все типы
Среднее Среднее арифметическое значений Дробное число
Целое число
Количество Количество записей Строка
Дата
Дата и время
Дробное число
Целое число
Количество уникальных Количество уникальных записей Строка
Дата
Дата и время
Дробное число
Целое число
Максимум Максимальное значение Дата
Дата и время
Дробное число
Целое число
Минимум Минимальная значение Дата
Дата и время
Дробное число
Целое число
Сумма Сумма значений Дробное число
Целое число

Режимы работы с источником данных

Датасет может работать с источником в следующих режимах:

  • Прямой доступ.
  • Единовременная материализация.
  • Периодическая материализация.

Прямой доступ

Все запросы к данным исполняются на стороне источника.

Примечание

Если в качестве источника данных вы используете Metrica API, то DataLens будет использовать прямой доступ к данным.

Единовременная материализация

Данные загружаются в БД материализации DataLens единовременно. Все последующие запросы обрабатываются на загруженных данных. Чтобы синхронизировать хранилище DataLens с источником, данные можно загрузить повторно.

Примечание

Если в качестве источника данных вы используете CSV-файл, то DataLens автоматически материализует датасет.

Периодическая материализация

Данные загружаются в БД материализации DataLens по расписанию. Расписание задается в настройках датасета.

Управление доступом

Вы можете настроить права доступа к датасету. Подробнее в разделе Управление доступом.

См. также