Глоссарий данных (Data Glossary) — это централизованный сборник бизнес-терминов и их определений, который используется во всей организации для обеспечения единого понимания данных.

Проще говоря, это «словарь бизнес-языка» вашей компании.

Если представить данные как слова, а отчеты и аналитику — как предложения и тексты, то глоссарий — это правила орфографии и толковый словарь, которые гарантируют, что все «пишут и читают» одни и те же слова в одном и том же значении.


Ключевая цель глоссария данных

Устранить неоднозначность и разночтение в терминологии между разными отделами. Он отвечает на вопрос: «Что мы на самом деле имеем в виду, когда используем этот термин?»

Классический пример проблемы:

  • Отдел маркетинга считает «Активного клиента» того, кто подписан на рассылку.
  • Отдел продаж — того, кто совершил хотя бы одну покупку.
  • Отдел поддержки — того, кто обращался за помощью в последние 90 дней.

Когда эти отделы смотрят на отчет с числом «Активных клиентов», каждый понимает его по-своему, что ведет к неверным выводам и решениям. Глоссарий данных решает именно эту проблему.


Что содержится в глоссарии данных?

Каждая статья глоссария обычно включает:

  1. Термин: Название бизнес-концепции (например, «Чистый доход», «Активный клиент», «Коэффициент конверсии»).
  2. Бизнес-определение: Простое и понятное описание того, что означает этот термин в контексте компании.
  3. Как рассчитывается (формула): Если применимо. Например, «Чистый доход = Валовой доход - Налоги - Себестоимость».
  4. Владелец термина: Кто (какая бизнес-роль или отдел) отвечает за определение и актуальность этого термина (часто это Data Owner).
  5. Связанные термины: Помогает понять контекст (например, термин «Валовой доход» связан с термином «Чистый доход»).
  6. Примеры использования: Как этот термин применяется в реальных бизнес-сценариях.
  7. Синонимы и устаревшие термины: Какие еще названия используются для этого понятия и от каких терминов компания отказалась.

Пример статьи в глоссарии данных

ЭлементСодержание
ТерминАктивный клиент
Бизнес-определениеФизическое или юридическое лицо, совершившее как минимум одну покупку в течение последних 90 календарных дней.
РасчетНе рассчитывается. Определяется по наличию хотя бы одной успешной транзакции с датой в последние 90 дней от текущей даты.
Владелец терминаКоммерческий директор (Data Owner для данных о клиентах)
Распорядитель (Data Steward)Старший аналитик отдела продаж
Связанные терминыКлиент, Потенциальный клиент (Lead), Совершённый заказ
Бизнес-контекстЭтот термин используется для расчета ежемесячной метрики Количество активных клиентов, которая является KPI для отдела продаж.
СинонимыТекущий клиент (использовать не рекомендуется)
ИсключенияКлиенты, совершившие возврат на 100% суммы заказа за период, не считаются активными.

Глоссарий данных (Data Glossary) vs. Словарь данных (Data Dictionary)

Это два понятия, которые часто путают. Вот ключевое различие:

КритерийГлоссарий данных (Data Glossary)Словарь данных (Data Dictionary)
УровеньБизнес-уровень. Ориентирован на значения и концепции.Технический уровень. Ориентирован на структуру и атрибуты.
АудиторияБизнес-пользователи, менеджеры, аналитики.Технические специалисты: инженеры данных, архитекторы, разработчики.
СодержаниеОтвечает на вопрос «Что это значит?»
• Бизнес-определения
• Правила расчета
• Владельцы терминов
Отвечает на вопрос «Что это за поле?»
• Имена таблиц и столбцов
• Типы данных (integer, varchar)
• Длина поля, ограничения
• Связи между таблицами
Пример для термина «Имя клиента»В Глоссарии: «Имя клиента — это первое личное имя, указанное им при регистрации. Не включает отчество и фамилию».В Словаре: Таблица: Customers
Поле: first_name
Тип данных: varchar(50)
Обязательное: Yes

Зачем нужен глоссарий данных? (Бизнес-ценность)

  1. Единый источник истины: Все в компании говорят на одном языке, что снижает количество ошибок и недопонимания.
  2. Ускорение аналитики и отчетности: Новые сотрудники и аналитики быстрее понимают, что означают данные, и могут сразу приступать к работе.
  3. Повышение качества данных: Четкие определения позволяют точнее измерять и контролировать качество.
  4. Упрощение интеграции систем: Когда при слиянии компаний или интеграции новых систем все термины четко определены, процесс идет гораздо глаже.
  5. Эффективное управление данными: Является основой для работы Владельцев данных (Data Owners) и Распорядителей данных (Data Stewards).

Как его создают?

  1. Выявление ключевых терминов: Начинают с самых важных и спорных бизнес-понятий.
  2. Назначение владельцев: Каждый термин закрепляется за бизнес-подразделением.
  3. Разработка определений: Владельцы терминов вместе с экспертами и Data Stewards формулируют четкие определения.
  4. Согласование и утверждение: Определения согласуются со всеми заинтересованными сторонами.
  5. Публикация и поддержка: Глоссарий размещается в легкодоступном месте (например, в дата-каталоге — Data Catalog), и его актуальность постоянно поддерживается.

Итог: Глоссарий данных — это не просто документ, а живой инструмент коммуникации и управления, который лежит в основе зрелой data-культуры компании.