Глоссарий данных (Data Glossary) — это централизованный сборник бизнес-терминов и их определений, который используется во всей организации для обеспечения единого понимания данных.
Проще говоря, это «словарь бизнес-языка» вашей компании.
Если представить данные как слова, а отчеты и аналитику — как предложения и тексты, то глоссарий — это правила орфографии и толковый словарь, которые гарантируют, что все «пишут и читают» одни и те же слова в одном и том же значении.
Ключевая цель глоссария данных
Устранить неоднозначность и разночтение в терминологии между разными отделами. Он отвечает на вопрос: «Что мы на самом деле имеем в виду, когда используем этот термин?»
Классический пример проблемы:
- Отдел маркетинга считает «Активного клиента» того, кто подписан на рассылку.
- Отдел продаж — того, кто совершил хотя бы одну покупку.
- Отдел поддержки — того, кто обращался за помощью в последние 90 дней.
Когда эти отделы смотрят на отчет с числом «Активных клиентов», каждый понимает его по-своему, что ведет к неверным выводам и решениям. Глоссарий данных решает именно эту проблему.
Что содержится в глоссарии данных?
Каждая статья глоссария обычно включает:
- Термин: Название бизнес-концепции (например, «Чистый доход», «Активный клиент», «Коэффициент конверсии»).
- Бизнес-определение: Простое и понятное описание того, что означает этот термин в контексте компании.
- Как рассчитывается (формула): Если применимо. Например, «Чистый доход = Валовой доход - Налоги - Себестоимость».
- Владелец термина: Кто (какая бизнес-роль или отдел) отвечает за определение и актуальность этого термина (часто это Data Owner).
- Связанные термины: Помогает понять контекст (например, термин «Валовой доход» связан с термином «Чистый доход»).
- Примеры использования: Как этот термин применяется в реальных бизнес-сценариях.
- Синонимы и устаревшие термины: Какие еще названия используются для этого понятия и от каких терминов компания отказалась.
Пример статьи в глоссарии данных
| Элемент | Содержание |
|---|---|
| Термин | Активный клиент |
| Бизнес-определение | Физическое или юридическое лицо, совершившее как минимум одну покупку в течение последних 90 календарных дней. |
| Расчет | Не рассчитывается. Определяется по наличию хотя бы одной успешной транзакции с датой в последние 90 дней от текущей даты. |
| Владелец термина | Коммерческий директор (Data Owner для данных о клиентах) |
| Распорядитель (Data Steward) | Старший аналитик отдела продаж |
| Связанные термины | Клиент, Потенциальный клиент (Lead), Совершённый заказ |
| Бизнес-контекст | Этот термин используется для расчета ежемесячной метрики Количество активных клиентов, которая является KPI для отдела продаж. |
| Синонимы | Текущий клиент (использовать не рекомендуется) |
| Исключения | Клиенты, совершившие возврат на 100% суммы заказа за период, не считаются активными. |
Глоссарий данных (Data Glossary) vs. Словарь данных (Data Dictionary)
Это два понятия, которые часто путают. Вот ключевое различие:
| Критерий | Глоссарий данных (Data Glossary) | Словарь данных (Data Dictionary) |
|---|---|---|
| Уровень | Бизнес-уровень. Ориентирован на значения и концепции. | Технический уровень. Ориентирован на структуру и атрибуты. |
| Аудитория | Бизнес-пользователи, менеджеры, аналитики. | Технические специалисты: инженеры данных, архитекторы, разработчики. |
| Содержание | Отвечает на вопрос «Что это значит?» • Бизнес-определения • Правила расчета • Владельцы терминов | Отвечает на вопрос «Что это за поле?» • Имена таблиц и столбцов • Типы данных (integer, varchar) • Длина поля, ограничения • Связи между таблицами |
| Пример для термина «Имя клиента» | В Глоссарии: «Имя клиента — это первое личное имя, указанное им при регистрации. Не включает отчество и фамилию». | В Словаре: Таблица: CustomersПоле: first_nameТип данных: varchar(50)Обязательное: Yes |
Зачем нужен глоссарий данных? (Бизнес-ценность)
- Единый источник истины: Все в компании говорят на одном языке, что снижает количество ошибок и недопонимания.
- Ускорение аналитики и отчетности: Новые сотрудники и аналитики быстрее понимают, что означают данные, и могут сразу приступать к работе.
- Повышение качества данных: Четкие определения позволяют точнее измерять и контролировать качество.
- Упрощение интеграции систем: Когда при слиянии компаний или интеграции новых систем все термины четко определены, процесс идет гораздо глаже.
- Эффективное управление данными: Является основой для работы Владельцев данных (Data Owners) и Распорядителей данных (Data Stewards).
Как его создают?
- Выявление ключевых терминов: Начинают с самых важных и спорных бизнес-понятий.
- Назначение владельцев: Каждый термин закрепляется за бизнес-подразделением.
- Разработка определений: Владельцы терминов вместе с экспертами и Data Stewards формулируют четкие определения.
- Согласование и утверждение: Определения согласуются со всеми заинтересованными сторонами.
- Публикация и поддержка: Глоссарий размещается в легкодоступном месте (например, в дата-каталоге — Data Catalog), и его актуальность постоянно поддерживается.
Итог: Глоссарий данных — это не просто документ, а живой инструмент коммуникации и управления, который лежит в основе зрелой data-культуры компании.