Построение хранилищ данных

Набор инструментов для проектирования и разработки корпоративных хранилищ данных (data warehouse) и хранилищ Big Data на технологиях международных и российских производителей, а также на решения на основе открытого кода (open source).

Что такое DWH?

Data Warehouse (DWH, корпоративное хранилище данных, КХД) – единый репозиторий структурированных данных для построения бизнес-аналитики и аналитических отчётов.


В DWH данные поступают из информационных систем, баз данных и других источников: CRM, ERP, кассовых систем, систем бухгалтерского учета и т. д., и хранятся в подробной или агрегированной форме. Отчетность, которая строится на данных хранилища, может быть управленческой, финансовой, регуляторной или аналитической



Современная бизнес-аналитика в сочетании с единым хранилищем данных открывает новые возможности для управления бизнесом.

  • Получайте отчетность быстро и в необходимой детализации
  • Обеспечьте простой доступ к данным для всех бизнес-пользователей
  • Принимайте эффективные решения на основе достоверной информации.

Кому нужно DWH?

  • Анализ разноформатных данных из разрозненных источников
    Хранилище позволяет актуализировать, нормализовать, обогатить данные и объединить их из различных информационных систем, таблиц и других внешних источников в единую структуру, для удобства работы и эффективной аналитики.
  • Не все ваши BI-инструменты стабильно работают с имеющимися базами данных
    Некоторые инструменты BI не могут работать с NoSQL (нереляционными) базами. Такие данные можно переместить в хранилище, где BI-приложения смогут получить к ним доступ.
  • Важность исторического анализа данных
    В корпоративных хранилищах в удобном для анализа виде хранятся архивные, исторические данные за разный период, что позволяет проводить анализ трендов во времени. В операционной базе данных такой объем данных хранить нецелесообразно.
  • Вы хотите ускорить обработку запросов
    Если данные хранятся в сотнях тысяч строк, на выполнение стандартных запросов уходит много времени. В хранилище создаются сводные таблицы, агрегирующие данные. С их помощью запросы выполняются быстрее.
  • Работа с высоконагруженными системами, в которых содержатся важные для компании данные
    Корпоративное хранилище функционирует отдельно от оперативной базы данных компании. Вы можете исключить негативное влияние на другие процессы и системы, не работая напрямую с базами данных приложений, а отправлять данные в хранилище и обрабатывать их там.
    Благодаря своей структурированности и оптимизации данных, КХД позволяет получить быстрый доступ к большим объемам информации без значительного влияния на производительность.
  • Вам нужны персональные дашборды и отчеты для конкретных пользователей или подразделений
    Хранилище данных структурирует всю корпоративную информацию и позволяет настроить доступ к ней таким образом, что бизнес-пользователи могут использовать только необходимые и доступные им в соответствии с ролевой моделью адаптированные данные.

Порядок разработки хранилища данных

  • 1
    Аудит внутренних и внешних процессов компании, источников и типов данных
  • 2

    Создание концепции и стратегии развития КХД, предоставление вариантов реализации, выбор методологий и инструментов для построения

  • 3

    Разработка, тестирование и внедрение хранилищ данных

  • 4

    Техническая поддержка и масштабирование КХД

Построение корпоративных хранилищ данных (KXД)


Обследование:

  • сбор, анализ, формализация бизнес-требований и технологических требований, источников данных и информационного ландшафта для создания КХД

Разработка концепции и стратегии развития корпоративных хранилищ данных, оценка вариантов реализации, выбор технологической платформы


Проектирование хранилищ данных:

  • определение архитектуры потоков данных, определение интерфейсов и стадий преобразования данных
  • определение компонентного состава и разработка архитектуры хранилища (Data Warehouse)
  • разработка модели данных
  • разработка решений по обеспечению надежности и отказоустойчивости хранилища данных
  • Разработка хранилища данных:
  • развертывание технологической платформы
  • настройка точек интеграции
  • настройка модели данных
  • разработка ETL-компонент, инструментов консолидации данных из различных источников, инструментов обогащения и проверки данных

Техническая поддержка и аудит хранилищ данных:

  • анализ и предоставление инструкций по устранению ошибок в системе
  • анализ и исправление ошибок пользователей системы или ошибок, допущенных при конфигурировании системы
  • модификации системы, документирование модификаций
  • разработка и актуализация документации
  • мониторинг и выявление «узких мест» в производительности хранилищ данных
  • оптимизация архитектуры с целью повышения производительности (на уровне ETL, модели данных, расчетов, архитектуры)
  • перевод хранилищ данных на новые версии ПО

Обработка больших массивов данных


Обследование:

  • изучение источников данных, определение объемов и структуры данных (которые необходимо анализировать), определение целей и функциональных требований для анализа данных, определение сценариев работы с данными (интегрированный подход с заданной структурой данных или использование Data Lake для решения широкого спектра задач обработки данных)

Разработка архитектуры аналитического решения для обработки Big Data:

  • определение типа архитектуры (облачная, on-premise, гибридная)
  • определение способов получения данных из источников (потоковая, пакетная передача, mini-batch) и способов хранения данных (распределенное хранение, способы структурирования, партиционирования, резервирования)
  • проектирование потоков взаимодействия с внутренними и внешними системами
  • определение необходимых стадий консолидации, обогащения и преобразования данных
  • разработка решений для обеспечения надежности и отказоустойчивости аналитического решения

Выбор компонент для построения аналитического решения и обработки Big Data:

  • DWH-компоненты (стек Hadoop, Greenplum, PostreSQL и пр.)
  • ETL-инструменты (Informatica, IBM DataStage, Pentaho, Microsoft и др.)
  • инструменты управления корпоративными данными / Data Governance (Юнидата, HFLabs и др.)

Разработка и развертывание аналитических решений для анализа Big Data:

  • развертывание технологических платформ
  • разработка и настройка необходимых инструментов, моделей данных, точек интеграции
  • обеспечение взаимодействия между компонентами
Made on
Tilda