Платформа ETL для загрузки и управления данными


Платформа ETL (Extract, Transform, Load) представляет из себя совокупность процессов управления хранилищами данных, включая:

  • Извлечение данных из внешних источников (таблицы баз данных, файлы);
  • Преобразование и очистка данных согласно бизнес-потребностям;
  • Загрузка обработанной информации в корпоративное хранилище данных.

Платформа ETL возникла в результате появления множества корпоративных информационных систем, которые необходимо интегрировать друг с другом с целью унификации и анализа хранимых в них данных. Реляционная модель представления данных, подходящая для потребностей транзакционных систем, оказалась неэффективной для комплексной обработки и анализа информации.

Назначение платформы ETL состоит в том, чтобы организовать такую структуру данных с помощью интеграции различных информационных систем.


Архитектура и принцип работы

Независимо от особенностей построения и функционирования ETL-система должна обеспечивать выполнение трех основных этапов процесса ETL-процесса:

  • Извлечение данных из одного или нескольких источников и подготовка их к преобразованию (загрузка в промежуточную область, проверка данных на соответствие спецификациям и возможность последующей загрузки в хранилище);
  • Трансформация данных – преобразование форматов и кодировки, агрегация и очистка;
  • Загрузка данных – запись преобразованных данных, включая информацию о структуре их представления в необходимую систему хранения.

Каждый этап оканчивается соответствующим отчетом:

  • На этапах Извлечения данных и Трансформации создаются валидации для проверки данных и их фильтрации, которые позволяют отбросить невалидные, некорректные или просто неподходящие данные. Все эти данные будут отражены в отчетах о результате валидаций. На основании этих отчетов можно легко подправить данные, убрав ошибки, удалить эти данные как ненужные или изменить правила валидаций, и загрузить эти данные в БД следующей итерацией.
  • На этапе загрузки данных в хранилище (Data Warehouse) создается отчет о несоответствии трансформированных данных в БД хранилища.
  • После загрузки данных в хранилище создается итоговый отчет о загрузке данных в БД со всеми ошибками и полной статистикой по загруженным данных.

Обобщенная структура процесса ETL

Таким образом, ETL-процесс представляет собой перемещение информации (потока данных) от источника к получателю через промежуточную область, содержащую вспомогательные таблицы, которые создаются временно и исключительно для организации процесса выгрузки. Платформа ETL представляет из себя не только процесс переноса данных из одного приложения в другое, но и инструмент подготовки данных к анализу.

Компании QuintaTec предлагает своим клиентам ETL платформу от компании Innovile, которая обладает всем необходимым функционалом и способна удовлетворить потребности по загрузке, трансформации и последующей аналитики данных в вашей компании.