ETL и наборы данных, читаемые только единожды
Каноническое использование MR характеризуется следующим шаблоном из пяти операций:
-
чтение журнальной информации из нескольких разных источников;
-
разбор и очистка журнальных данных;
-
выполнение сложных преобразований (таких как связывание данных с сессиями пользователей ("sessionalization"));
-
принятие решения о том, какие атрибутивные данные следует сохранить и
-
загрузка информации в СУБД или другую систему хранения данных.
Эти шаги аналогичны фазам извлечения, преобразования и загрузки в системах ETL. Система MR, по сути, "стряпает" из необработанных данных полезную информацию, которая потребляется другой системой хранения. Поэтому систему MR можно считать параллельной системой ETL общего назначения.
ETL для параллельных СУБД поддерживают многие продукты, включая Ascential, Informatica, Jaspersoft и Talend. Рынок велик, поскольку почти все крупные компании используют системы ETL для загрузки больших объемов данных в хранилища данных. Одной из причин этой симбиотической взаимосвязи является очевидное различие в том, что каждый из этих классов систем обеспечивает для пользователей: СУБД не пытаются выполнять ETL, а системы ETL не пытаются поддерживать сервисы СУБД. Работа системы ETL обычно предшествует работе СУБД, поскольку на фазе загрузки данные, как правило, поступают прямо в СУБД.