MapReduce и параллельные СУБД

         

Анализ на "скорую руку" (quick-and-dirty)


Одним из досадных аспектов многих современных параллельных СУБД является то, что их трудно должным образом устанавливать и конфигурировать, поскольку пользователи часто сталкиваются с мириадами параметров настройки, которые необходимо корректно установить, чтобы добиться эффективной работы системы. По сравнению с нашим опытом установки двух коммерческих параллельных систем, установка реализации MR с открытыми исходными текстами оставила наилучшие воспоминания . Мы смогли получить работающую систему MR и начать выполнять в ней запросы существенно быстрее, чем при использовании какой-либо СУБД. На самом деле, только экспертная поддержка одного из поставщиков позволила нам настроить соответствующую параллельную СУБД таким образом, чтобы выполнение запросов завершалось за минуты, а не часы или дни.

После установки и правильного конфигурирования СУБД программисты должны определить схему своих данных (если она еще не существует), а затем загрузить данные в систему. В СУБД этот процесс длится значительно дольше, чем в системе MR, потому что СУБД должна разобрать и проверить в загружаемых кортежах каждый элемент данных. В отличие от этого, MR-программисты по умолчанию (а значит, чаще всего) загружают свои данные путем их простого копирования в распределенную блочную систему хранения, на которой основывается система MR.

Если программисту требуется выполнить некоторый единичный анализ текущих данных, то, очевидно, предпочтительной является модель MR со своим небольшим временем раскрутки. С другой стороны, профессиональные программисты СУБД и администраторы предпочитают тратить больше времени на обучение и подготовку системы к использованию, поскольку получаемый выигрыш в производительности окупает предварительные расходы.



Содержание раздела