HadoopDB архитектурный гибрид технологий

         

Аннотация


Производственная среда аналитических приложений управления данными быстро изменяется. Многие предприятия отказываются от размещения своих аналитических баз данных на дорогостоящих проприетарных машинах и переходят к использованию более дешевой аппаратуры массового спроса, которая обычно организуется на основе массивно-параллельной архитектуры (MPP) без совместно используемых ресурсов (sharing-nothing) и часто применяется в публичной или частной "облачной" среде виртуализации. В то же время, объемы данных, нуждающихся в анализе, взрывообразно возрастают, и для выполнения анализа требуются сотни тысяч машин, работающих параллельно.

Сложились две точки зрения относительно того, какую технологию следует использовать для анализа данных в такой среде. Сторонники параллельных баз данных утверждают, что производительность и эффективность параллельных систем баз данных делают их хорошо подходящими для выполнения такого анализа. С другой стороны, другие специалисты говорят, что для этого более пригодны системы, основанные на MapReduce, из-за их исключительной масштабируемости, отказоустойчивости и гибкости при работе с неструктурированными данными. В этой статье мы исследуем возможность построения гибридной системы, заимствующей наилучшие характеристики обеих технологий; созданный нами прототип по производительности и эффективности близок к параллельным системам баз данных, но при этом обладает масштабируемостью, отказоустойчивостью и гибкостью систем, основанных на MapReduce.



Содержание раздела