MapReduce и параллельные СУБД

         

"Лакомые кусочки" для СУБД


Чтобы продемонстрировать соотношения показателей производительности параллельных СУБД и систем MR, мы опубликовали результаты сравнения тестовых испытаний двух параллельных СУБД и инфраструктуры MR Hadoop . Мы хотели обнаружить предельную производительность кажого из подходов при их применении к областям, входящим и не входящим в их целевые пространства приложений. Мы использовали две системы баз данных: коммерческую поколоночную СУБД Vertica и СУБД-X с хранением данных по строкам (продукт одного из крупных коммерческих производителей). В состав тестового набора входила простая задача, представленная в исходной статье про MR от Google , а также четыре другие аналитические задачи возрастающей сложности, являющиеся, по нашему мнению, распространенными и пригодными для решения на системах обоих классов. Эксперименты проводились на кластере со 100 узлами без общих ресурсов в университете Висконсин-Мэдисон. В полном тексте статьи описываются и обсуждаются результаты всех экспериментов, включая время загрузки данных. Здесь мы ограничимся сводкой наиболее интересных результатов. (Исходные коды, использованные в этом исследовании, доступны на сайте database.cs.brown.edu.)

Hadoop, несомненно, является наиболее популярной общедоступной версией инфраструктуры MR (версия от Google, возможно, быстрее, но нам недоступна), а СУБД-X и Vertica являются популярными параллельными СУБД с хранением данных по строкам и столбцам соответственно.

После публикации статьи Павло и др. мы продолжали настраивать все три системы. Кроме того, мы получили из сообщества Hadoop много советов по поводу способов повышения производительности. Мы все их опробовали, и результаты, представленные в этой статье (по состоянию на август 2009 г.), представляют лучшее, чего нам удалось добиться с существенной помощью экспертов по всем трем системам. На самом деле, время, потраченное нами на настройку Hadoop, теперь превосходит время, которое ушло на работу с каждой из двух других систем. Хотя, как отмечалось выше, начальная установка Hadoop оставила у нас самые хорошие воспоминания, настройка этой системы для получения максимальной производительности оказалась трудной задачей. Очевидно, что производительность является движущейся мишенью, поскольку у всех трех продуктов регулярно появляются новые релизы.



Содержание раздела