HadoopDB архитектурный гибрид технологий



             

От переводчика: параллельная СУБД для бедных или путь в будущее? - часть 2


Этим идеям не противоречат работы, описываемые в статьях Джо Хеллерстейна и др. МОГучие способности: новые приемы анализа больших данных и Эрика Фридмана и др. , в которых, фактически, говорится о применении технологии MapReduce для поддержки массивно распараллеливаемых функций, определяемых пользователями. В продуктах компаний Greenplum и Asterdata на первом месте стоят технологии параллельных СУБД, а MapReduce носит вспомогательный характер, затыкая те "дыры", которые остаются при использовании SQL (может быть, по этому поводу стоит вглянуть на мою заметку про Asterdata ).

В статье, перевод которой предлагается вашему вниманию на этот раз, авторы (часть которых являются и авторами статьи ) полностью отходят от идей главенствования имеющихся технологий параллельных СУБД в будущих параллельных системах аналитической обработки данных. Они говорят, что тенденция к значительному росту объемов данных, для которых требуется аналитическая обработка, является вполне устойчивой. Для такой обработки во вполне обозримом времени потребуются кластеры с тысячами узлов. Существующие параллельные СУБД никогда не испытывались в подобной среде, и как они поведут себя, просто неизвестно. Кроме того, в настолько масштабных системах отказоустойчивость станет необходимой, поскольку вероятность отказов узлов существенно вырастет, а повторное выполнение запросов станет неприемлемым.

Поэтому в проекте HadoopDB в прототипе будущей параллельной системы управления аналитическими данными в качестве основы используется реализация MapReduce с открытыми кодами Hadoop, которая обеспечивает масштабируемость и отказоустойчивость. Эффективность системы, свойственная существующим параллельным СУБД, обеспечивается за счет использования в узлах кластера СУБД PostgreSQL, а традиционный SQL-ориентированный доступ к данным, управляемым системой, поддерживается компонентом SMS, сделанным на основе свободно доступного компилятора SQL для Hadoop Hive.

Описываемый подход, безуловно, является интересным и перспективным, что подтвержается результатами экспериментов, выполненных авторами. Особенно привлекает то, что весь проект HadoopDB выполняется на основе подхода open source в среде Amazon Elastic Compute Cloud (EC2), что позволяет каждому желающему повторить или выполнить собственные эксперименты с системой, а при желании что-то в ней изменить и/или добавить.

Вместе с тем, необходимо учитывать, что HadoopDB – это исследовательский прототип с ограниченными функциональными возможностями. Ограничения и ошибки имеются и в Hive, и в Hadoop, и вряд ли авторам статьи удастся довести свой прототип до состояния программного продукта. Но вполне возможно, что на основе результатов этого проекта будет образована коммерческая компания, которой удастся создать полностью работоспособное эффективное, масштабируемое и отказоустойчивое решение для управления аналитическими данными астрономического масштаба.

Сергей Кузнецов




Содержание  Назад  Вперед