Назад в библиотеку

Исследование Hadoop для управления большими данными

Автор: David Loshin
Автор перевода: Егоров А.А.
Источник: SearchDataManagement

Введение

Hadoop – это технология с открытым исходным кодом, которая на сегодняшний день является платформой управления данными, чаще всего связанной с приложениями больших данных. Фреймворк распределенной обработки был создан в 2006 году в Yahoo, частично основан на идеях, изложенных Google в нескольких технических статьях. Другие интернет-компании, такие как Facebook, LinkedIn и Twitter, приняли эту технологию и также начали вносить свой вклад в ее развитие. За последние несколько лет Hadoop превратился в сложную экосистему компонентов инфраструктуры и связанных с ней инструментов, которые вместе с различными поставщиками объединяются в коммерческие дистрибутивы Hadoop.

Hadoop, работая на кластерах обычных (неспециализированных) серверов, предлагает высокопроизводительный недорогой подход к созданию большой архитектуры управления данными. По мере роста осведомленности о его возможностях, использование Hadoop распространилось на другие отрасли, такие как отчетность, аналитические приложения, включающих сочетание традиционных структурированных данных и более новых форм неструктурированных и полуструктурированных данных. Этими данными могут быть: данные о клике в Интернете, информация об онлайн-объявлениях, данные в социальных сетях, записи о медицинских заявках и данные полученные с датчиков от производственного оборудования и других IoT-устройств.

Что такое Hadoop?

Фреймворк Hadoop содержит большое количество программных компонентов с открытым исходным кодом и набором основных модулей для сбора, обработки, управления и анализа огромных объемов данных, окруженных различными поддерживающими технологиями. Его основными компонентами являются:

В кластерах Hadoop эти основные части и другие программные модули располагаются поверх набора вычислительных и аппаратных узлов хранения данных. Узлы подключаются через высокоскоростную внутреннюю сеть для формирования высокопроизводительной параллельной и распределенной вычислительной системы.

В качестве набора технологий с открытым исходным кодом Hadoop не контролируется ни одним из поставщиков. Организация Apache Software Foundation руководит только его разработкой. Apache предоставляет Hadoop по лицензии, которая в основном обеспечивает пользователям бесплатное, безвозмездное право на использование программного обеспечения. Разработчики могут загрузить его непосредственно с веб-сайта Apache и самостоятельно создать среду Hadoop. Однако поставщики Hadoop предоставляют готовые общедоступные версии с базовыми функциональными возможностями, которые также могут быть загружены бесплатно и установлены на различных аппаратных платформах. Они также продают коммерческие или корпоративные дистрибутивы Hadoop, которые связывают программное обеспечение с различными уровнями обслуживания и услуг поддержки.

В некоторых случаях поставщики также предлагают повышение производительности и функциональности над базовой технологией Apache, например, предоставляя дополнительные программные инструменты для упрощенной настройки и управления кластером или легкой интеграции данных с внешними платформами. Эти коммерческие дополнения делают Hadoop более доступным для компаний разных размеров. Это особенно важно, когда команда технических специалистов по коммерческим поставщикам может начать разработку своей инфраструктуры Hadoop, а также выбрать инструменты и интегрировать расширенные возможности для быстрого развертывания высокопроизводительных аналитических решений необходимые для удовлетворения новых потребностей бизнеса.

Компоненты типичного программного пакета Hadoop

Что вы получите на самом деле, в коммерческой версии Hadoop? В дополнение к основным компонентам, типичные дистрибутивы Hadoop будут включать, помимо прочего, следующее дополнения:

Поскольку программное обеспечение является открытым исходным кодом, вы не приобретаете дистрибутив Hadoop как продукт, как таковой. Вместо этого поставщики продают годовые подписки на поддержку с различными соглашениями об уровне обслуживания (SLA). Все поставщики являются активными участниками сообщества Apache Hadoop, хотя каждый из них может продвигать свои собственные дополнительные компоненты, которые он внес в сообщество как часть распределенной системы Hadoop.

Кто руководит средой управления большими данными Hadoop?

Важно понимать, что для достижения желаемой производительности из системы Hadoop требуется скоординированная команда квалифицированных ИТ-специалистов, которые сотрудничают в планировании, проектировании, разработке, тестировании, развертывании и текущих операциях и обслуживании архитектуры, чтобы обеспечить максимальную производительность. В эти ИТ-команды обычно входят:

Рынок программных платформ Hadoop

В сущности, эволюция Hadoop как жизнеспособной крупномасштабной экосистемы управления данными, создала новый рынок программного обеспечения, который трансформирует бизнес-аналитику и аналитику. Это расширило как виды аналитических приложений, в которых могут работать организации пользователей, так и типы данных, которые могут собираться и анализироваться как часть этих приложений. На рынке есть три независимых поставщика, специализирующихся на Hadoop – Cloudera Inc., Hortonworks Inc. и MapR Technologies Inc. Другие компании, предлагающие дистрибутивы или возможности Hadoop: Pivotal Software Inc., IBM, Amazon Web Services и Microsoft.

Оценка поставщиков, которые предоставляют дистрибутивы Hadoop, требует понимания сходства и различий между двумя аспектами предложений продуктов. Во-первых, сама технология: что включено в различные дистрибутивы и на каких платформах они поддерживаются. И, самое главное, какие конкретные компоненты отбираются отдельными поставщиками? Во-вторых, модель обслуживания и поддержки. Какие типы поддержки и SLA предоставляются на каждом уровне подписки и сколько стоят разные подписки? Понимание того, как эти аспекты относятся к вашим конкретным бизнес-требованиям, позволит выделить характеристики, которые важны вам для благоприятного взаимоотношения с поставщиком.