Исследование Hadoop для управления большими данными

Автор: David Loshin
Автор перевода: Егоров А.А.
Источник: SearchDataManagement

Введение

Hadoop – это технология с открытым исходным кодом, которая на сегодняшний день является платформой управления данными, чаще всего связанной с приложениями больших данных. Фреймворк распределенной обработки был создан в 2006 году в Yahoo, частично основан на идеях, изложенных Google в нескольких технических статьях. Другие интернет-компании, такие как Facebook, LinkedIn и Twitter, приняли эту технологию и также начали вносить свой вклад в ее развитие. За последние несколько лет Hadoop превратился в сложную экосистему компонентов инфраструктуры и связанных с ней инструментов, которые вместе с различными поставщиками объединяются в коммерческие дистрибутивы Hadoop.

Hadoop, работая на кластерах обычных (неспециализированных) серверов, предлагает высокопроизводительный недорогой подход к созданию большой архитектуры управления данными. По мере роста осведомленности о его возможностях, использование Hadoop распространилось на другие отрасли, такие как отчетность, аналитические приложения, включающих сочетание традиционных структурированных данных и более новых форм неструктурированных и полуструктурированных данных. Этими данными могут быть: данные о клике в Интернете, информация об онлайн-объявлениях, данные в социальных сетях, записи о медицинских заявках и данные полученные с датчиков от производственного оборудования и других IoT-устройств.

Что такое Hadoop?

Фреймворк Hadoop содержит большое количество программных компонентов с открытым исходным кодом и набором основных модулей для сбора, обработки, управления и анализа огромных объемов данных, окруженных различными поддерживающими технологиями. Его основными компонентами являются:

Распределенная файловая система Hadoop (HDFS), поддерживающая обычный иерархический каталог и файловую систему, которая распределяет файлы по узлам хранения (DataNodes) в кластере Hadoop.
MapReduce – модель программирования и инфраструктура выполнения для параллельной обработки пакетных приложений.
YARN (сокращение от «Yet Another Resource Negotiator» (Ещё один ресурсный посредник)), который управляет планированием заданий и распределяет ресурсы кластера, необходимые для запуска приложений, арбитража между ними, при конкуренции за доступные ресурсы. Он также отслеживает и контролирует ход обработки заданий.
Hadoop Common – набор библиотек и утилит, используемые в различных компонентах.

В кластерах Hadoop эти основные части и другие программные модули располагаются поверх набора вычислительных и аппаратных узлов хранения данных. Узлы подключаются через высокоскоростную внутреннюю сеть для формирования высокопроизводительной параллельной и распределенной вычислительной системы.

В качестве набора технологий с открытым исходным кодом Hadoop не контролируется ни одним из поставщиков. Организация Apache Software Foundation руководит только его разработкой. Apache предоставляет Hadoop по лицензии, которая в основном обеспечивает пользователям бесплатное, безвозмездное право на использование программного обеспечения. Разработчики могут загрузить его непосредственно с веб-сайта Apache и самостоятельно создать среду Hadoop. Однако поставщики Hadoop предоставляют готовые общедоступные версии с базовыми функциональными возможностями, которые также могут быть загружены бесплатно и установлены на различных аппаратных платформах. Они также продают коммерческие или корпоративные дистрибутивы Hadoop, которые связывают программное обеспечение с различными уровнями обслуживания и услуг поддержки.

В некоторых случаях поставщики также предлагают повышение производительности и функциональности над базовой технологией Apache, например, предоставляя дополнительные программные инструменты для упрощенной настройки и управления кластером или легкой интеграции данных с внешними платформами. Эти коммерческие дополнения делают Hadoop более доступным для компаний разных размеров. Это особенно важно, когда команда технических специалистов по коммерческим поставщикам может начать разработку своей инфраструктуры Hadoop, а также выбрать инструменты и интегрировать расширенные возможности для быстрого развертывания высокопроизводительных аналитических решений необходимые для удовлетворения новых потребностей бизнеса.

Компоненты типичного программного пакета Hadoop

Что вы получите на самом деле, в коммерческой версии Hadoop? В дополнение к основным компонентам, типичные дистрибутивы Hadoop будут включать, помимо прочего, следующее дополнения:

Альтернативные менеджеры по обработке данных и исполнению приложений, такие как Tez или Spark, которые могут работать поверх YARN или вместе с YARN для обеспечения управления кластерами, управление кэшированием данных, и другие средства улучшения производительности обработки данных.
Apache HBase, колоночная система управления базами данных, смоделированная по статьям проекта BigTable от Google, которая работает поверх HDFS.
Инструменты SQL-on-Hadoop, например Hive, Impala, Stinger, Drill и Spark SQL, обеспечивающие разную степень соответствия стандарту SQL для прямого запроса данных, хранящихся в HDFS.
Инструменты разработки, такие как Pig, которые помогают разработчикам создавать программы MapReduce.
Инструменты настройки и управления, такие как ZooKeeper или Ambari, которые могут использоваться для мониторинга и администрирования.
Аналитические среды, такие как Mahout, которые предоставляют аналитические модели для машинного обучения, интеллектуального анализа данных и интеллектуального анализа.

Поскольку программное обеспечение является открытым исходным кодом, вы не приобретаете дистрибутив Hadoop как продукт, как таковой. Вместо этого поставщики продают годовые подписки на поддержку с различными соглашениями об уровне обслуживания (SLA). Все поставщики являются активными участниками сообщества Apache Hadoop, хотя каждый из них может продвигать свои собственные дополнительные компоненты, которые он внес в сообщество как часть распределенной системы Hadoop.

Кто руководит средой управления большими данными Hadoop?

Важно понимать, что для достижения желаемой производительности из системы Hadoop требуется скоординированная команда квалифицированных ИТ-специалистов, которые сотрудничают в планировании, проектировании, разработке, тестировании, развертывании и текущих операциях и обслуживании архитектуры, чтобы обеспечить максимальную производительность. В эти ИТ-команды обычно входят:

Аналитики, в обязанности которых входит оценивание требований к производительности системы на основе типов приложений, которые будут выполняться в среде Hadoop.
Системные архитекторы для оценки требований к производительности и проектирования аппаратных конфигураций.
Системные инженеры для установки, настройки и регулирования программного стека Hadoop.
Прикладные разработчики для разработки и внедрения приложений.
Специалисты по управлению данными для выполнения интеграции данных, создания макетов данных и выполнения других задач управления.
Системные менеджеры для оперативного управления и обслуживания.
Руководители проектов, следящие за выполнением различных уровней работы стека и разработки приложений.
Программные менеджеры для контроля за реализацией среды Hadoop и определения приоритетов, разработки и развертывания приложений.

Рынок программных платформ Hadoop

В сущности, эволюция Hadoop как жизнеспособной крупномасштабной экосистемы управления данными, создала новый рынок программного обеспечения, который трансформирует бизнес-аналитику и аналитику. Это расширило как виды аналитических приложений, в которых могут работать организации пользователей, так и типы данных, которые могут собираться и анализироваться как часть этих приложений. На рынке есть три независимых поставщика, специализирующихся на Hadoop – Cloudera Inc., Hortonworks Inc. и MapR Technologies Inc. Другие компании, предлагающие дистрибутивы или возможности Hadoop: Pivotal Software Inc., IBM, Amazon Web Services и Microsoft.

Оценка поставщиков, которые предоставляют дистрибутивы Hadoop, требует понимания сходства и различий между двумя аспектами предложений продуктов. Во-первых, сама технология: что включено в различные дистрибутивы и на каких платформах они поддерживаются. И, самое главное, какие конкретные компоненты отбираются отдельными поставщиками? Во-вторых, модель обслуживания и поддержки. Какие типы поддержки и SLA предоставляются на каждом уровне подписки и сколько стоят разные подписки? Понимание того, как эти аспекты относятся к вашим конкретным бизнес-требованиям, позволит выделить характеристики, которые важны вам для благоприятного взаимоотношения с поставщиком.