Реферат по теме выпускной работы
Содержание
- 1 Актуальность темы
- 2 Цели и задачи исследования, планируемые результаты
- 3 Обзор исследования и разработок
- 3.1 Обзор международных источников
- 3.2 Обзор национальных источников
- 3.3 Обзор локальных источников
- 4 Теория Big Data
- 4.1 Критерии информации, определяющие пренадлежность к Big Data
- 4.2 Инструментарий, позволяющий хранить и обрабатывать данные в Data Lake
- 4.3 Три главных принципа работы с большими данными
- 4.3.1 Горизонтальная адаптивность
- 4.3.2 Стабильность в работе при отказах
- 4.3.3 Концентрация данных
- 4.4 Девять основных методов обработки больших данных
- 4.4.1 Машинное обучение
- 4.4.2 Нейросеть
- 4.4.3 Технология Data Mining
- 4.4.4 Стратегия краудсорсинга
- 4.4.5 Метод предиктивной аналитики
- 4.4.6 Принцип статистического анализа
- 4.4.7 Технология имитационного моделирования
- 4.4.8 Метод визуализации аналитических данных
- 4.4.9 Метод смешения и интеграции данных
- 4.5 Классификация данных
- 4.5.1 Структурированные данные
- 4.5.2 Частично структурированные
- 4.5.3 Неструктурированные
- 4.6 Источники данных
- 4.6.1 Генерируемые людьми социальные данные
- 4.6.2 Транзакционная информация
- 4.6.3 Машинные данные
- 5 Проблемы анализа и обработки большого объема данных
- 6 Инструменты для обработки больших данных
- 7 Самые популярные языки программирования для работы с Big Data
- 7.1 R
- 7.2 Scala
- 7.3 Python
- 8 Примеры использования аналитики на основе Big Data: бизнес, IT, медиа
- Выводы
- Список источников
1 Актуальность темы
Классификация текстов является технологией Data Mining, которая в свою очедердь считается одним из
девяти основных методов обработки больших данных (т.е. Big Data). Big Data – этим термином
определяют массивы информации, которые невозможно обработать или проанализировать при помощи
традиционных методов с использованием человеческого труда и настольных компьютеров. Особенность Big
Data еще и в том, что массив данных со временем продолжает экспоненциально расти, поэтому для
оперативного анализа собранных материалов необходимы вычислительные мощности суперкомпьютеров.
Соответственно, для обработки Big Data необходимы экономичные, инновационные методы обработки
информации и предоставления выводов.
Вопросы обработки большой текстовой информации, в том числе и определение тональности текстовых
документов, классификации на основании каких-то параметров, являются очень актуальными в течение
последних несколько лет. Про это можно судить только исходя из главных источников данных для Big
Data, в качестве примера, основные из источников:
- интернет вещей (IoT), а также подключенные устройства;
- социальные сети, блоги и СМИ;
- данные компаний: транзакции, заказы товаров и услуг, поездки на такси и каршеринге, профили клиентов;
- показания приборов: метеорологические станции, измерители состава воздуха и водоемов, данные со спутников;
- статистика городов и государств: данные о перемещениях, рождаемости и смертности;
- медицинские данные: анализы, заболевания, диагностические снимки.
2 Цели и задачи исследования, планируемые результаты
Целью данной работы является программная реализация одной из задачи Data Mining - классификация
текстов на основе предметной области.
Исходя из цели исследования были поставлены следующие задачи, связанные с обработкой больших объемов
информации:
- исследовать основные вопросы, касающиеся Big Data и Data Mining в частности;
- изучить инструментарий, применяемый для обработки больших данных (СУБД, языки программирования, фреймворки);
- рассмотреть примеры использования и реализации алгоритмов Big Data и Data Mining;
- программно реализовать один из алгоритмов Data Mining - классификация текстов.
Объект исследования - технология Data Mining - одна из девяти основных методов обработки больших
данных.
Предмет исследования - классификация текстов.
3 Обзор исследования и разработок
Исследуемая область популярна не только в международных, но и в национальных научных сообществах.
3.1 Обзор международных источников
Вопросами программирования и разработки программных продуктов в международном пространстве, в
частности, англоязычных источниках, занимается издательство O`Reilly. Издательство уделяет
пристальное внимание вопросам понимания исследуемого материала - какую бы отрасль или область
разработки они бы не выбрали, издательство O`Reilly старается в первую очередь доходчиво
преподнести информацию в своих статьях/книгах/журналах, исходя из чего данное издательство
практически монополизировала предоставление информации в массы.
O'Reilly Media выпускает очень много печатных носителей информации, связанных с
программированием и разработкой, однако в рамках исследуемой темы о вопросах обработки данных
можно выделить следующие книги, которые считаются эталонными в международном пространстве: "Data
Science. Наука о данных с нуля", "Fundamentals of data engineering", а также "Generative Deep
Learning".
На англоязычных международных издательствах также есть хорошие учебники, раскрывающие некоторые
нюансы, которые были опущены другими авторами.
3.2 Обзор национальных источников
Что касается национальных интересов в области обработки больших данных, то тут вся литература является переводом на русский язык англоязычных источников, поэтому изучение алгоритмов Big Data будет считаться востребованным в ближайшие 5 лет. Вся информация по области исследования вопросов Big Data сводится к статьям в сети Интернет от неизвестных авторов. Аналогичная ситуация прослеживается и в научном пространстве Российской Федерации - все статьи являются в той или ной форме переводом англоязычных источников и исследований.
3.3 Обзор локальных источников
В Донецком национальном техническом университете на портале магистров удалось найти несколько схожих по тематике работ магистров.
Студенткой ДонНТУ, Бердюковой Светланой Сергеевной было проведено исследование методов анализа тональности текстов для характеристики восприятия обществом новостей из области культуры [1]. В данном исследования она рассмотрела понятия интеллектуального анализа текстов (Text Mining), анализа тональности (Sentiment Analysis), а также рассмотрены вопросы, касающиеся классификации документов.
Серёженко Анна Александровна также проводила исследование, касающееся обработки больших данных, свои результаты она зафиксировала в работе Исследование методов анализа тональности на примере текстов песен
[2]. Ее работа также была основана на понятии Text Mining, с углубленным анализом работы музыкальных служб. Данное исследование опиралось на актуальность анализа песен, прослушиваемые пользователем, подстраивая под них плейлисты с тем настроением песен, которые пользователи слушают чаще всего.
Лютова Екатерина Игоревна занималась исследованием методов классификации информации с использованием байесовского классификатора [3]. Ее исследование обусловлено быстрым ростом популярности электронных средств коммуникации, в том числе электронной почты, а также низкой стоимости их использования, приводящее к увеличивающемуся потоку несанкционированных массовых рассылок. Для решения проблемы несанкционированных рассылок Екатерина рассматривала классификацию на основе метода Байеса, базирующемся на правиле, что одни слова, встречаются чаще в спаме, а другие в обычных письмах - данный алгоритм неэффективен, если такое предположение неверно.
Пилипенко Артём Сергеевич рассматривал вопросы, касающиеся исследования методов и алгоритмов определения тональности естественно-языкового текста [4]. В исследовании Артем рассматривал вопросы определения тональности, т.к. далеко не все средства Text Mining умеют определять тональность текста одновременно с другими характеристиками, интересующими пользователя.
Гума Светлана Николаевна занималась исследованием методов сравнительного анализа текстов на примере рекомендательной системы фильмов [5]. Для экспериментальной оценки полученных теоретических результатов и формирования фундамента последующих исследований, в качестве практических результатов Светлана планировала получить разработанную кроссплатформенную, настраиваемую и функциональную рекомендательную систему.
Студентом ДонНТУ, Власюком Дмитрием Александровичем проведено исследование методов извлечения знаний из HTML-страниц сети Интернет о спортивных соревнованиях [6]. Также Дмитрий рассмотрел вопросы предварительной обработки информации, автоматического сбора и обработки информации.
Сторожук Наталья Олеговна подготовила практическое исследование методов и алгоритмов определения жанра литературных произведений на основе технологии Text Mining [7], в ходе которого cпроектированную и реализованную систему определения жанра литературного произведения. Попутно Наталья рассмотрела задачу эффективной автоматизированной обработки текстов.
Титаренко Михаил Геннадиевич исследовал методы классификации информации о внешнеторговой деятельности государств в рамках информационно-поисковой системы [8]. Также Михаил рассмотрел проблему универсальной автоматической классификации, для решения которой предложил несколько исследований и реализаций специализированных алгоритмов.
Студент ДонНТУ, Полетаев Владислав Анатольевич занимался исследованием методов поиска изображений в графических базах данных [9]. Данное исследование не относится к технологии Text/Data Mining, однако напрямую связано с решением одной из основных проблем Big Data, если рассматривать вопрос получения данных из облачных хранилищ. Сам же Владислав отметил это в своей работе: Поиск в большом массиве информации — сложная задача, требующая разработки эффективных алгоритмов индексирования и поиска, вместе с созданием производительных программных систем, реализующих эти алгоритмы.
Вопросами Big Data занимается мой научный руководитель - Коломойцева Ирина Александровна, которая на протяжении последних лет вводит в студенческие массы интерес к теме Big Data.
4 Теория Big Data
К большим данным относят информацию, чей объем может быть свыше сотни терабайтов и петабайтов. Причем
такая информация регулярно обновляется. В качестве примеров можно привести данные, поступающие из
контакт-центров, медиа социальных сетей, данные о торгах фондовых бирж [10, 11, 12] и т. п. Также в понятие
«большие данные» иногда включают способы и методики их обработки.
Если же говорить о терминологии, то «Big Data» подразумевает не только данные как таковые, но и
принципы обработки больших данных, возможность дальнейшего их использования, порядок обнаружения
конкретного информационного блока в больших массивах. Вопросы, связанные с такими процессами, не
теряют своей актуальности. Их решение носит важный характер для тех систем, которые многие годы
генерировали и копили различную информацию [11].
4.1 Критерии информации, определяющие принадлежность к Big Data
Существуют критерии информации, определенные в 2001 году Meta Group, которые позволяют оценить, соответствуют ли данные [11] понятию Big Data или нет:
- Volume (объем) — примерно 1 Петабайт и выше;
- Velocity (скорость) — генерация, поступление и обработка данных с высокой скоростью;
- Variety (разнообразие) [13] — разнородность данных, различные форматы и возможное отсутствие структурированности;
- Variability (изменчивость) — разноплановая интенсивность поступления, которая влияет на выбор методик обработки;
- Value (значимость) — разница в уровне сложности получаемой информации.
Так, данные, поступающие из сообщений в чат-боте интернет-магазинов, имеют один уровень
сложности. А данные, которые выдают машины, отслеживающие сейсмическую активность планеты —
совсем другой уровень.
В большинстве случаев полученные необработанные данные хранятся в так называемом «озере
данных» — Data Lake [10, 11, 12, 14, 15, 17]. Формат и уровень структуризации информации при этом может быть
разнообразным [15]:
- структурные (данные в виде строк и колонок);
- частично структурированные (логи, CSV, XML, JSON-файлы);
- неструктурированные (pdf-формат, формат документов и т. п.);
- бинарные (формат видео, аудио и изображения).
4.2 Инструментарий, позволяющий хранить и обрабатывать данные в Data Lake
DataLake [10, 11, 12, 14, 15, 17] – помимо функции хранения, включает в себя и программную платформу (например, такую как
Hadoop), а также определяет источники и методы пополнения данных, кластеры узлов хранения и
обработки информации, управления, инструментов обучения. DataLake при необходимости
масштабируется до многих сотен узлов без прекращения работы кластера.
Месторасположение «озера», как правило, находится в облаке. Так, около 72 % компаний при работе
с Big Data предпочитают собственным серверам облачные. Это связано с тем, что обработка больших
баз данных требует серьезные вычислительные мощности, в то время как облако значительно снижает
стоимость работ. Именно по этой причине компании выбирают облачные хранилища. Облако не имеет
ограничений по объему сохраняемых в нем данных. Следовательно, оно выгодно с точки зрения
экономии средств для тех компаний, нагрузка которых быстро растет, а также бизнеса, связанного с
тестами различных гипотез.
Hadoop [10, 11, 16, 18] — пакет утилит и библиотек, используемый для построения систем, обрабатывающих, хранящих
и анализирующих большие массивы не реляционных данных: данные датчиков, интернет-трафика,
объектов JSON, файлов журналов, изображений и сообщений в соцсетях.
HPPC (DAS) – суперкомпьютер, способный обрабатывать данные в режиме реального времени или в
«пакетном состоянии». Реализован LexisNexis Risk Solutions.
Storm — фреймворк Big Data, созданный для работы с информацией в режиме реального времени.
Разработан на языке программирования Clojure.
4.3 Три главных принципа работы с большими данными
4.3.1 Горизонтальная адаптивность
Количество данных неограниченно, поэтому обрабатывающая их система должна иметь способность к расширению: при возрастании объемов данных должно пропорционально увеличиваться количество оборудования для поддержания работоспособности всей системы.
4.3.2 Стабильность в работе при отказах
Горизонтальная адаптивность предполагает наличие большого числа машин в компьютерном узле. К примеру, кластер Hadoop насчитывает более 40 000 машин [13]. Само собой, что периодически оборудование, изнашиваясь, будет подвержено поломкам. Системы обработки больших данных должны функционировать таким образом, чтобы безболезненно переживать возможные сбои.
4.3.3 Концентрация данных
В масштабных системах данные распределяются по большому количеству оборудования. Допустим, что местоположение данных — один сервер, а их обработка происходит на другом сервере. В этом случае затраты на передачу информации с одного сервера на другой могут превышать затраты на сам процесс обработки [13]. Соответственно, чтобы этого избежать необходимо концентрировать данные на той же аппаратуре, на которой происходит обработка.
4.4 Девять основных методов обработки больших данных
4.4.1 Машинное обучение
Этот метод анализ данных содержит в своей основе способность аналитической системы самостоятельно обучаться в процессе решения различных задач - программе задается алгоритм, который позволяет ей учиться выявлять определенные закономерности. Сферы применения такого метода достаточно разнообразны [12, 15] — например, с помощью машинного обучения проводятся маркетинговые исследования, социальные сети предлагают подборку постов, происходит разработка медицинских программ.
4.4.2 Нейросеть
Нейросеть используют для распознавания визуальных образов [10, 12, 15]. Нейронные сети — это
математические модели, отображенные программным кодом. Такие модели работают по принципу
нейронной сети живого существа: получение информации — ее обработка и передача — выдача
результата.
Нейросеть способна проделать работу за несколько десятков людей. Ее используют для
развлечений, прогнозирования, обеспечения безопасности, медицинской диагностики и т. д. (в
различных социальных и профессиональных областях).
4.4.3 Технология Data Mining
Математик Григорий Пятецкий-Шапиро ввел этот термин в 1989 г. Метод подразумевает обнаружение определенных закономерностей в сырых данных с помощью интеллектуального анализа [11]. Data Mining используют для:
- определения нетипичных данных в общем потоке информации посредством анализа отклонений;
- поиска идентичной информации в различных источниках с помощью ассоциаций;
- определения факторов влияния на заданный параметр через регрессионный анализ;
- распределения данных по группам со схожими характеристиками (классификация данных);
- разделения записей по заранее сформированным классам (кластеризация).
4.4.4 Стратегия краудсорсинга
В некоторых ситуациях, когда нет экономической выгоды в разработке системы ИИ (искусственного интеллекта), для выполнения разовых работ привлекают большое количество людей. Они могут решить те задачи, с которыми компьютер не в состоянии справиться в одиночку. Примером может быть сбор и обработка данных социологического опроса. Такая информация может находиться в не оцифрованном виде, в ней могут быть допущены ошибки и сокращения. Такой формат будет понятен человеку, и он сможет организовать данные в тот вид, который будет читаем алгоритмами программ.
4.4.5 Метод предиктивной аналитики
Другими словами, методика прогнозирования. Имея достаточный объем соответствующей информации,
можно составить прогноз и ответить на вопрос «Как будут развиваться события?». Принцип
предиктивной аналитики таков: сначала нужно исследовать данные за прошлый период; выявить
закономерности или факторы, которые стали причиной результата; далее с помощью нейросети или
математических вычислений создать модель, которая сможет производить прогнозирование.
Методика прогнозов используется в различных сферах [10, 12]. Например, предиктивная аналитика
позволяет выявить и предотвратить мошеннические схемы в кредитовании или страховании. В
медицине прогнозный анализ на основе данных о пациенте помогает определить его
предрасположенность к каким-либо заболеваниям.
4.4.6 Принцип статистического анализа
Суть метода заключается в сборе данных, их изучении на основе конкретных параметров и
получении результата, выраженного, как правило, в процентах. У этого метода есть слабое
звено — неточность данных в маленьких выборках. Поэтому для получения максимально точных
результатов необходимо собирать большой объем исходных данных [10, 15].
Статистический анализ часто используют как часть другого способа обработки больших данных
Big Data [10, 12, 15], например, в машинном обучении или предиктивной аналитике.
Для получения статистических показателей используют [19]:
- корреляционный анализ для определения взаимозависимости показателей;
- процентное соотношение итогов анализа;
- динамические ряды для оценки интенсивности изменений определенных условий в конкретный интервал времени;
- определение среднего показателя.
4.4.7 Технология имитационного моделирования
Имитационное моделирование отличается от методики прогнозирования тем, что берутся в учет
факторы, чье влияние на результат затруднительно отследить в реальных условиях -
выстраиваются модели с учетом гипотетических, а не реальных данных, и затем эти модели
исследуют в виртуальной реальности [10, 12, 15].
Метод имитационных моделей применяют для анализа влияния разных обстоятельств на итоговый
показатель. Например, в сфере продаж таким образом исследуют воздействие изменения цены,
наличия предложений со скидками, количества продавцов и прочих условий. Различные вариации
изменений помогают определить наиболее эффективную модель маркетинговой стратегии для
внедрения в практику. Для такого рода моделирования необходимо использовать большое число
возможных факторов, чтобы снизить риски недостоверности результатов.
4.4.8 Метод визуализации аналитических данных
Для удобства оценки результатов анализа применяют визуализацию данных. Для реализации этого
метода, при условии работы с большими данными, используют виртуальную реальность и «большие
экраны». Основной плюс визуализации в том, что такой формат данных воспринимается лучше, чем
текстовый, ведь до 90 % всей информации человек усваивает с помощью зрения.
Метод визуализации аналитических данных позволяет быстро воспринять и сравнить, например,
уровни продаж в разных регионах, или оценить зависимость объемов продаж от
снижения/увеличения стоимости товара.
4.4.9 Метод смешения и интеграции данных
В подавляющем большинстве случаев Big Data получают из различных источников, соответственно,
данные имеют разнородный формат [12, 13]. Загружать такие данные в одну базу бессмысленно, так как их
параметры не имеют взаимного соотношения. Именно в таких случаях применяют смешение и
интеграцию, то есть приводят все данные к единому виду.
Для использования информации из различных источников применяют следующие методы:
- сведение данных в единый формат посредством конвертации документов, перевода текста в цифры, распознавание текста;
- информацию для одного объекта дополняют данными из разных источников;
- из лишней информации отфильтровывают и удаляют ту, которая недоступна для анализа.
После того как процесс интеграции завершен, следует анализ и обработка данных. В качестве примера метода интеграции и смешения данных можно рассмотреть: магазин, который ведет торговлю в нескольких направлениях — оффлайн-продажи, маркетплейс и одна из соцсетей. Чтобы провести полноценную оценку продаж и спроса, нужно собрать данные: о заказах через маркетплейс, товарные чеки оффлайн-продаж, заказы через соцсеть, остатки товара на складе и так далее.
4.5 Классификация данных
4.5.1 Структурированные данные
Как правило, хранятся в реляционных базах данных. Упорядочивают данные на уровне таблиц — например, Excel. От информации, которую можно анализировать в самом Excel, Big Data отличается большим объемом.
4.5.2 Частично структурированные
Данные не подходят для таблиц, но могут быть иерархически систематизированы. Под такую характеристику подходят текстовые документы или файлы с записями о событиях.
4.5.3 Неструктурированные
Не обладают организованной структурой: аудио- и видеоматериалы, фото и другие изображения.
4.6 Источники данных
4.6.1 Генерируемые людьми социальные данные
Главными источниками социальных данных выступают соцсети, веб [12], GPS-данные о перемещениях [10]. Также специалисты Big Data используют статистические показатели городов и стран: рождаемость, смертность, уровень жизни и любую другую информацию, отражающую показатели жизни людей.
4.6.2 Транзакционная информация
Такой тип информации появляется при любых денежных операциях и взаимодействии с банкоматами: переводы, покупки, поставки.
4.6.3 Машинные данные
Источником машинных данных служат смартфоны, IoT-гаджеты, автомобили и другая техника, датчики, системы слежения и спутники.
5 Проблемы анализа и обработки большого объема данных
Основная проблема обработки большого массива данных лежит на поверхности — это высокие затраты [12]. Здесь
учитываются расходы на закупку, содержание и ремонт оборудования, а также заработанная плата
специалистов, которые компетентны в работе с Big Data.
Следующая проблема связана с большим объемом информации, нуждающейся в обработке. Например, если в
процессе исследования мы получаем не два-три результата, а многочисленное число возможных итогов, то
крайне сложно выбрать именно те, которые будут иметь реальное воздействие на показатели
определенного события.
Еще одна проблема — это приватность больших данных [11]. Конфиденциальность может быть нарушена, так как
все большее количество сервисов, связанное с обслуживанием клиентов, используют данные онлайн.
Соответственно, это увеличивает рост киберпреступлений. Даже обычное хранение персональных данных
клиентов в облаке может быть подвержено утечке. Вопрос сохранности личных данных — одна из важнейших
задач, которую необходимо решать при использовании методик Big Data.
Угроза потери данных. Однократное резервирование не решает вопрос сохранения информации. Для
хранилища необходимо создавать минимум две-три резервные копии. Но с ростом объемов данных
увеличивается проблемность резервирования. Поэтому специалисты заняты поиском максимально
результативного выхода из такой ситуации.
6 Инструменты для обработки больших данных
Один из способов распределенных вычислений — разработанный Google метод параллельной обработки MapReduce [10, 11, 12, 17]. Фреймворк организовывает данные в виде записей. Функции работают независимо и параллельно, что обеспечивает соблюдение принципа горизонтальной масштабируемости. Обработка происходит в три стадии:
- Map [12, 17]. Функцию определяет пользователь, map служит начальной обработке и фильтрации. Функция применима к одной входной записи, она выдает множество пар ключ-значение. Применяется на том же сервере, на котором хранятся данные, что соответствует принципу локальности.
- Shuffle [12, 17]. Вывод map разбирается по «корзинам». Каждая соответствует одному ключу вывода первой стадии, происходит параллельная сортировка. «Корзины» служат входом для третьей стадии.
- Reduce [12, 17]. Каждая «корзина» со значениями попадает на вход функции reduce. Ее задает пользователь и вычисляет финальный результат для каждой «корзины». Множество всех значений функции reduce становится финальным результатом.
Для разработки и выполнения программ, работающих на кластерах любых размеров, используется набор
утилит, библиотек и фреймворк Hadoop [10, 14, 16, 18]. ПО Apache Software Foundation работает с открытым исходным
кодом и служит для хранения, планирования и совместной работы с данными.
Apache Spark [15] — open-source фреймворк, входящий в экосистему Hadoop, используется для кластерных
вычислений. Набор библиотек Apache Spark выполняет вычисления в оперативной памяти, что заметно
ускоряет решение многих задач и подходит для машинного обучения.
NoSQL — тип не реляционных СУБД. Хранение и поиск данных моделируется отличными от табличных
отношений средствами. Для хранения информации не требуется заранее заданная схема данных.
Главное преимущество подобного подхода — любые данные можно быстро помещать и извлекать из
хранилища. Термин расшифровывается как «Not Only SQL» [15].
Все базы данных относятся к «семейству» Amazon:
- DynamoDB — управляемая бессерверная БД на основе пар «ключ-значение», созданная для запуска высокопроизводительных приложений в любом масштабе, подходит для IoT, игровых и рекламных приложений.
- DocumentDB — документная БД, создана для работы в каталогах, пользовательских профилях и системах управления контентом, где каждый документ уникален и изменяется со временем.
- Neptune [13] — управляемый сервис графовых баз данных. Упрощает разработку приложений, работающих с наборами сложно связанных данных. Подходит для работы с рекомендательными сервисами, соцсетями, системами выявления мошенничества.
7 Самые популярные языки программирования для работы с Big Data
7.1 R
Язык используется для обработки данных, сбора статистики и работы с графикой. Загружаемые модули связывают R с GUI-фреймворками и позволяют разрабатывать утилиты анализа с графическим интерфейсом [19]. Графика может быть экспортирована в популярные форматы и использована для презентаций. Статистика отображается в виде графиков и диаграмм.
7.2 Scala
Нативный язык для Apache Spark, используется для анализа данных. Проекты Apache Software Foundation, Spark и Kafka, написаны в основном на Scala.
7.3 Python
Обладает готовыми библиотеками для работы с AI, ML и другими методами статистических вычислений: TensorFlow, PyTorch, SKlearn, Matplotlib, Scipy, Pandas. Для обработки и хранения данных существуют API в большинстве фреймворков: Apache Kafka, Spark, Hadoop.
8 Примеры использования аналитики на основе Big Data: бизнес, IT, медиа
Большие данные используют для разработки IT-продуктов. Например, в Netflix прогнозируют
потребительский спрос с помощью предиктивных моделей для новых функций онлайн-кинотеатра.
Специалисты стриминговой платформы классифицируют ключевые атрибуты популярности фильмов и сериалов,
анализируют коммерческий успех продуктов и фич. На этом построена ключевая особенность подобных
сервисов — рекомендательные системы, предсказывающие интересы пользователей.
В геймдеве используют большие данные для вычисления предпочтений игроков и анализа поведения в
видеоиграх. Подобные исследования помогают совершенствовать игровой опыт и схемы монетизации.
Для любого крупного производства Big Data позволяет анализировать доходы и обратную связь от
заказчиков, детализировать сведения о цепочках производства и логистике. Подобные факторы улучшают
прогноз спроса, сокращают расходы и простои.
Big Data помогает со слабо структурированными данными о запчастях и оборудовании. Записи в журналах и
сведения с датчиков могут быть индикаторами скорой поломки. Если ее вовремя предсказать, это повысит
функциональность, срок работы и эффективность обслуживания техники.
В сфере торговли анализ больших данных дает глубокие знания о моделях поведения клиентов. Аналитика
информации из соцсетей и веб-сайтов улучшает качество сервиса, повышает лояльность и решает проблему
оттока покупателей.
В медицине Big Data поможет с анализом статистики использования лекарств, эффективности
предоставляемых услуг, с организацией работы с пациентами.
В банках используют распределенные вычисления для работы с транзакционной информацией, что полезно
для выявления мошенничества и улучшения работы сервисов.
Госструктуры анализируют большие данные для повышения безопасности граждан и совершенствования
городской инфраструктуры, улучшения работы сфер ЖКХ и общественного транспорта.
Выводы
В заключение следует отметить, что развитие технологий обработки больших данных открывают широкие возможности для повышения эффективности различных сфер человеческой деятельности: медицины, транспортного обслуживания, государственного управления, финансов, производства. Именно это и определяет интенсивность развития данного направления в последние годы.
Список источников
- Бердюкова С.С. Исследование методов анализа тональности текстов для характеристики восприятия обществом новостей из области культуры. [Электронный ресурс]. Режим доступа: https://masters.donntu.ru/2021/fisp/berdiukova/diss/index.htm
- Серёженко А.А. Исследование методов анализа тональности на примере текстов песен. [Электронный ресурс]. Режим доступа: https://masters.donntu.ru/2021/fisp/serozhenko/diss/index.htm
- Лютова Е.И. Исследование методов классификации информации с использованием байесовского классификатора. [Электронный ресурс]. Режим доступа: https://masters.donntu.ru/2020/fknt/lutova/diss/indexru.html
- Пилипенко А.С. Исследование методов и алгоритмов определения тональности естественно-языкового текста. [Электронный ресурс]. Режим доступа: https://masters.donntu.ru/2020/fknt/pilipenko/diss/index.htm
- Гума С.Н. Исследование методов сравнительного анализа текстов на примере рекомендательной системы фильмов. [Электронный ресурс]. Режим доступа: https://masters.donntu.ru/2019/fknt/guma/diss/index.htm
- Власюк Д.А. Исследование методов извлечения знаний из HTML-страниц сети Интернет о спортивных соревнованиях. [Электронный ресурс]. Режим доступа: https://masters.donntu.ru/2018/fknt/vlasiuk/diss/index.htm
- Сторожук Н.О. Исследование методов и алгоритмов определения жанра литературных произведений на основе технологии Text Mining. [Электронный ресурс]. Режим доступа: https://masters.donntu.ru/2018/fknt/storozhuk/diss/index.htm
- Титаренко М.Г. Исследование методов классификации информации о внешнеторговой деятельности государств в рамках информационно-поисковой системы. [Электронный ресурс]. Режим доступа: https://masters.donntu.ru/2018/fknt/titarenko/diss/index.htm
- Полетаев В.А. Исследование методов поиска изображений в графических базах данных. [Электронный ресурс]. Режим доступа: https://masters.donntu.ru/2019/fknt/poletaev/diss/index.htm
-
Анналин Ын, Кеннет Су. Теоретический минимум по Big Data. Всё что нужно знать о больших данных. - СПб.: Питер, 2019 - 208 с.: ил.
[источник] -
Кукьер К., Майер-Шенбергер В. Большие данные. Революция, которая изменит то, как мы живем, работаем и мыслим. / Виктор Майер-Шенбергер, Кеннет Кукьер ; пер. с англ. Инны Гайдюк. — М.: Манн, Иванов и Фербер, 2014. — 240 с.: ил.
[источник] -
Уоррен Дж., Марц Н. Большие данные. Принципы и практика построения масштабируемых систем обработки данных в реальном времени. - М.: Вильямс, 2018 - 368 с.: ил.
[источник] -
Сенько А. Работа с BigData в облаках. Обработка и хранение данных с примерами из Microsoft Azure. - СПб.: Питер, 2019 - 448 с.: ил.
[источник] -
Вайгенд Андреас. BIG DATA. Вся технология в одной книге. - М.: Эксмо, 2021 - 384 с.: ил.
[источник] -
O'Reilly Media. Hadoop: The Definitive Guide: Storage and Analysis at Internet Scale / 4th Edition. - V.: O’Reilly, 2015 - 754 с.: ил.
[источник] -
Зыков Р. Роман с Data Science. Как монетизировать большие данные. - СПб.: Питер, 2022 - 320 с.: ил.
[источник] -
Благирев А. Big data простым языком. - М.: АСТ, 2019. - 256 с.: ил.
[источник] -
Грас Д. Data Science. Наука о данных с нуля: Пер. с англ. - 2-е изд., перераб. и доп. - СПб.: БХВ-Петербурr, 2021. - 416 с.: ил.
[источник] -
Garrett Grolemund, Hadley Wickham. R for Data Science. - Sebastopol, CA : O'Reilly, 2017. - 494 c.: ил.
[источник]