Реферат – Баєв Дмитро Эдуардович – Класифікація текстів на сайтах на підставі предметної галузі

При написанні цього реферату магістерська робота ще не завершена. Остаточне завершення: червень 2022 року. Повний текст роботи, а також матеріали на тему можуть бути отримані у автора або його керівника після зазначеної дати.

Реферат на тему випускної роботи

Зміст

1 Актуальність теми
2 Цілі та завдання дослідження, плановані результати
3 Огляд дослідження та розробок
3.1 Огляд міжнародних джерел
3.2 Огляд національних джерел
3.3 Огляд локальних джерел
4 Теорія Big Data
4.1 Критерії інформації, що визначають приналежність до Big Data
4.2 Інструментарій, що дозволяє зберігати та обробляти дані в Data Lake
4.3 Три основних принципи роботи з великими даними
4.3.1 Горизонтальна адаптивність
4.3.2 Стабільність у роботі при відмовах
4.3.3 Концентрація даних
4.4 Дев'ять основних методів обробки великих даних
4.4.1 Машинне навчання
4.4.2 Нейросітка
4.4.3 Технологія Data Mining
4.4.4 Стратегія краудсорсингу
4.4.5 Метод передиктивної аналітики
4.4.6 Принцип статистичного аналізу
4.4.7 Технологія імітаційного моделювання
4.4.8 Метод візуалізації аналітичних даних
4.4.9 Метод змішування та інтеграції даних
4.5 Класифікація даних
4.5.1 Структуровані дані
4.5.2 Частково структуровані
4.5.3 Неструктуровані
4.6 Джерела даних
4.6.1 Соціальні дані, що генеруються людьми
4.6.2 Транзакційна інформація
4.6.3 Машинні дані
5 Проблеми аналізу та обробки великого обсягу даних
6 Інструменти для обробки великих даних
7 Найпопулярніші мови програмування для роботи з Big Data
7.1 R
7.2 Scala
7.3 Python
8 Приклади використання аналітики на основі Big Data: бізнес, IT, медіа
Висновки
Список джерел

1 Актуальність теми

Класифікація текстів є технологією Data Mining, яка у свою чергу вважається одним з дев'яти основних методів обробки великих даних (тобто Big Data). Big Data – цим терміном визначають масиви інформації, які неможливо обробити чи проаналізувати за допомогою традиційних методів із використанням людської праці та настільних комп'ютерів. Особливість Big Data ще й у тому, що масив даних з часом продовжує експоненційно зростати, тому для оперативного аналізу зібраних матеріалів потрібні обчислювальні потужності суперкомп'ютерів. Відповідно, для обробки Big Data необхідні економічні, інноваційні методи обробки інформації та надання висновків.
Питання обробки великої текстової інформації, зокрема визначення тональності текстових документів, класифікації виходячи з якихось параметрів, є дуже актуальними протягом останніх кілька років. Про це можна судити тільки виходячи з головних джерел даних для Big Data, як приклад, основні джерела:

iнтернет речей (IoT), а також підключені пристрої;
соціальні мережі, блоги та ЗМІ;
дані компаній: транзакції, замовлення товарів та послуг, поїздки на таксі та каршерингу, профілі клієнтів;
показання приладів: метеорологічні станції, вимірювачі складу повітря та водойм, дані з супутників;
статистика міст і держав: дані про переміщення, народжуваність та смертність;
медичні дані: аналізи, захворювання, діагностичні знімки.

2 Цілі та завдання дослідження, плановані результати

Метою даної є програмна реалізація однієї із задачі Data Mining - класифікація текстів на основі предметної області.
Виходячи з мети дослідження, були поставлені такі завдання, пов'язані з обробкою великих обсягів інформації:

дослідити основні питання, що стосуються Big Data та Data Mining зокрема;
вивчити інструментарій, застосовуваний обробки великих даних (СУБД, мови програмування, фреймворки);
розглянути приклади використання та реалізації алгоритмів Big Data та Data Mining;
програмно реалізувати одне із алгоритмів Data Mining - класифікація текстів.

Об'єкт дослідження – технологія Data Mining – одна з дев'яти основних методів обробки великих даних.
Предмет дослідження – класифікація текстів.

3 Огляд дослідження та розробок

Досліджувана область популярна у міжнародних, а й у національних наукових співтовариствах.

3.1 Огляд міжнародних джерел

Питаннями програмування та розробки програмних продуктів у міжнародному просторі, зокрема, англомовних джерел, займається видавництво O`Reilly. Видавництво приділяє пильну увагу питанням розуміння досліджуваного матеріалу - яку б галузь або область розробки вони не вибрали б, видавництво O`Reilly намагається в першу чергу дохідливо піднести інформацію у своїх статтях/книгах/журналах, виходячи з чого дане видавництво практично монополізувало надання інформації в маси. .
O'Reilly Media випускає дуже багато друкованих носіїв інформації, пов'язаних із програмуванням та розробкою, проте в рамках досліджуваної теми про питання обробки даних можна виділити такі книги, які вважаються еталоними у міжнародному просторі: "Data Science. Наука про дані з нуля", " Fundamentals of data engineering", а також "Generative Deep Learning".
На англомовних міжнародних видавництвах також є добрі підручники, які розкривають деякі нюанси, опущені іншими авторами.

3.2 Огляд національних джерел

Що стосується національних інтересів у галузі обробки великих даних, то тут вся література є перекладом російською мовою англомовних джерел, тому вивчення алгоритмів Big Data буде вважатися затребуваним у найближчі 5 років. Вся інформація щодо дослідження Big Data зводиться до статей у мережі Інтернет від невідомих авторів. Аналогічна ситуація простежується й у науковому просторі Російської Федерації - всі статті є в тій чи іншій формі перекладом англомовних джерел та досліджень.

3.3 Огляд локальних джерел

У Донецькому національному технічному університеті на порталі магістрів вдалося знайти кілька схожих на тематику робіт магістрів.

Студенткою ДонНТУ, Бердюковою Світланою Сергіївною було проведено дослідження методів аналізу тональності текстів для характеристики сприйняття суспільством новин із галузі культури [1]. В даному дослідженні вона розглянула поняття інтелектуального аналізу текстів (Text Mining), аналізу тональності (Sentiment Analysis), а також розглянуто питання класифікації документів.

Серьоженко Ганна Олександрівна також проводила дослідження щодо обробки великих даних, свої результати вона зафіксувала в роботі Дослідження методів аналізу тональності на прикладі текстів пісень [2]. Її робота була заснована на понятті Text Mining, з поглибленим аналізом роботи музичних служб. Дане дослідження спиралося на актуальність аналізу пісень, які слухає користувач, підлаштовуючи під них плейлисти з тим настроєм пісень, які користувачі слухають найчастіше.

Лютова Катерина Ігорівна займалася дослідженням методів класифікації інформації з використанням класифікатора Байєса [3]. Її дослідження зумовлено швидким зростанням популярності електронних засобів комунікації, у тому числі електронної пошти, а також низької вартості їх використання, що призводить до потоку несанкціонованих масових розсилок, що збільшується. Для вирішення проблеми несанкціонованих розсилок Катерина розглядала класифікацію на основі методу Байєса, що базується на правилі, що одні слова зустрічаються частіше в спамі, а інші в звичайних листах - даний алгоритм неефективний, якщо таке припущення неправильне.

Пилипенко Артем Сергійович розглядав питання щодо дослідження методів та алгоритмів визначення тональності природно-мовного тексту [4]. Дослідження Артем розглядав питання визначення тональності, т.к. далеко не всі засоби Text Mining вміють визначати тональність тексту одночасно з іншими характеристиками користувача.

Гума Світлана Миколаївна займалася дослідженням методів порівняльного аналізу текстів з прикладу рекомендаційної системи фільмів [5]. Для експериментальної оцінки отриманих теоретичних результатів та формування фундаменту подальших досліджень, як практичні результати Світлана планувала отримати розроблену кросплатформенну, налаштовану та функціональну рекомендаційну систему.

Студентом ДонНТУ, Власюком Дмитром Олександровичем проведено дослідження методів отримання знань з HTML-сторінок мережі Інтернет про спортивні змагання [6]. Також Дмитро розглянув питання попередньої обробки інформації, автоматичного збору та обробки інформації.

Сторожук Наталія Олегівна підготувала практичне дослідження методів та алгоритмів визначення жанру літературних творів на основі технології Text Mining [7], у ході якого розроблена та реалізована система визначення жанру літературного твору. Принагідно Наталія розглянула завдання ефективної автоматизованої обробки текстів.

Титаренко Михайло Геннадійович досліджував методи класифікації інформації про зовнішньоторговельну діяльність держав у рамках інформаційно-пошукової системи [8]. Також Михайло розглянув проблему універсальної автоматичної класифікації, для вирішення якої запропонував кілька досліджень та реалізацій спеціалізованих алгоритмів.

Студент ДонНТУ, Полєтаєв Владислав Анатолійович займався дослідженням методів пошуку зображень у графічних базах даних [9]. Дане дослідження не стосується технології Text/Data Mining, проте безпосередньо пов'язане з вирішенням однієї з основних проблем Big Data, якщо розглядати питання отримання даних з хмарних сховищ. Сам же Владислав наголосив на своїй роботі: Пошук у великому масиві інформації — складне завдання, що вимагає розробки ефективних алгоритмів індексування та пошуку, разом із створенням продуктивних програмних систем, що реалізують ці алгоритми.

Запитаннями Big Data займається мій науковий керівник – Коломойцева Ірина Олександрівна, яка протягом останніх років вводить у студентські маси інтерес до теми Big Data.

4 Теорія Big Data

До великих даних відносять інформацію, чий обсяг може бути понад сотню терабайтів та петабайтів. Причому така інформація регулярно оновлюється. Як приклади можна навести дані, що надходять з контакт-центрів, медіа соціальних мереж, дані про торги фондових бірж [10, 11, 12] тощо. Також в поняття «великі дані» іноді включають способи та методики їх обробки.
Якщо ж говорити про термінологію, то «Big Data» має на увазі не лише дані як такі, а й принципи обробки великих даних, можливість їх подальшого використання, порядок виявлення конкретного інформаційного блоку у великих масивах. Питання, пов'язані з такими процесами, не втрачають своєї актуальності. Їхнє рішення має важливий характер для тих систем, які багато років генерували та накопичували різну інформацію [11].

4.1 Критерії інформації, що визначають приналежність до Big Data

Існують критерії інформації, визначені у 2001 році Meta Group, які дозволяють оцінити, чи відповідають дані [11] поняття Big Data чи ні:

Volume (обсяг) — приблизно 1 Петабайт і вище;
Velocity (швидкість) — генерація, надходження та обробка даних з високою швидкістю;
Variety (різноманітність) [13] — різнорідність даних, різні формати та можлива відсутність структурованості;
Variability (мінливість) — різнопланова інтенсивність надходження, яка впливає на вибір методик обробки;
Value (значимість) — різниця в рівні складності одержуваної інформації.

Так, дані, що надходять із повідомлень у чат-боті інтернет-магазинів, мають один рівень складності. А дані, які видають машини, що відстежують сейсмічну активність планети, — зовсім інший рівень.
Найчастіше отримані необроблені дані зберігаються у так званому «озері даних» — Data Lake [10, 11, 12, 14, 15, 17]. Формат та рівень структуризації інформації при цьому може бути різноманітним [15]:

структурні (дані у вигляді рядків та колонок);
частково структуровані (логи, CSV, XML, JSON-файли);
неструктуровані (pdf-формат, формат документів тощо);
бінарні (формат відео, аудіо та зображення).

4.2 Інструментарій, що дозволяє зберігати та обробляти дані в Data Lake

DataLake [10, 11, 12, 14, 15, 17] - крім функції зберігання, включає і програмну платформу (наприклад, таку як Hadoop), а також визначає джерела і методи поповнення даних, кластери вузлів зберігання та обробки інформації, управління, інструментів навчання. DataLake за потреби масштабується до багатьох сотень вузлів без припинення роботи кластера.
Місце розташування «озера», як правило, знаходиться у хмарі. Так, близько 72% компаній при роботі з Big Data віддають перевагу хмарним власним серверам. Це з тим, що обробка великих баз даних вимагає серйозні обчислювальні потужності, тоді як хмара значно знижує вартість робіт. Саме тому компанії обирають хмарні сховища. Хмара не має обмежень за обсягом даних, що зберігаються в ньому. Отже, воно вигідне з погляду економії коштів тих компаній, навантаження яких швидко зростає, і навіть бізнесу, що з тестами різних гіпотез.
Hadoop [10, 14, 16, 18] — пакет утиліт та бібліотек, що використовується для побудови систем, що обробляють, зберігають та аналізують великі масиви нереляційних даних: дані датчиків, інтернет-трафіку, об'єктів JSON, файлів журналів, зображень та повідомлень у соцмережах.
HPPC (DAS) – суперкомп'ютер, здатний обробляти дані в режимі реального часу або в пакетному стані. Реалізовано LexisNexis Risk Solutions.
Storm - фреймворк Big Data, створений для роботи з інформацією в режимі реального часу. Розроблено мовою програмування Clojure.

4.3 Три основних принципи роботи з великими даними

4.3.1 Горизонтальна адаптивність

Кількість даних необмежена, тому обробна система повинна мати здатність до розширення: при зростанні обсягів даних має пропорційно збільшуватися кількість обладнання для підтримки працездатності всієї системи.

4.3.2 Стабільність у роботі при відмовах

Горизонтальна адаптивність передбачає наявність великої кількості машин у комп'ютерному вузлі. Наприклад, кластер Hadoop налічує понад 40 000 машин [13]. Само собою, що періодично обладнання, зношуючись, буде схильне до поломок. Системи обробки великих даних повинні функціонувати так, щоб безболісно переживати можливі збої.

4.3.3 Концентрація даних

У масштабних системах дані розподіляються за великою кількістю обладнання. Припустимо, що розташування даних — один сервер, які обробка відбувається на іншому сервері. У цьому випадку витрати на передачу інформації з одного сервера на інший можуть перевищувати витрати на процес обробки [13]. Відповідно, щоб цього уникнути, необхідно концентрувати дані на тій же апаратурі, на якій відбувається обробка.

4.4 Дев'ять основних методів обробки великих даних

4.4.1 Машинне навчання

Цей метод аналіз даних містить у основі здатність аналітичної системи самостійно навчатися у процесі розв'язання різних завдань. Тобто, програмі задається алгоритм, який дозволяє їй вчитися виявляти певні закономірності. Сфери застосування такого методу досить різноманітні [12, 15], наприклад, за допомогою машинного навчання проводяться маркетингові дослідження, соціальні мережі пропонують добірку постів, відбувається розробка медичних програм.

4.4.2 Нейросітка

Нейросеть використовують для розпізнавання візуальних образів [10, 12, 15]. Нейронні мережі — це математичні моделі, які відображаються програмним кодом. Такі моделі працюють за принципом нейронної мережі живої істоти: отримання інформації – її обробка та передача – видача результату.
Нейросітка здатна виконати роботу за кілька десятків людей. Її використовують для розваг, прогнозування, забезпечення безпеки, медичної діагностики тощо (у різних соціальних та професійних галузях).

4.4.3 Технологія Data Mining

Математик Григорій П'ятецький-Шапіро запровадив цей термін у 1989 р. Метод має на увазі виявлення певних закономірностей у сирих даних за допомогою інтелектуального аналізу [11]. Data Mining використовують для:

визначення нетипових даних у загальному потоці інформації за допомогою аналізу відхилень;
пошуку ідентичної інформації у різних джерелах з допомогою асоціацій;
визначення факторів впливу на заданий параметр через регресійний аналіз;
розподілу даних по групам зі схожими параметрами (класифікація даних);
поділу записів по заздалегідь сформованим класам (кластеризація).

4.4.4 Стратегія краудсорсингу

У деяких ситуаціях, коли немає економічної вигоди у розробці системи ІІ (штучного інтелекту), для виконання разових робіт залучають велику кількість людей. Вони можуть вирішити ті завдання, з якими комп'ютер не в змозі впоратися поодинці. Прикладом може бути збирання та обробка даних соціологічного опитування. Така інформація може знаходитися в неоцифрованому вигляді, в ній можуть бути допущені помилки та скорочення. Такий формат буде зрозумілий людині, і він зможе організувати дані у той вид, який буде читаний алгоритмами програм.

4.4.5 Метод передиктивної аналітики

Інакше кажучи, методика прогнозування. Маючи достатній обсяг відповідної інформації, можна скласти прогноз та відповісти на запитання «Як розвиватимуться події?». Принцип предиктивної аналітики такий: спочатку слід досліджувати дані за минулий період; виявити закономірності чи чинники, що стали причиною результату; далі за допомогою нейромережі чи математичних обчислень створити модель, яка зможе проводити прогнозування.
Методика прогнозів використовують у різних сферах [10, 12]. Наприклад, предиктивна аналітика дозволяє виявити та запобігти шахрайським схемам у кредитуванні або страхуванні. У медицині прогнозний аналіз на основі даних про пацієнта допомагає визначити його схильність до будь-яких захворювань.

4.4.6 Принцип статистичного аналізу

Суть методу полягає у зборі даних, їх вивченні на основі конкретних параметрів та отриманні результату, вираженого, як правило, у відсотках. Цей метод має слабку ланку — неточність даних у невеликих вибірках. Тож отримання максимально точних результатів необхідно збирати великий обсяг вихідних даних [10, 15].
Статистичний аналіз часто використовують як частину іншого способу обробки великих даних Big Data [10, 12, 15], наприклад, у машинному навчанні чи передиктивній аналітиці.
Для отримання статистичних показників використовують [19]:

кореляційний аналіз визначення взаємозалежності показників;
відсоткове співвідношення підсумків аналізу;
динамічні ряди з метою оцінки інтенсивності змін певних умов у конкретний інтервал часу;
визначення середнього показника.

4.4.7 Технологія імітаційного моделювання

Імітаційне моделювання відрізняється від методики прогнозування тим, що беруться до уваги фактори, чий вплив на результат важко відстежити в реальних умовах - вибудовуються моделі з урахуванням гіпотетичних, а не реальних даних, і потім ці моделі досліджують у віртуальній реальності [10, 12, 15].
Метод імітаційних моделей застосовують для аналізу впливу різних обставин на підсумковий показник. Наприклад, у сфері продажів таким чином досліджують вплив зміни ціни, наявності пропозицій зі знижками, кількості продавців та інших умов. Різні варіації змін допомагають визначити найефективнішу модель маркетингової стратегії запровадження практику. Для такого роду моделювання необхідно використовувати велику кількість можливих факторів, щоб знизити ризики недостовірності результатів.

4.4.8 Метод візуалізації аналітичних даних

Для зручності оцінки результатів аналізу застосовують візуалізацію даних. Для реалізації цього методу, за умови роботи з великими даними, використовують віртуальну реальність та «великі екрани». Основний плюс візуалізації в тому, що такий формат даних сприймається краще, ніж текстовий, адже до 90% усієї інформації людина засвоює за допомогою зору.
Метод візуалізації аналітичних даних дозволяє швидко сприйняти та порівняти, наприклад, рівні продажів у різних регіонах, або оцінити залежність обсягів продажів від зниження/збільшення вартості товару.

4.4.9 Метод змішування та інтеграції даних

У переважній більшості випадків Big Data отримують з різних джерел, відповідно дані мають різнорідний формат [12, 13]. Завантажувати такі дані одну базу безглуздо, оскільки їх параметри немає взаємного співвідношення. Саме в таких випадках застосовують змішання та інтеграцію, тобто наводять усі дані до єдиного вигляду.
Для використання інформації з різних джерел застосовують такі методи:

зведення даних у єдиний формат у вигляді конвертації документів, перекладу тексту цифри, розпізнавання тексту;
інформацію для одного об'єкта доповнюють даними з різних джерел;
із зайвої інформації відфільтровують і видаляють ту, яка недоступна для аналізу.

Після того як процес інтеграції завершено, слідує аналіз та обробка даних. Як приклад методу інтеграції та змішування даних можна розглянути: магазин, який торгує в кількох напрямках — оффлайн-продаж, маркетплейс і одна з соцмереж. Щоб провести повноцінну оцінку продажу та попиту, потрібно зібрати дані: про замовлення через маркетплейс, товарні чеки офлайн-продажів, замовлення через соцмережу, залишки товару на складі тощо.

4.5 Класифікація даних

4.5.1 Структуровані дані

Як правило, зберігаються у реляційних базах даних. Упорядковують дані лише на рівні таблиць — наприклад, Excel. Від інформації, яку можна аналізувати в Excel, Big Data відрізняється великим обсягом.

4.5.2 Частково структуровані

Дані не підходять для таблиць, але може бути ієрархічно систематизовані. Під таку характеристику підходять текстові документи чи файли із записами про події.

4.5.3 Неструктуровані

Не мають організованої структури: аудіо- та відеоматеріали, фото та інші зображення.

4.6 Джерела даних

4.6.1 Соціальні дані, що генеруються людьми

Головними джерелами соціальних даних виступають соцмережі, Інтернет [12], GPS-дані про переміщення [10]. Також фахівці Big Data використовують статистичні показники міст та країн: народжуваність, смертність, рівень життя та будь-яку іншу інформацію, що відображає показники життя людей.

4.6.2 Транзакційна інформація

Такий тип інформації з'являється за будь-яких грошових операцій та взаємодії з банкоматами: перекази, купівлі, поставки.

4.6.3 Машинні дані

Джерелом машинних даних служать смартфони, IoT-гаджети, автомобілі та інша техніка, датчики, системи стеження та супутники.

5 Проблеми аналізу та обробки великого обсягу даних

Основна проблема обробки великого масиву даних лежить на поверхні – це високі витрати [12]. Тут враховуються витрати на закупівлю, утримання та ремонт обладнання, а також заробітну плату фахівців, які компетентні у роботі з Big Data.
Наступна проблема пов'язана з великим обсягом інформації, що потребує обробки. Наприклад, якщо в процесі дослідження ми отримуємо не два-три результати, а чисельну кількість можливих підсумків, то вкрай складно вибрати саме ті, які матимуть реальний вплив на показники певної події.
Ще одна проблема – це приватність великих даних [11]. Конфіденційність може бути порушена, оскільки все більше сервісів, пов'язане з обслуговуванням клієнтів, використовують дані онлайн. Відповідно, це збільшує зростання кіберзлочинів. Навіть звичайне зберігання персональних даних клієнтів у хмарі може бути схильне до витоку. Питання безпеки індивідуальних даних — одне з найважливіших завдань, яку потрібно вирішувати під час використання методик Big Data.
Загроза втрат даних. Одноразове резервування не вирішує питання збереження інформації. Для сховища необхідно створювати щонайменше дві-три резервні копії. Але зі зростанням обсягів даних збільшується проблемність резервування. Тому фахівці зайняті пошуком максимально результативного виходу із такої ситуації.

6 Інструменти для обробки великих даних

Один із способів розподілених обчислень – розроблений Google метод паралельної обробки MapReduce [10, 11, 12, 17]. Фреймворк організовує дані як записів. Функції працюють незалежно та паралельно, що забезпечує дотримання принципу горизонтальної масштабованості. Обробка відбувається у три стадії:

Map [12, 17]. Функцію визначає користувач, map служить початковій обробці та фільтрації. Функція застосовна до одного вхідного запису, вона видає безліч пар ключ-значення. Застосовується тому ж сервері, де зберігаються дані, що відповідає принципу локальності.
Shuffle [12, 17]. Висновок map розбирається по «кошах». Кожна відповідає одному ключу виведення першої стадії відбувається паралельне сортування. «Кошики» є входом для третьої стадії.
Reduce [12, 17]. Кожен "кошик" зі значеннями потрапляє на вхід функції reduce. Її задає користувач і обчислює фінальний результат для кожного «кошика». Безліч всіх значень функції reduce стає фінальним результатом.

Для розробки та виконання програм, що працюють на кластерах будь-яких розмірів, використовується набір утиліт, бібліотек та фреймворк Hadoop [10, 14, 16, 18]. ПЗ Apache Software Foundation працює з відкритим вихідним кодом і служить для зберігання, планування та спільної роботи з даними.
Apache Spark [15] - open-source фреймворк, що входить до екосистеми Hadoop, використовується для кластерних обчислень. Набір бібліотек Apache Spark виконує обчислення в оперативній пам'яті, що помітно прискорює вирішення багатьох завдань та підходить для машинного навчання.
NoSQL – тип нереляційних СУБД. Зберігання та пошук даних моделюється відмінними від табличних відносин засобами. Для зберігання інформації не вимагається заздалегідь задана схема даних. Головна перевага подібного підходу - будь-які дані можна швидко поміщати та витягувати зі сховища. Термін розшифровується як "Not Only SQL" [15].
Усі бази даних відносяться до «родини» Amazon:

DynamoDB - керована безсерверна БД на основі пар "ключ-значення", створена для запуску високопродуктивних додатків у будь-якому масштабі, підходить для IoT, ігрових та рекламних додатків.
DocumentDB - документна БД, створена для роботи в каталогах, профілях і системах управління контентом, де кожен документ унікальний і змінюється з часом.
Neptune [13] - керований сервіс графових баз даних. Спрощує розробку додатків, які працюють із наборами складнопов'язаних даних. Підходить до роботи з рекомендаційними сервісами, соцмережами, системами виявлення шахрайства.

7 Найпопулярніші мови програмування для роботи з Big Data

7.1 R

Мова використовується для обробки даних, збору статистики та роботи з графікою. Завантажувані модулі зв'язують R з GUI-фреймворками і дозволяють розробляти утиліти аналізу з графічним інтерфейсом [19]. Графіка може бути експортована до популярних форматів та використана для презентацій. Статистика відображається у вигляді графіків та діаграм.

7.2 Scala

Нативна мова для Apache Spark використовується для аналізу даних. Проекти Apache Software Foundation, Spark та Kafka, написані в основному на Scala.

7.3 Python

Має готові бібліотеки для роботи з AI, ML та іншими методами статистичних обчислень: TensorFlow, PyTorch, SKlearn, Matplotlib, Scipy, Pandas. Для обробки та зберігання даних існують API у більшості фреймворків: Apache Kafka, Spark, Hadoop.

8 Приклади використання аналітики на основі Big Data: бізнес, IT, медіа

Великі дані використовують із розробки IT-продуктов. Наприклад, Netflix прогнозують споживчий попит за допомогою передиктивних моделей для нових функцій онлайн-кінотеатру. Фахівці стрімінгової платформи класифікують ключові атрибути популярності фільмів та серіалів, аналізують комерційний успіх продуктів та фіч. На цьому побудовано ключову особливість подібних сервісів - рекомендаційні системи, що передбачають інтереси користувачів.
У геймдеві використовують великі дані для обчислення переваг гравців та аналізу поведінки у відеоіграх. Подібні дослідження допомагають удосконалювати ігровий досвід та схеми монетизації.
Для будь-якого великого виробництва Big Data дозволяє аналізувати доходи та зворотний зв'язок від замовників, деталізувати відомості про ланцюжки виробництва та логістику. Подібні фактори покращують прогноз попиту, скорочують витрати та простої.
Big Data допомагає зі слабоструктурованими даними про запчастини та обладнання. Записи в журналах і дані датчиків можуть бути індикаторами швидкої поломки. Якщо її вчасно передбачити, це підвищить функціональність, термін роботи та ефективність обслуговування техніки.
У сфері торгівлі аналіз великих даних дає глибокі знання моделі поведінки клієнтів. Аналітика інформації із соцмереж та веб-сайтів покращує якість сервісу, підвищує лояльність та вирішує проблему відтоку покупців.
У медицині Big Data допоможе з аналізом статистики використання ліків, ефективності послуг, що надаються, з організацією роботи з пацієнтами.
У банках використовують розподілені обчислення для роботи з транзакційною інформацією, що корисно для виявлення шахрайства та покращення роботи сервісів.
Держструктури аналізують великі дані для підвищення безпеки громадян та вдосконалення міської інфраструктури, покращення роботи сфер ЖКГ та громадського транспорту.

Висновки

На закінчення слід зазначити, що розвиток технологій обробки великих даних відкривають широкі можливості підвищення ефективності різних сфер людської діяльності: медицини, транспортного обслуговування, державного управління, фінансів, виробництва. Саме це визначає інтенсивність розвитку цього напряму останніми роками.

Список джерел

Бердюкова С.С. Дослідження методів аналізу тональності текстів для характеристики сприйняття суспільством новин з галузі культури. [Електронний ресурс]. Режим доступу: https://masters.donntu.ru/2021/fisp/berdiukova/diss/index.htm
Серьоженко О.О. Дослідження методів аналізу тональності з прикладу текстів пісень. [Електронний ресурс]. Режим доступу: https://masters.donntu.ru/2021/fisp/serozhenko/diss/index.htm
Лютова Є.І. Дослідження методів класифікації інформації з використанням байєсівського класифікатора. [Електронний ресурс]. Режим доступу: https://masters.donntu.ru/2020/fknt/lutova/diss/indexru.html
Пилипенко О.С. Дослідження методів та алгоритмів визначення тональності природно-мовного тексту. [Електронний ресурс]. Режим доступу: https://masters.donntu.ru/2020/fknt/pilipenko/diss/index.htm
Гума С.М. Дослідження методів порівняльного аналізу текстів з прикладу рекомендаційної системи фільмів. [Електронний ресурс]. Режим доступу: https://masters.donntu.ru/2019/fknt/guma/diss/index.htm
Власюк Д.О. Дослідження методів отримання знань з HTML-сторінок мережі Інтернет про спортивні змагання. [Електронний ресурс]. Режим доступу: https://masters.donntu.ru/2018/fknt/vlasiuk/diss/index.htm
Сторожук Н.О. Дослідження методів та алгоритмів визначення жанру літературних творів на основі технології Text Mining. [Електронний ресурс]. Режим доступу: https://masters.donntu.ru/2018/fknt/storozhuk/diss/index.htm
Титаренко М.Г. Дослідження методів класифікації інформації про зовнішньоторговельну діяльність держав у рамках інформаційно-пошукової системи. [Електронний ресурс]. Режим доступу: https://masters.donntu.ru/2018/fknt/titarenko/diss/index.htm
Полєтаєв В.А. Дослідження методів пошуку зображень у графічних базах даних. [Електронний ресурс]. Режим доступу: https://masters.donntu.ru/2019/fknt/poletaev/diss/index.htm
Анналин Ын, Кеннет Су. Теоретический минимум по Big Data. Всё что нужно знать о больших данных. - СПб.: Питер, 2019 - 208 с.: ил.
[источник]
Кукьер К., Майер-Шенбергер В. Большие данные. Революция, которая изменит то, как мы живем, работаем и мыслим. / Виктор Майер-Шенбергер, Кеннет Кукьер ; пер. с англ. Инны Гайдюк. — М.: Манн, Иванов и Фербер, 2014. — 240 с.: ил.
[источник]
Уоррен Дж., Марц Н. Большие данные. Принципы и практика построения масштабируемых систем обработки данных в реальном времени. - М.: Вильямс, 2018 - 368 с.: ил.
[источник]
Сенько А. Работа с BigData в облаках. Обработка и хранение данных с примерами из Microsoft Azure. - СПб.: Питер, 2019 - 448 с.: ил.
[источник]
Вайгенд Андреас. BIG DATA. Вся технология в одной книге. - М.: Эксмо, 2021 - 384 с.: ил.
[источник]
O'Reilly Media. Hadoop: The Definitive Guide: Storage and Analysis at Internet Scale / 4th Edition. - V.: O’Reilly, 2015 - 754 с.: ил.
[источник]
Зыков Р. Роман с Data Science. Как монетизировать большие данные. - СПб.: Питер, 2022 - 320 с.: ил.
[источник]
Благирев А. Big data простым языком. - М.: АСТ, 2019. - 256 с.: ил.
[источник]
Грас Д. Data Science. Наука о данных с нуля: Пер. с англ. - 2-е изд., перераб. и доп. - СПб.: БХВ-Петербурr, 2021. - 416 с.: ил.
[источник]
Garrett Grolemund, Hadley Wickham. R for Data Science. - Sebastopol, CA : O'Reilly, 2017. - 494 c.: ил.
[источник]