Реферат за темою випускної роботи
Зміст
- Вступ
- 1. Методи інформаційного пошуку в обробки текстів природної мови
- 2. Основні завдання обробки тексту
- 3. Застосування машинного навчання у використанні з роботою тексту
- 4. Застосування в житті машинного навчання
- Висновки
- Перелік посилань
Вступ
У справжні час є необхідність у створенні «Живого стилістичного словника», а також мовні корпусу і принципи стилістичне опис лексики на прикладі певного слова. У теперішній час виникла потреба у створенні «Живого стилістичного словника російської мови». Затребуваність пов'язана з потребою зумовлено змінами у словниковому складі сучасної російської мови, які пов'язані, по-перше, з соціально-економічними змінами в житті сучасного суспільства, по-друге, з переміщенням значного обсягу комунікації в інтернет-простір.
Метою даної роботи є дослідження обробки природної мови — одного з напрямків штучного інтелекту і математичної лінгвістики, яка займається вивченням проблем комп'ютерного аналізу та синтезу природних мов.
Дана мета обсумовна поставленими завданнями:
- визначити критерії поняття обробки природної мови;
- виявити основні завдання обробки природної мови.
1. Методи інформаційного пошуку в обробки текстів естсственного мови
Значне місце в технологіях текстового пошуку займає обробка ЕЯ. Під обробкою ЕЯ (Natural Language Processing, NLP) розуміється вирішення завдань, пов'язаних з розумінням, аналізом, виконанням різних операцій над текстами, а так само їх генерацією [9]. Приклади подібних завдань: класифікація, кластеризація збережених колекцій документів, глибинний аналіз текстів, переклад документів з однієї мови на іншу і т. д. Все різноманіття методів інформаційного пошуку ґрунтуються на обробці та аналізі текстів індексованих документів. Більшість ІПС є системами з передпроцесингом-попередньою обробкою (індексуванням) всіх наявних в системі документів. Винятки становлять метапошукові системи [9]. Перерахуємо основні труднощі, що виникають при обробці текстів на ЕЯ:
- проблема синонімії;
- проблема омонімії;
- стійкі поєднання слів;
- морфологічні варіації.
Проблема синонімії. Одне поняття може бути виражено різними словами. В результаті релевантні документи, в яких використовуються синоніми понять, зазначених користувачем в запиті, можуть Проблема омонімії і явищ «суміжних з омонімією». Граматичні омоніми-різні за значенням слова, але збігаються з написання в окремих граматичних формах. Це можуть битьслова однієї або різних частин мови. Лексичний омоніми-слова однієї частини мови, однакові по звучанню і написанню, але різні за лексичним значення. Стійкі поєднання слів. Словосполучення можуть мати сенс відмінний від сенсу, який мають слова окремо. Морфологічні варіації. У багатьох природних мовах слова мають кілька морфологічних форм, що розрізняються по написанню.
2. Основні завдання обробки мови
Oбробка природної мови-загальний напрямок штучного інтелекту і математичної лінгвістики. Воно вивчає проблеми комп'ютерного аналізу і синтезу природних мов. Стосовно до штучного інтелекту аналіз означає розуміння мови, а синтез — генерацію грамотного тексту. Вирішення цих проблем означатиме створення більш зручної форми взаємодії комп'ютера і людини. Розуміння, розпізнавання природної мови — ключове завдання, оскільки впізнавання і розпізнавання мови живого вимагає колосальних знань мовної системи, мовного ладу, їх особливостей і закономірностей.
Існує 5 основних і найбільш актуальних завдань обробки природної мови.[1,8]
- Одна з найбільш важливих завдань — розпізнавання мови. Під цим процесом мається на увазі процес, що веде до перетворення мовного сигналу людського голосу в цифрову інформацію. Така можливість може бути використана людьми, позбавленими здатності набору тексту за допомогою рук або для спрощення і прискорення цього процесу.
- аналіз тексту-процес вилучення змістовної, високої якості інформації з тексту природною мовою для автоматизації процесу вилучення та аналізу даних.
- інформаційний пошук-процес виявлення інформації в документах, що містяться в доступних системі пошуку базах даних, які відповідають заданому запиту по тематиці.
- Витяг інформації — завдання обробки природної мови, що виконує автоматичне вилучення необхідних даних з джерела інформації, тексту (як правило, неструктурованого).
- Машинний, або автоматичний переклад. Під цим завданням обробки природної мови мається на увазі процес перекладу усних текстів, написаних природною мовою, на інший, теж природний, мова за допомогою електронно-обчислювальних машин в призначених для даного типу завдань комп'ютерних програмах.
3. Застосування машинного навчання у використанні роботи з текстом
Загальне захоплення нейромережевими технологіями і глибинним навчанням не обійшло стороною і комп'ютерну лінгвістику — автоматичну обробку текстів на природній мові. На недавніх конференціях асоціації комп'ютерної лінгвістики ACL, головному науковому форумі в цій області, переважна більшість доповідей було присвячено застосування нейронних мереж для вирішення вже відомих завдань, так і для дослідження нових, які не вирішувалися з допомогою стандартних засобів машинного навчання. Підвищена увага лінгвістів до нейронних мереж обумовлена декількома причинами. Застосування нейронних мереж, по-перше, істотним чином підвищує якість рішення деяких стандартних задач класифікації текстів і послідовностей, по-друге, знижує трудомісткість при роботі безпосередньо з текстами, по-третє, дозволяє вирішувати нові завдання (наприклад, створювати чат-боти). Водночас нейронні мережі не можна вважати повністю самостійним механізмом вирішення лінгвістичних проблем.
Одне з найбільш популярних застосувань нейронних мереж — побудова векторів слів, що належать до сфери дистрибутивної семантики: вважається, що значення слова можна зрозуміти за значенням його контексту, за навколишнім словами. Дійсно, якщо нам незнайоме якесь слово в тексті на відомому мовою, то в більшості випадків можна вгадати його значення. Математичною моделлю значення слова служать вектора слів: рядки у великій матриці "слово-контекст", побудованої по досить великому корпусу текстів. У якості «контекстів» для конкретного слова можуть виступати сусідні слова, слова, що входять з даними в одну синтаксичну або семантичну конструкцію, і т. д. В клітинах такої матриці можуть бути записані частоти (скільки разів слово зустрілося в даному контексті), але частіше використовують коефіцієнт позитивної попарної взаємної інформації (Positive Pointwise Mutual Information, PPMI), що показує, наскільки невипадковим було поява слова в тому чи іншому контексті. Такі матриці цілком успішно можуть бути використані для кластеризації слів або пошуку слів, близьких за змістом до шуканого слова.
4. Застосування машинного навчання в житті
Методи навчання з учителем застосовуються тоді, коли для наявних об'єктів навчальної вибірки ми знаємо так звані відповіді, а для нових об'єктів ми хочемо їх передбачити. Відповіді також називаються залежною змінною. У цьому класі завдань в свою чергу виділяється кілька типів. У першому типі відповідями є значення деякої чисельної величини, як було в нашій історії з кавою: для кожного об'єкта навчальної вибірки ми знали кількість випитої кави, а для нового об'єкта Микити модель це значення передбачала. Цей тип завдань, коли залежна змінна є речовим числом (тобто може приймати будь-які значення на всій числовій прямій), називається задачею регресії. завдання другого типу відповіді належать обмеженому набору можливих категорій (або класів). Продовжимо наші офісні аналогії: уявіть, що офіс-менеджер Михайло закупив два види подарунків для колег до Нового року – футболки та блокноти. Щоб не зіпсувати сюрприз, Михайло хоче побудувати модель, яка передбачала б, який подарунок хоче отримати співробітник, на основі даних з особистих профілів (уважний читач помітить, що в реальності для побудови моделі Михайлу все ж довелося б запитати про бажаний подарунок у частині колег, щоб сформувати навчальну вибірку). Такий тип завдань, коли необхідно відносити об'єкти до однієї з кількох можливих категорій, тобто коли залежна змінна приймає кінцеве число значень, називається задачею класифікації. Приклад з подарунками відноситься до бінарної класифікації: класів всього два – «футболки» і «блокноти»; у іншому випадку, коли класів більше, говорять про многоклассовой класифікації. Мабуть, найактуальніший приклад класифікації – завдання кредитного скорингу. Приймаючи рішення, видати вам кредит чи ні, ваш банк орієнтується на передбачення моделі, натренованого по безлічі ознак визначати, чи здатні ви повернути запитувану суму. Такими ознаками є вік, рівень заробітної плати, різні параметри кредитної історії. Ще один тип навчання з учителем – завдання ранжирування. Вона вирішується, коли ви шукаєте щось в пошуковику на кшталт Google: є безліч документів і необхідно відсортувати їх в порядку їх релевантності (смислової близькості) запитом. Методи навчання без вчителя використовуються, коли ніяких правильних відповідей немає, є тільки об'єкти і їх ознаки, а завдання полягає в тому, щоб визначити структуру безлічі цих об'єктів. До таких відноситься задача кластеризації: є сукупність об'єктів, і необхідно розбити їх на групи так, щоб в одній групі знаходилися об'єкти, схожі один на одного. Це може бути корисно, наприклад, коли є велика колекція текстів і необхідно її якось автоматично структурувати, розділити тексти за темами. Кластеризація може застосовуватися для поділу користувачів сайту інтернет-магазину на сегменти, наприклад, щоб різним групам пропонувати різні товари виходячи з їх інтересів.Інший приклад навчання без учителя – завдання пошуку аномалій, яку ми згадували в минулий раз: є безліч об'єктів, і необхідно виділити в ньому такі, які сильно відрізняються від більшості. Методи пошуку аномалій використовують для виявлення нетипових транзакцій, нетипової поведінки на сайті з метою запобігання шахрайства. Вони також допомагають визначати поломки в різних системах на підставі показників безлічі датчиків. Крім навчання з учителем і без вчителя, існують і більш вишукані типи завдань. Наприклад, в частковому навчанні відповіді відомі тільки для частини об'єктів вибірки.нутрі вищеописаних типів завдань в машинному навчанні існують різні алгоритми. З одним з них ми вже познайомилися: це лінійна регресія-саме її ми застосовували в завданні передбачення кількості кави. Лінійна регресія є одним з найбільш добре вивчених методів статистики і машинного навчання. Вона підходить для опису лінійних залежностей, тобто таких, які можна добре наблизити прямою лінією. Зараз алгоритми машинного навчання можна умовно розділити на традиційні і методи глибинного навчання (це загальна назва для різного виду багатошарових нейронних мереж). Для успішної роботи традиційних алгоритмів дуже важливий етап попередньої обробки даних, як feature engineering (для цього терміна немає конвенційного перекладу на російську мову; грубо його можна перекласти як конструювання ознак). Це процес формування і відбору ознак. Як правило, робота з ознаками – це трудомісткий, времязатратный процес, який вимагає глибокого занурення в предметну область розв'язуваної задачі. Джеремі Говард, один з авторів відомого курсу про глибинне навчання fast.ai, наводить наступний приклад. Команда фахівців зі Стенфорда на чолі з вченим Ендрю Беком займалася дослідженням раку молочної залози. Щоб побудувати модель, здатну передбачати виживе пацієнтка з пухлиною чи ні, їм довелося вивчити величезну кількість знімків біопсій молочної залози. Таким чином вони визначили, які патерни на знімках можуть бути пов'язані зі смертю пацієнтки і сформували сотні складних ознак, таких як зв'язок між сусідніми епітеліальними клітинами. Потім команда програмістів розробила алгоритми для правильного розпізнавання цих ознак зі знімків.Принципова відмінність глибинного навчання в тому, що воно здатне взяти більшу частину роботи з формування ознак на себе, використовуючи тільки однаково представлені вхідні дані без вручну виділених складних ознак. У разі прогнозування смерті від раку молочної залози медичні знімки можна представляти просто у вигляді послідовності яркостей окремих пікселів. Багатошарові нейромережі з кожним шаром здатні об'єднувати пікселі у все більш корисні рівні абстракції. Таким чином вони отримують уявлення про зображення в цілому, а також про його частинах, що впливають на кінцеве передбачення (наприклад, пухлина і її розміри).
Висновки
Задачі обробки текстів виникли практично відразу після появи обчислювальної техніки. Незважаючи на піввікову історію досліджень в галузі штучного інтелекту, накопичений досвід обчислювальної лінгвістики, величезний стрибок у розвитку ІТ і суміжних дисциплін, задовільного вирішення більшості практичних завдань обробки тексту поки не знайдено. Однак ІТ-індустрія зажадала задовільного рішення деяких задач обробки текстів. Так, розвиток сховищ даних робить актуальними завдання отримання інформації та формування коректно побудованих текстових документів. Бурхливий розвиток Internet спричинило за собою створення і накопичення величезних обсягів текстової інформації, що потребує створення засобів повнотекстового пошуку та автоматичної класифікації текстів (зокрема, програмні засоби для боротьби зі спамом), і якщо перше завдання більш або менш задовільно вирішена, то до рішення другої поки ще далеко. Останнім часом, завдяки розвитку систем документообігу, наявності безлічі постійно оновлюваних юридичних довідників, ряду інших факторів, спостерігається накопичення масивів спеціалізованих (але не формалізованих) текстових документів. За аналогією зі структурованою інформацією, коли удосконалення засобів аналізу вилилося в появу сховищ даних, розвиток систем документообігу з часом може вимагати створення повнотекстових сховищ, що дають можливість всебічного аналізу і дослідження неформалізованих текстів на природній мові.
При написанні даного реферату магістерська робота ще не завершена. Остаточне завершення: травень 2019 року. Повний текст роботи та матеріали по темі можуть бути отримані у автора або його керівника після вказаної дати.
Перелік посилань
- Moore E.F. Gedanken-experiments on sequential machines / E.F. Moore // Automata studies, Annals of mathematical studies. – 1956. – vol. 34. – pp. 129-153.
- Гилл А. Введение в теорию конечных автоматов / А. Гилл. – М.: Наука, 1966. – 272 с.
- Миллер Р. Теория переключательных схем / Р. Миллер. – М.: Наука, 1971. – Том 2: Последовательностные схемы и машины. – 304 с.
- Минский М. Вычисления и автоматы / М. Минский. – М.: Мир, 1971. – 364 с.
- Хопкрофт Д. Введение в теорию автоматов, языков и вычислений / Д. Хопкрофт, Р. Мотвани, Д. Ульман. – М.: Издательский дом «Вильямс», 2002. – 528 с.
- Ito M. Algebraic theory of automata and languages / M. Ito. – World Scientific Publishing, 2004. – 199 pp.
- МАШИННОЕ ОБУЧЕНИЕ В ЗАДАЧАХ ОБРАБОТКИ ЕСТЕСТВЕННОГО ЯЗЫКА: ОБЗОР СОВРЕМЕННОГО СОСТОЯНИЯ ИССЛЕДОВАНИЙ-Режим доступа:https://cyberleninka.ru..
- Уилкинсон Б. Основы проектирования цифровых схем / Б. Уилкинсон. – М.: Издательский дом «Вильямс», 2004. – 320 с.
- Современные методы обработки естественного языка - Режим доступа:https://cyberleninka.ru..
- Breeding K. Digital design fundamentals / K. Breeding. – Prentice Hall, 1992. – 446 pp.
- 5 методов обработки естественного языка, которые стремительно меняют мир вокруг нас. Режим доступа:https://neurohive.io....
- Ясницкий, Л. Н. Введение в искусственный интеллект / Л. Н. Ясницкий. — М.: Издат. центр Академия, 2005. — 176 с.
- Как решить 90% задач NLP: пошаговое руководство по обработке естественного языка — Режим доступа:https://habr.com..
- Обработка естественного языка на Python — Режим доступа: https://proglib.io/p/fun-nlp/
- Как решить проблему машинного понимания естественного языка — Режим доступа: https://habr.com/post/271321/
- Современные методы обработки естественного языка - Режим доступа:https://periodicals.karazin.ua....