Русский   English
ДонНТУ   Портал магістрів

Реферат за темою випускної роботи

Зміст

Вступ

Особлива роль мовознавства у вирішенні практичних проблем і потреб суспільства визначається самою сутністю природної людської мови, що є унікальним засобом зберігання та передачі інформації. Виявлення формальних структур природної мови (ПМ), формалізація мови в цілому, побудова коБСтруктивної теорії та комп'ютерної моделі мови є пріоритетними напрямами інформатики протягом останніх десятиліть.

Здача інтелектуальної обробки текстів на природній мові вперше з'явилося на рубежі 60‐х – 70‐х рр. ХХ ст. Поява ЕОМ, виникнення теорії Н. Хомського і генеративної моделі мови привело до тісної взаємодії між лінгвістикою і комп'ютерними науками, до зародження комп'ютерної лінгвістики. Її завдання - розробка обчислювальних алгоритмів і програм на основі формальних мовних моделей, створених в рамках математичної лінгвістики.

Найбільші можливості й високу якість аналізу текстів можна отримати, провівши його повний лінгвістичний аналіз. Лінгвістичний процесор (ЛП) системи, що підтримує повний аналіз ПМ‐тексту, містить 3 основних компоненти, відповідні рівням мови: морфологічному, синтаксичному і семантичному. Вхід одного компонента аналізу є виходом іншого. Морфологічний компонент будує морфологічну інтерпретацію слів вхідного тексту; синтаксичний – синтаксичну структуру речення; семантичний – семантичний граф тексту.

Виділення в тексті слів, пов'язаних між собою за змістом - невід'ємний етап витягання знань з ПМ‐текстів. Без якісного синтаксичного аналізу, рішення цього завдання неможливо, оскільки граматичним вираженням структурно – смислових відносин є синтаксичний зв'язок. Синтаксис описує засоби з'єднання словоформ в словосполучення і реченнях, типи синтаксичних зв'язків слів і речень, тобто ті механізми мови, які сприяють формуванню мови. У ході синтаксичного аналізу вихідний текст перетвориться в структуру даних, зазвичай – в дерево, яке відображає синтаксичну структуру вхідної послідовності словоформ і добре підходить для подальшої обробки на семантичному рівні.

1. Актуальність теми

Системи інформаційного пошуку, діалогові системи, іycтрументальні засоби для машинного перекладу та автореферуванія, рубрикатори і модулі перевірки правопису, так чи інакше, проводять аналіз ПМ‐текстів. Таким чином, область застосування систем автоматичної обробки текстів досить різноманітна, а на увазі великого зростання обсягів текстової інформації та складної її структурованості, аналіз ПМ‐текстів являє собою дуже актуальну проблему.

На сьогодні створення повноцінного ЛП є однією з найбільш актуальних завдань у комп'ютерної лінгвістиці, вирішення якої дозволило б досягти високого рівня формалізації мовних структур в різноманітних прикладних цілях. Побудова достовірних синтаксичних структур всіх підряд речень тексту – дуже важлива і потрібна ступінь в автоматичному розумінні тексту. Опис сутностей вхідного тексту, визначення їх властивостей і відносин між ними вирішується вже на рівні синтаксичної моделі, так як проявляються на рівні загальної схеми, що не залежить від сеycу висловлювань, тому морфолого‐синтаксичні ознаки і структури залучаються як правила локального контекстного розбору. Таким чином, синтаксичний аналіз визначає якість роботи ЛП в цілому, що робить створення ефективного синтаксичного компонента актуальним завданням.

2. Мета і задачі дослідження

Мета роботи – розробка методики виявлення синтаксичних груп в англійському реченні.

Основні задачі дослідження:

  1. Провести аналітичний огляд методів автоматичного синтаксичного аналізу.
  2. Вивчити типи синтаксичного зв'язку словоформ в англійських реченнях.
  3. Розробити формальні правила побудови простих синтаксичних груп всередині речення.
  4. Вивчити мінімальні структурні схеми (МСС) простих речень англійської мови та розробити словник шаблонів МСС для автоматичного виділення предикатного ядра речення.
  5. На основі формальних правил розробити алгоритми виділення синтаксичних груп і реалізувати їх у відповідному ПЗ.

Об'єкт дослідження: семантичний аналіз речень.

Предмет дослідження: виявлення синтаксичних груп.

Методи дослідження: методи автоматичного синтаксичного аналізу речень ПМ‐текстів.

3. Огляд досліджень та розробок

Основна задача синтаксичного аналізу – використовуючи морфологічну інформацію про словоформи, побудувати синтаксичну структуру вхідного речення.

Найбільш поширеними формами синтаксичної структури речень є графи залежностей і графи безпосередніх складових (БС), вони використовуються у чистому вигляді або у змішаних формах, що поєднують в собі властивості обох графів [1,2].

Опис структур у вигляді класичного графа залежностей грунтується на понятті бінарного словосполучення в реченні з виділеними головними і залежними елементами. Елементи відображаються вузлами графа, підпорядкування одного вузла іншому – спрямованими дугами, внаслідок чого граф залежностей є орієнтованим графом. Зазвичай один вузол графа, який у більшості моделей відповідає присудку, не має вузла, якій він підпорядковується, і називається вершиною. Іноді підмет і присудок позначаються двома вершинами.

Ставлення підпорядкування задає частковий порядок на множині вузлів. Якщо одному вузлу підпорядковуються декілька вузлів, то між ними порядок не визначено: граф залежностей не передає інформації про відносну ступень близькості залежного слова до головного. Зазвичай відношення підпорядкування підрозділяється на ряд типів, і дуги графа відзначаються індексами синтаксичних відносин.

В основі моделі дерева БС лежить уявлення про побудову речення як про послідовне попарне синтагматичне зчеплення складових від мінімальних окремих слів до максимальної – речення, складовими якого у разі повного особистого речення є група підмета і група присудка.

Подання синтаксичної структури у вигляді дерева БС добре узгоджене з традиційним розбором речення, при якому підмет і присудок і їх елементи описуються категоріальними характеристиками – іменами частин мови або груп.

Слід підкреслити, що дерева БС і дерева залежностей характеризують синтаксичну структуру речення в різних аспектах. За допомогою перших описують в явному вигляді словосполучення, але ігнорується орієнтація зв'язків; другі дають можливість розглянути спрямовані зв'язки, але тільки між окремими словами.

Існуючі способи представлення синтаксичних структур мають певні недоліки: дерева підпорядкування не враховують зв'язків між словосполученнями і синтаксично цілісними групами слів, системи безпосередніх складових ігнорують спрямовані зв'язки і не дозволяють описувати розривні словосполучення. Крім того, в цих уявленнях члени речення визначаються на основі формальних ознак, а не по відношенню до їх семантичного змісту. Тому жодна з моделей не дає повного уявлення про синтаксичну структурі речення.

З точки зору опису природної мови формальними теоріями виділяють формально‐граматичний і ймовірнісно‐статистичний підходи. Формально‐граматичний підхід спрямований на створення складних систем правил, які дозволили б у кожному окремому випадку приймати рішення на користь тієї або іншої структури, а статистичні – на збір статистики зустрічальності різних структур у схожому контексті, на підставі якого і приймається рішення про вибір варіанта структури.

Формально‐граматичні підходи закладені класифікацією формальних мов і граматик, яку запропонував Хомський. Для комп'ютерної лінгвістики серед них найбільш важливими є граматики кінцевих автоматів, контекстно‐вільні (КВ) і контекстно‐залежні граматики.

Кінцеві автомати є декларативним засобом представлення і дуже ефективні з точки зору швидкості роботи, але обмежені в можливості опису багатьох структур природної мови, наприклад, вкладених придаткових речень.

Більш високий рівень представлений КВ‐граматиками, описуваних у вигляді продукцій, які ставлять у відповідність нетермінальним символам лівій частині набір термінальних і нетермінальних символів у правій частині. Синтаксис КВ‐граматики досить простий, однак для опису деяких феноменів природної мови простого апарату КВ‐граматики виявляється недостатньо. Зокрема, контекстно‐вільними правилами незручно описувати узгодження (наприклад, в особі і числі між підметом і присудком), відображати розірвання залежностей, викликані пересуванням слів по фразі. Крім того, правило, яке виражає відносини між складовими, не відображає важливу особливість природних мов – поглинання однією категорією іншу, так що нова складова виступає замінником керуючої категорії.

Основу більшості ймовірносно‐статистичних методів аналізу становлять так звані PCFG‐граматики (probabilistic context ‐ free grammars), в яких кожне правило доповнено деякою імовірнісною оцінкою.

3.1 Огляд міжнародних джерел

Загальним підходом до проведення синтаксичного аналізу є його розбиття на кілька етапів [3,4]: сегментація, часткове зняття омонімії, побудова синтаксичної структури речення.

Сегментація на речення виконується в загальному випадку з урахуванням термінальних знаків пунктуації. Для мов з латинським або кириличним алфавітом сегментація на слова виконується з урахуванням розділових пробілів між словами і розділових знаків пунктуації.

Наступним етапом синтаксичного аналізу є дозвіл неоднозначності розмітки, тобто вибір правильної мітки з безлічі можливих міток. У класичній граматиці виділяють, як правило, 11 частин мови: іменник, дієслово, прикметник, прислівник, займенник, прийменник, сполучник, артикль, числівник, вигуки, частки. Однак для синтаксичного розбору цей набір не є достатнім і служить базою для розробки більш широкої системи міток, які можуть містити до декількох десятків міток. Так, широко використовувані набори міток Brown Corpus і Penn Treebank використовує 87 і 45 міток відповідно [5].

Оцінити досвід провідних розробників у галузі створення систем обробки тексту можна за опублікованими матеріалами форуму Оцінка методів автоматичного аналізу тексту [6]. Розглянемо організацію систем, які брали участь у змаганні синтаксичних парсерів і показали кращі результати, а саме: ABBYY Syntactic and Semantic Parser, ЕТАП‐3, SyntAutom, SemSin.

ABBYY Syntactic and Semantic Parser [7] при аналізі тексту використовує словник синтаксичних парадигм слів, що задає правила вживання лексеми залежно від її класу, і дерево універсальних семантичних значень і відносин між ними.

Метод аналізу тексту, що використовується ABBYY Syntactic and Semantic Parser, дозволяє виконувати повний аналіз речень з високою точністю. Однак даний метод використовує бази даних, вичерпно описують перелік синтаксичних конструкцій, у яких вживається лексема, і її відповідні написання, а також дерево універсальних семантичних значень і відносин між ними. Собівартість створення таких ресурсів та специфіка комерційної діяльності, в рамках якої вони були створені, дозволяє припустити, що у вільному доступі ці ресурси не з'являться, і вказує на проблематичність відтворення подібних ресурсів за доступний для огляду час яким‐небудь науковим колективом, комерційною організацією або науково‐виробничим об'єднанням.

Синтаксичний парсер лінгвістичного процесора ЕТАП‐3 [8] визначає синтаксичну структуру фрази у вигляді дерева залежностей, яке будується за допомогою декількох сотень спеціальних бінарних правил (синтагм). Синтагма пов'язує синтаксичним відношенням не слова фрази, а деяку пару омонімів цих слів, якщо вони представлені на початку синтаксичного аналізу декількома (морфологічними та/або лексичними) омонімами. Таким чином, омоніми слів фрази можуть зв'язуватися синтаксичними відносинами незалежно один від одного.

В результаті роботи синтагм на першому етапі синтаксичного аналізу виникає граф гіпотетичних синтаксичних зв'язків. На подальших етапах синтаксичного аналізатора, сторонні зв'язки різними засобами фільтруються, і з графа синтаксичних гіпотез виділяється дерево синтаксичної структури фрази. Найчастіше деяка мовна конфігурація, будучи занурена в інші контексти, утворює іншу синтаксичну конструкцію і повинна аналізуватися вже інакше. Передбачити всі ці контексти при написанні синтагм неможливо в принципі. З цього випливає, що синтагми неминуче будуть породжувати в ряді випадків зайві, невірні синтаксичні гіпотези. Як показує досвід експлуатації парсера ЕТАП‐3, для великих фраз кількість гіпотез може досягати величини 20–30 n, де n – число слів фрази.

SyntAutom [9] – система, заснована на правилах розбору, побудованих вручну. Використовує:

Системі притаманні загальні проблеми більшості систем, заснованих на правилах: існують межі, за якими важко збільшити граматичне покриття, через комбінаторного зростання в комбінаториці і падіння в точності.

SemSin [10] – це семантико‐синтаксичний аналізатор, в завдання якого входить зняття частемовной та морфологічної неоднозначності, побудова синтаксичного дерева залежностей і часткове зняття лексичної неоднозначності. Система створена невеличким колективом в досить стислі терміни. Використовує наступні лінгвістичні ресурси:

  1. Морфологічний і семантичний словники, в яких кожна лексема містить морфологічні характеристики і моделі управління слів (актанти спричинених нею лексем у вигляді відмінків або прийменників з відповідними відмінками).
  2. База фразеологізмів.
  3. База прийменників з моделями управління.
  4. База продукційних правил (близько 210).

У процесі аналізу речення система сегментує його, встановлює головне слово сегмента (центр сегмента ), може об'єднувати сегменти, підпорядковувати їх.

3.2 Огляд національних джерел

Для підвищення якості синтаксичного розбору найбільш оптимальним представляється використовувати для формування синтаксичних моделей властивість предикативності, однією з найважливіших характеристик простого речення [11,12]. Предикат – центральна синтаксема в семантичному простому елементарному реченні, формує його семантико‐синтаксичну структуру. Предикативно пов'язані граматичні суб'єкт і предикат кваліфікуються як головні члени речення, оскільки вони формують його конструктивний мінімум.

У роботах [13,14] запропонована синтаксична модель речення у вигляді предикатної структури, для формування якої необхідно використовувати лінгвістичні знання у вигляді семантичного словника предикатів [15], розроблений метод синтаксичного аналізу, формуючий цю синтаксичну модель і спирається на словники шаблонів МСС [16] і набір правил виділення синтаксичних зв'язків пар слів [17].

Описана в роботі синтаксична модель дозволяє повністю виявляти як предикативні так і синтагматичні відносини, описує не тільки аргументну структуру і кількість актантов предиката, але також враховує їх семантичний зміст, використовуючи семантичну класифікацію предикатів.

4. Підхід до виділення синтаксичних груп реченьанглійської мови

Правила виділення синтаксичних груп речення повинні розроблятися на основі інформації про слова, отриманої на етапі морфологічного аналізу. Таким чином, кожне речення представимо у вигляді:

S = (s[1],..., s[i],..., s[N]),

где s[i] = {s[i][1],..., s[i][j],..., s[i][N]} – вектор множин інтерпретацій словоформ, при цьому множина інтерпретацій s[i] є масивом пар (лема, морфологічні характеристики).

При формуванні синтаксичних груп англійського речення відповідно до запропонованого підходу виконують такі кроки.

1. Виділення в окремі групи послідовностей слів:

Ці операції виконуються у зазначеній послідовності. При цьому у виділеної послідовності слова не повинні бути розділені ні знаками пунктуації, ні сполучниками або іншими словами.

Графічно загальна схема роботи лінгвістичного процесора представлена нижче.

Загальна схема роботи лінгвістичного процесора

Рисунок 1 – Загальна схема роботи лінгвістичного процесора
(анімація: 6 кадрів , 10 циклів повторення , 138 кілобайт)

На виході – набори зірочок : s[i] s[j], під зірочкою розуміється конструкція, що включає головне слово s[i], пов'язане з безліччю залежних слів s[j], відстаючими від головного на один зв'язок. Зв'язки спрямовані від головного слова к залежним.

2. Формування предикатного ядра речення.

Результатом застосування правил до речень є структура (PRED, Subj), що описує предикативний мінімум речення, де PRED – ядро предиката, дієслівна конструкція; Subj – граматичний суб'єкт, який є лівостороннім актантом предиката PRED.

Цей етап використовує словник шаблонів МСС для виділення потенційних синтаксичних зв'язків між головними членами речення.

Синтаксичним іменником англійського речення може виступати іменник або субстантивне словосполучення, займенник, дієслово у формі інфінітива або дієслівна конструкція з інфінітівним ядром, дієслово у формі герундія або дієслівна конструкція з ядром‐герундієм, інфінітівне предикативне словосполучення, герундіальне предикативне словосполучення, складова розривна конструкція, що включає слова there і it.

Присудком можуть виступати одиночне дієслово в простій або аналітичній формі, дієслово‐зв'язка to be з подальшим іменним членом, модальне дієслово з подальшою дієслівною конструкцією, підрядних словосполучень, сурядне словосполучення (табл. 4.1).

Таблиця 4.1 – Форми слів, що входять в МСС

Форма слова Скорочення
1. Показники предикативності
Неперехідне особисте дієслово Vi
Перехіднеособисте дієслово Vt
Відмінювана форма дієслова‐зв'язки be
Дієслова‐зв'язки, відмінні від to be (to seem, to become) Vb
Дієслово дії, якие виступає в ролі дієслова‐зв'язки Vs
Допоміжне дієслово, якие виступає в ролі основного дієслова Vh
2. Імена і прислівники
Іменна група, представлена іменником в загальному відмінку або займенником NP
Субстантив, виражений іменником, прикметником або дієприкметником subs
Ад'єктивна група, виражена прикметником Adj
Прислівникова група або прийменникова група, здатна поєднуватися зі зв'язкою AdvP

Для класифікації МСС речень був використаний функціонально‐позиційна ознака (S – підмет, P – присудок, O1, O2 – об'єкти різного виду, Comp – доповнення):

  1. SP – The bird sings.
  2. SP Comps – He is a boy.
  3. SP O1 – The hunter killed a bear.
  4. SP O2O1 – Albert gave him a book.
  5. SP O1Compo – He painted the door green.
  6. There PS – There is a book on the table.

Основні 7 підтипів ядерних речень англійської мови, описані за допомогою введених в таблиці 4.1 позначень, представлені в таблиці 4.2.

Таблиця 4.2 – Мінімальні структури речень

п/п

Шаблон Приклад
1 NP + Vi John worked.
2 NP + Vt + NP John paid the bill.
3 NP + be + subs John is heroic (a hero).
4 NP + be + AdvP John is in the room.
5 NP + Vb + subs John became a hero (heroic).
6 NP + Vs + Adj John felt sad.
7 NP + Vh + NP John has a car.

Висновки

Дана робота спрямована на покращення автоматичного синтаксичного аналізу англійських речень.

Проведений огляд методів автоматичного синтаксичного аналізу, моделей подання синтаксичної структури речень показав, що модель у вигляді предикатной структури є найбільш перспективною, оскільки дозволяє описувати не тільки аргументну структуру і кількість актантов предиката, але й враховувати їх семантичний зміст, використовуючи семантичну класифікацію предикатів.

У процесі виконання роботи будуть розроблені:

Розвитком теми випускної роботи стане розробка на основі алгоритмів виявлення синтаксичних груп парсера англійських текстів, який дозволить отримувати синтаксичну структуру речень у вигляді предикатної структури і підвищити якість подальшого семантичного аналізу. Предикатна модель – шлях до розуміння тексту, яке тісно пов'язане з виявленням предикатних структур, що характеризують зміст речень, а також – ланцюжків цих предикатних структур, які опосередковують зміст тексту [18].

Перелік посилань

  1. Гладкий А.В. Синтаксические структуры естественного языка в автоматизированных системах общения. – М.: Наука, 1985. – 144 с.
  2. Ножов И.М. Морфологическая и синтаксическая обработка текста (модели программы). – М.: Наука, 2003 – 140 с.
  3. Автоматическая обработка текстов на естественном языке и компьютерная лингвистика: учеб. пособие / Большакова Е.И. и др. – М.: МИЭМ, 2011.]
  4. Автоматическая Обработка Текста [Электронный ресурс]. – Режим доступа: http://www.aot.ru/technology....
  5. Taylor A., Marcus M., Santorini B. The Penn Treebank: The Overview // ARPA Human Language Technology Workshop, 1998. – P. 3–22.
  6. Толдова С.Ю., Соколова Е.Г., Астафьева И., Гарейшина А., Королева А., Привознов Д., Сидорова Е., Тупикина Л., Ляшевская О.Н. Оценка методов автоматического анализа текста 2011–2012: синтаксические парсеры русского языка // Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Международной конференции Диалог (Бекасово, 30 мая – 3 июня 2012 г.). Вып. 11 (18): В 2 т. Т. 2: Доклады специальных секций – М.: Изд-во РГГУ, 2012. – С. 77–90.
  7. Anisimovich K.V., Druzhkin K.Ju., Minlos F.R., Petrova M.A., Selegey V.P., Zuev K.A. Syntactic and semantic parser based on ABBYY Compreno linguistic technologies // Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Международной конференции Диалог (Бекасово, 30 мая–3 июня 2012 г.). Вып. 11 (18): В 2 т. Т. 2: Доклады специальных секций – М.: Изд-во РГГУ, 2012. – С. 91–103.
  8. Iomdin L., Petrochenkov V., Sizov V., Tsinman L. ETAP parser: state of the art // Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Международной конференции Диалог (Бекасово, 30 мая–3 июня 2012 г.). Вып. 11 (18): В 2 т. Т. 2: Доклады специальных секций – М.: Изд-во РГГУ, 2012. – С. 119–131.
  9. Antonova A.A., Misyurev A.V. Russian dependency parser SyntAutom at the DIALOGUE – 2012 parser evaluation task // Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Международной конференции Диалог (Бекасово, 30 мая–3 июня 2012 г.). Вып. 11 (18): В 2 т. Т. 2: Доклады специальных секций – М.: Изд-во РГГУ, 2012. – С. 104–118.
  10. Каневский Е.А., Боярский К.К. Семантико-синтаксический анализатор SemSin [Электронный ресурс]. – Режим доступа: http://www.dialog-21.ru/digests/dialog2012/materials/pdf/Kanevsky....
  11. Загнітко А.П. Теоретична граматика української мови: Синтаксис: Монографія. Донецьк: ДонНУ, 2001. – 662 с.
  12. Вихованець І.Р. Частини мови в семантико-граматичному аспекті / І.Р. Вихованець. – К.: Наук. думка, 1988. – 256 с.
  13. Ермоленко Т.В. Синтаксическая модель предложения русского языка на основе предикатных структур // Искусственный интеллект. – 2012. – № 3. – С. 126–136.
  14. Харламов А.А., Ермоленко Т.В. Разработка компонента синтаксического анализа предложений русского языка для интеллектуальной системы обработки естественно-языкового текста // Программная инженерия № 7, 2013. С. 37–47.
  15. Бондаренко Е.А. Принципы автоматической обработки естественно-языковых текстов: валентностный подход / Е.А. Бондаренко, О.А. Каплина // Искусственный интеллект. – 2013. – N 1. – С. 80–90.
  16. Харламов А.А. Метод выделения главных членов предложения в виде предикативных структур, использующих минимальные структурные схемы / А.А Харламов, Т.В. Ермоленко, Г.В. Дорохина, Д.С. Гнитько // Речевые технологии. – 2012. – № 2. – С. 75–85.
  17. Дорохина Г.В. Автоматическое выделение синтаксически связанных слов простого распространенного неосложненного предложения / Г.В. Дорохина, Д.С. Гнитько // Сучасна інформаційна Україна: інформатика, економіка, філософія: матеріали доповідей конференції, 12 – 13 травня 2011 року, Донецьк, 2011. Т. 1. – С. 34–38.
  18. Alexander A. Kharlamov, Tatyana V. Yermolenko, Andrey A. Zhonin Text Understanding as Interpretation of Predicative Structure Strings of Main Text’s Sentences as Result of Pragmatic Analysis (Combination of Linguistic and Statistic Approaches) // Speech and Computer 15th International Conference, SPECOM 2013, Pilsen, Czech Republic, Septenber 2013. Proceedings. – P. 333–339.

Важливе зуваження

При написанні даного реферату магістерська робота ще не завершена. Остаточне завершення: грудень 2014 року. Повний текст роботи та матеріали по темі можуть бути отримані у автора або його керівника після зазначеної дати.