ДонНТУ   Портал магістрів

Реферат за темою випускної роботи


Зміст

Вступ

  Завдання інтелектуальної обробки текстів на природній мові вперше зявилася на рубежі 60-х70-х рр.. ХХ ст. До теперішнього часу проведено безліч досліджень у цій сфері, розроблені алгоритми і створені експериментальні програми, здатні аналізувати пропозиції. Але ці системи не отримали широкого поширення через вузьких спеціалізацій або великих витрат машинного часу і ресурсів.

Компютерні технології все більше впроваджуються в наше життя, завдання забезпечення зручного інтерфейсу спілкування з технікою ставати все актуальнішою. Людині, яка не знайомий з компютерами, досить важко звикнути до управління такою технікою. Для полегшення цього процесу необхідно максимально наблизити спілкування “людина-компютер” до спілкування “людина-людина”.

Забезпечення взаємодії з електронно-обчислювальними машинами (ЕОМ) на природній мові є найважливішим завданням штучного інтелекту. До даної області відносять завдання машинного перекладу, реферування текстів, організації природно-мовного інтерфейсу до систем управління базами даних та інформаційного пошуку текстів.

Однією з важливих задач компютерної обробки природно-мовних текстів (КОЕЯТ) є виділення в тексті слів, повязаних між собою за змістом. Вона виникає при побудові онтологій, словників сполучуваності, добуванні знань з текстів. У звязного мовлення граматичним вираженням структурно-смислових відносин є синтаксичний звязок.

1. Актуальність теми

У соціальному плані значимість лінгвістичних проблем компютеризації повязана з виникненням нових видів масової діяльності, що включають побудову штучних мов і машинних словників, розробку інформаційних банків, побудова алгоритмів обробки текстів, розробку режимів спілкування в системі “людина-компютер-людина” і т.д. Взагалі, мовний аспект важливий для всіх основних напрямків індустрії обробки знань, таких як збір, створення, зберігання, систематизація, розповсюдження, інтерпретація інформації.

Завданням виділення синтаксично повязаних слів російської мови займаються такі відомі російські компанії: “Гарант-Парк-Интернет, “ІНТЕЛТЕК ПЛЮС, “ДІАЛІНГ”. В Україну над даною проблемою працює колектив Cognitive Technologies. В Україну засоби автоматичного аналізу тексту на основі лінгвістичних методів розвинені недостатньо, що вказує на актуальність даної роботи.

2. Мета і задачі дослідження та заплановані результати

Мета роботирозробка програмного забезпечення автоматичного виділення синтаксично повязаних слів простого поширеного неускладненого пропозиції російської мови.

Предмет дослідженняпрості неускладнені поширені пропозиції російської мови.

Методи дослідженняметоди виділення синтаксично повязаних слів у реченні.

Дана робота спрямована на розвиток автоматичного синтаксичного аналізу на основі лінгвістичних методів. У ній запропоновано наступний підхід: проводиться пошук безлічі пар словоформ, потенційно повязаних між собою; потім над безліччю пар проводиться повний синтаксичний аналіз речення, в результаті якого визначається вихідна безліч синтаксично повязаних слів пропозиції.

3. Огляд досліджень та розробок

З точки зору опису природної мови формальними теоріями розрізняють формально-граматичний і ймовірнісно-статистичний підходи. Формально-граматичний підхід спрямований на створення складних систем правил, які дозволяли б у кожному конкретному випадку приймати рішення на користь тієї чи іншої синтаксичної структури, а статистичні – на збір статистики зустрічальності різних структур в схожому контексті, на основі якого і приймається рішення про вибір варіанта структури.

Також відомі методи синтаксичного аналізу, що спираються на дані психології та нейрофізіології. Одним з таких методів є методи виділення ядра пропозиції.

Формально-граматичні підходи закладені класифікацією формальних мов і граматик, запропонованої Хомським. Для компютерної лінгвістики серед них найбільш важливі граматики кінцевих автоматів, контекстно-вільні (КС) і контекстно-залежні граматики. Для опису природно-мовних феноменів в основному застосовуються КС-граматики з деякими розширеннями.

Граматика кінцевих автоматів (Finite-State Transition Network) формально відповідає простий за можливостями граматиці третього типу. Кінцевий автомат містить набір станів (нетермінальних символів), серед яких виділяють одне або кілька початкових і кінцевих, і умови переходу між станами. Інформацією для переходу за умовами служать символи, які надходять зі стрічки, яку читає автомат. Іноді кінцевий автомат може писати символи на іншу стрічку, в англомовній традиції такий автомат називають transducer. Часто для лінгвістичних програм умови переходу не задаються безпосередньо, а обчислюються словниковим компонентом, що ставить у відповідність символам або ланцюжках символів стрічки-символи їх узагальнених класів.

Кінцеві автомати є декларативним засобом уявлення, що означає можливість їх оборотності, тобто застосування і для аналізу, і для синтезу. Вони також досить ефективні з точки зору швидкості роботи, але обмежені в можливості опису багатьох структур, що зустрічаються в природній мові, таких як вкладені конструкції, наприклад, з вкладених одна в одну придаткових пропозицій.

Більш високий рівень граматик складають контекстно-вільні граматики, які описуються у вигляді продукцій (правил), що ставлять у відповідність нетермінальним символам у своїх лівих частинах (до знака “=”) набір термінальних і нетермінальних символів у правих частинах.

Подібна граматика описує такі пропозиції, як “лис бачить вовка”, “молодий лис бачить старого вовка”, “молодий лис бачить старого лежачого вовка”, “лис лежить” і т.д. Досить просто розширити цю граматику, щоб представити в словнику російську морфологію в більш повному вигляді. Зауважимо, що в даній граматиці вибір конкретного правила для побудови дієслівних груп (VP-правила) або іменних груп (NP-правила) заданий варіантами, гарантований вибір між якими зробити в рамках даного правила неможливо. Подібна граматика відноситься до так званих Недетермінірованним граматика.

Синтаксис КС-правил дуже простий, однак для опису багатьох феноменів природної мови простого апарату КС-граматики виявляється недостатньо. Зокрема, контекстно-вільними правилами незручно описувати узгодження (наприклад, в особі і числі між підметом і присудком). КС-апарат незручний також для відображення розірваних залежностей, викликаних пересуванням слів по фразі, або для опису відсутності складових.

В сучасних зарубіжних розробках, спрямованих на аналіз ЕЯ-текстів, велика увага приділяється саме статистичними схемам аналізу. Основу більшості статистичних методів аналізу складають так звані PCFG-граматики (probabilistic context-free grammars), що є, по суті, КС-граматиками (контекстно-вільними), в яких кожне правило доповнено деякої ймовірнісної оцінкою. Хоча використання простий КС-граматики не дозволяє досягти необхідного ступеня точності аналізу (цей висновок був зроблений ще на початку 1970-х рр..), Різні схеми аналізу, побудовані на розширеннях КС-граматика, успішно використовуються в сучасних природно-мовних системах.

Вибір того чи іншого способу подання синтаксичної структури в значній мірі повязаний з пристроєм алгоритму синтаксичного аналізу. Формальні граматики працюють, як правило, з синтаксичним поданням у вигляді дерева складових. Привабливими властивостями графа залежностей є їх економічність, зручність використання в перетвореннях, можливість подання часткових результатів аналізу у вигляді безлічі подграфов.

Для створення “точних” алгоритмів семантико-синтаксичного аналізу текстів, необхідно, щоб функціонування мови відбувалося за суворими “правилами”, тобто щоб мова представляв собою якесь літочислення. Прикладом є мови програмування високого рівня. Але природний язик не числення. У ньому, якщо і є якісь правила, що відзначаються лінгвістами (наприклад “правила граматики”), то вони мають “розмиті” сфери застосування та неточні. Мова є універсальним засобом спілкування між людьми, і важко очікувати простого вирішення проблеми його моделювання. Він подібний до “чорного ящика”, у якого можна спостерігати тільки його входи і виходи, а про “механізм” його функціонування можна тільки робити припущення.

На даний момент існують наступні засоби автоматичного синтаксичного аналізу пропозицій російської: RCO Syntactic Engine, ДІАЛІНГ, Solarix, TREETON, МСА.

3.1 Огляд міжнародних джерел

                 

RCO Syntactic Engine – бібліотека синтаксичного аналізу тексту.

Бібліотека повного синтаксичного аналізу тексту російською мовою RCO Syntactic Engine призначена для вирішення наступних завдань:

 – Граматичний розбір пропозиції з побудовою дерева синтактико-семантичних залежностей між його словами;

 – Виділення понять пропозиції з визначенням їх синтаксичних і семантичних ролей, генерація канонічної форми понять з використанням тезауруса;

 – Дозвіл морфологічної омонімії.

Одиницею синтаксичного аналізу є окрема пропозиція тексту, для якого будується дерево залежностей між складовими його одиницями, зазвичай словами. За результатами аналізу може бути отримана наступна інформація:

 – Всі слова із зазначенням частини мови і синтаксичної ролі у реченні (підмет, присудок, доповнення тощо);

 – Всі слова, синтаксично підлеглі вибраному речі, із зазначенням типу синтактико-семантичного звязку;

 – Всі поняття тексту, що відповідають обраному речі, в канонічній формі. У ряді випадків, наприклад, у випадку однорідних членів або багатослівних іменних груп одному слову може відповідати кілька понять.

Аналіз кожного речення тексту проводиться в три етапи:

1) Предсінтаксіческая обробка тексту

На етапі предсінтаксіческой обробки кожне речення перетворюється в послідовність базових текстових одиниць, які зазвичай відповідають окремим словам і знакам пунктуації. Кожна текстова одиниця характеризується граматичним описом, яке в загальному випадку виходить на підставі морфологічного аналізу відповідної словоформи в реченні. Цей опис дозволяє встановити всі граматичні характеристики текстової одиниці, необхідні для правильного звязування її з іншими одиницями – частина мови, рід, число, відмінок і ін

2) Синтаксичний аналіз пропозиції

На етапі власне синтаксичного аналізу послідовність текстових одиниць піддається комплексу процедур граматичного розбору відповідно до правил узгодження та управління у російській мові, в ході якого використовується словник моделей управління предикатів (дієслів і віддієслівних іменників).

Результатом синтаксичного розбору пропозиції є список його семантично значущих текстових одиниць і різних типів відносин між ними. В число значущих одиниць включаються всі класи іменників, дієслів і прикметників, і не включаються знаки пунктуації, а також ряд службових частин мови. Відносини між текстовими одиницями (словами) видаються в одну сторону – від головної одиниці до залежних, через що результат аналізу являє собою дерево синтактико-семантичних залежностей, зі входами від будь-якої з текстових одиниць.

3) Постсінтаксіческій аналіз дерева залежностей

Для зручності утилізації результатів синтаксичного розбору в прикладних системах до складу бібліотеки включений ряд алгоритмів, що забезпечують етап постсінтаксіческого аналізу дерева залежностей.

3.2 Огляд національних джерел

Система аналізу політичних текстів російською мовою (ПОЛІТЕКСТ) (роботи Леонтьєва [1995]), розроблена в Центрі інформаційних досліджень в 1991-97 рр..

Система ПОЛІТЕКСТ містила повну ланцюжок аналізу тексту, аж до семантичного, який був реалізований лише частково. В системі ПОЛІТЕКСТ був розроблений і випробуваний семантичний апарат, який представляється нам настільки закінченим і досконалим, що його можна запозичувати фактично без змін. У центрі семантичного апарату ПОЛІТЕКСТ два переліки (вірніше, дві граматики): семантичних характеристик (СХ) і смислових відносин (СО). Використовується мінімальна кількість семантичних характеристик: ВЕЩВО (“речовина”), змін (“зміна”), ІНТЕЛ (“інтелектуальність”), ІНФ (“інформація”); слова характеризуються за ознакою належності до одного чи декількох класів. СХ забезпечують перевірку семантичного узгодження при інтерпретації звязків у тексті. Разом з тим ПОЛІТЕКСТ не містила механізмів структурних оцінок семантичного уявлення, тобто методів зважування не просто одного входження текстового елемента, а всієї структури в цілому. Система ПОЛІТЕКСТ була спрямована на аналіз офіційних документів російською мовою і містила повну ланцюжок аналізаторів текстa: графематіческій (первинний аналіз), морфологічний, синтаксичний і частково семантичний.Програма морфологічного аналізу була написана заново, оскільки швидкість роботи була низькою, але сам морфологічний апарат не змінився. Синтаксичний аналіз системи ПОЛІТЕКСТ мав поруч інженерних недоліків, тому його не вдалося перейняти.

У підсумку, ланцюжок процесорів (графематіческій, морфологічний і синтаксичний) була зібрана на базі OOO Діалінг. Після цього стала актуальною розробка семантичного аналізу всередині системи ДІАЛІНГ як логічного завершення ланцюжка аналізаторів.

Solarix виконує лексичний, морфологічний і синтаксичний розбір речення за допомогою набору простих процедур, доступних з декількох мов програмування, в тому числі C, C + +, C #, Delphi, PHP. Зокрема, синтаксичний розбір одного речення виконується за допомогою функції sol_SyntaxAnalysis.Результатом її роботи буде синтаксичне дерево, в якому явно зафіксовані синтаксичні відносини елементів пропозиції.

                

3.3 Огляд локальних джерел

       

Оскільки число пропозицій нескінченно, при синтаксичному розборі має сенс орієнтуватися на більш дрібні одиниці – фразові категорії. Фразові категорії – це групи, в яких є одна вершина, а також може бути одне або декілька залежних від цієї вершини. Таким чином, алгоритм автоматичного аналізу зводиться до вичлененню фразовой категорії в складі пропозиції і пошуку звязків між ними.

Для розробки модуля автоматичного синтаксичного аналізу був використаний корпус текстів, що складається з клауз з нераспространенной синтаксичною структурою з. Клаузе складені відповідно до норм літературної російської мови. Цей корпус, безумовно, потребує розширення і ускладнення, але на нинішньому етапі розробки модуля синтаксичного аналізу він відповідає основним поставленому вимогу: ідентифікація окремих фразова категорія в структурі клауз і визначення звязків між ними.

На підставі аналізу використовуваного корпусу було виділено пять основних синтаксичних груп: іменна група, дієслівна група, група прикметника, прийменникова група, інфінітивна група. Для зручності за кожною групою був закріплений порядковий номер. Кожна синтаксична група має вершину, то є слово, від якого залежать всі інші слова в групі. Вершиною є іменник або особовий займенник. Вершиною дієслівної групи – особисті форми дієслова.

У кожній фразовой категорії діють підрядності звязку одного з трьох типів; на рівні морфології це знаходить відображення в тому, що при узгодженні залежне слово приймає ті ж показники роду, числа і відмінка, що і вершин; при примиканні спостерігається просте синтаксичне соположение вершини і незмінного слова -залежного без додаткового маркування на морфологічному рівні, а при управлінні залежне слово стоїть у певному непрямому відмінку, причому вибір відмінка визначається за словником, в характеристиках слова-вершини. Для визначення відмінка, в якому стоїть залежне слово при підрядного звязку, використовується словник. Передбачається з часом створити свій словник, спеціально пристосований для потреб автоматичного синтаксичного аналізу.

4. Методика синтаксичного аналізу сегментів

Запропонована методика складається з послідовності етапів.

На першому етапі проводимо морфологічний аналіз словоформ пропозиції. В результаті пропозиція з N словоформ представляється вектором (4.1):

                                    S = (s1, ..., si, ..., sN). (4.1)

 

Тут i – номер словоформи в реченні, si – безліч варіантів інтерпретації i-ой словоформи: 

                         si = {},, (4.2)

де – j-й варіант написання леми

 – J-й варіант морфологічної інформації.

Згідно з цим поданням пропозицію описується вектором множин варіантів інтерпретацій кожної словоформи. Кожен варіант інтерпретації складається з пари – написання леми і її морфологічної інформації.

На другому етапі виконуємо пошук пар потенційно повязаних варіантів інтерпретації словоформ, для чого вводимо відношення η (x, y, t). Воно приймає значення 1, якщо між варіантами інтерпретації пари словоформ і, можлива синтаксичний звязок типу. Причому x – головне слово, y – залежна, а T – безліч типів звязків, що обєднує безліч звязків між головними членами пропозиції Tm і безліч звязків зі другорядними членами пропозиції Ta (управління, узгодження, примикання). Елементи безлічі Tm використані для завдання шаблонів мінімальних структурних схемах (МСС) h = {t},.

                                      T = Tm È Ta, (4.3) 

де Tm – безліч звязків між головними членами пропозиції, засновані на МСС пропозиції, Ta – безліч звязків зі другорядними членами речення.

На третьому етапі скорочення кількості варіантів інтерпретацій словоформ безліч трійок (x, y, t), для яких η (x, y, t) = 1, позначимо через R. Безліч перший компонент цих трійок (головних слів) позначимо через A, безліч другий компонент (залежних слів) позначимо через B: 

                          R = {(x, y)}: xÎei, yÎeh, i ¹ h, h (x, y)

                          А = {x}: $ (x, y) ÎR, B = {y}: $ (x, y) ÎR. (4.4) 

Введемо критерій відсутності в реченні словоформ, не повязаних з іншими словоформами. Для кожної словоформи хоча б один варіант її інтерпретації повинен належати або безлічі головних, або безлічі залежних слів:

                                    "I = $ zÎsi: zÎ (AÈB). (4.5) 

Пропозиція не задовольняє даним критерієм можна не розглядати, оскільки воно синтаксично не повязано.

В інших пропозиціях скорочуємо кількість варіантів інтерпретацій словоформ шляхом формування вектора S ¢. До нього увійдуть тільки ті варіанти інтерпретацій словоформ, які беруть участь в синтаксичних звязках в якості головного або залежного слова: 

                                    S¢ = (s¢1, ..., s¢i, ..., s¢N),

                                     s¢i Í si : " zÎ s¢i  (zÎA)Ú( zÎB). (4.6) 

Безліч D можливих морфологічних розміток пропозиції (МРП) можна отримати як декартовій твір S¢. 

                                    D=s¢1´...´ s¢i´...´ s¢N,

                                       D={dk : dk}.(4.7)

Для морфологічної розмітки dk введемо критерій відсутності словоформи не повязаної з іншими словоформами. Для цього сформуємо безлічі:

        Fk – безліч компонент морфологічної розмітки dk,

        Rk – безліч синтаксично звязних пар цих компонент,

        Ak – безліч компонент головних звязків,

        Bk – безліч компонент залежних звязків.

Введені безлічі дозволяють сформувати критерій відсутності в можливій морфологічної розмітки відокремлених словоформ. 

                                    Fk = {dki: i =}

                          Rk = {(x, y): (x, y) Î R, xÎFk, yÎFk}

                                    Ak = {x: (x, y) Î Rk}

                                    Bk = {y: (x, y) Î Rk}

                                 "I = dki Î (AkÈBk). (4.8)      

Згідно наступного критерію потужність безлічі слів, які є головними і не є залежними повинна бути менше або дорівнює 1. Інакше отримуємо більше двох компонент звязності.

Один із способів вираження синтаксичних звязків між словами припускає використання прийменника. Щоб не порушувати спільності введеного формалізму місцевому звязок будемо висловлювати двома звязками між парами слів, в одній з яких привід – залежне слово, в іншій є головним.

        Pr – безліч приводів російської мови. 

                                    "ZÎPr ∩ Fk zÎBk ∩ Аk (4.10) 

У ряді МРП dk присутні словоформи, не повязані з іншими словоформами пропозиції. Також можуть бути присутні dk, у яких прийменники не входять в безліч головних слів A. Такі МРП потрібно виключити.

Переходимо до четвертого етапу – вибору допустимих звязків між словами. Пара (Fk, Rk) описує орграф, в якому Fk безліч вершин, а звязки є іменованими ребрами з вершини x в вершину y з імям t. Підграфи цього графа можливо є деревами. Не всі вони є деревами синтаксичного підпорядкування (ДСП). Приймати рішення про коректність МРП і допустимості окремих звязків з безлічі Rk будемо, виходячи з критеріїв: односвязного орграфов, заданих Fk і підмножинами звязків Rk, не суперечать шаблонам МСС; рівність 1 полустепені заходу вершин цих орграфов.

Аналізуємо відповідність Rk шаблону МСС h. Для цього введемо безліч Rm = {Rmi}, де RmiÍRk одного типу, причому цей тип входить в шаблон h.

При | Rm | <| h | пропозиція не відповідає h.

Введемо RM = {rmv}, де RM Í Rm1 ... Rmi ... Rml і rmv = ((x1, y1, t1), ..., (xl, yl, tl)): при l > 1 x1 = x2, "i> 1 xi +1 = yl.

Елемент rmv – основа для створення ДСП за шаблоном h. Нехай g = {(x, y, t)}, де (x, y, t) – елементи вектора rmv. У нього необхідно додати другорядні звязку безлічі c.

Позначимо, якщо орграф (g , Rk) не однозвязний, то по rmv неможливо побудувати коректне ДСП.

Інакше залишається вирішити проблему вершин з полустепенью заходу більше 1. Для кожної такої вершини залишаємо за однією звязку, виходячи з вимоги: довжина шляху від кореневої вершини до неї – максимальна. Якщо є одна вершина, до якої призводять n конкуруючих звязків по коліях однакової довжини, вважаємо, що має місце синтаксична омонімія і все n звязків коректні, а парі (Fk, g ) відповідає n різних ДСП.

Перелік пар синтаксично повязаних пар слів – обєднання визнаних коректними звязків безлічі g , які побудовані за всіма Rmi для кожного Fk і шаблону h.

Висновки

Дана робота спрямована на розробку програмного забезпечення автоматичного виділення синтаксично повязаних слів простого поширеного ускладненого пропозиції.

Для досягнення цієї мети проведено огляд методів і засобів синтаксичного аналізу. Він показав, що в даний час формально-граматичні методи аналізу поступово витісняються методами, в тій чи іншій формі використовують імовірнісні оцінки.

Методи імовірнісного типу принципово не здатні забезпечити 100%-ную точність аналізу, проте їх результати при роботі з реальними текстами виявляється цілком задовільними для багатьох застосувань. Хоча витрати на розробку імовірнісних аналізаторів можуть бути істотно нижче, ніж на створення вичерпних структурно-граматичних моделей природної мови, але мають меншу точність і повноту аналізу.

Проаналізовано структури складних і ускладнених пропозицій: типи їх сегментів, функції розділових знаків, спілок і союзних слів. В результаті аналізу було зроблено такі висновки про те, що до виконання синтаксичного аналізу ми не маємо можливості визначити чи є пропозиція складним або ускладненим. Тому аналіз складних, ускладнених і простих речень будемо проводити за єдиним алгоритмом.

Розроблено алгоритм у вигляді загальної схеми аналізу пропозиції, визначено перелік інформаційних ресурсів (база стійких поєднань знаків пунктуації, база стійких словосполучень і союзів, база складних прийменників і прийменникових слів), викладено алгоритм синтаксичного аналізу сегментів пропозиції.

Використані матеріали

1. Валгина Н.С. Синтаксис сучасної російської мови: Підручник / Валгина Н.С. – М.: Агар, 2000. – 416 с.

2. Дручініна Вероніка. Витяг інформативних фрагментів тексту для автоматичного реферата [Текст] / Вероніка Дручініна / / Лінгвокомпютерні Дослідження: зб. наук. праць / Донецький національний університет / Укл.: А. Загнітко (відп. ред.), Ж. Краснобаєва-Чорна (заст. відп. ред.) та ін. – Донецьк: ДонНУ. 2011. – Вип. 4.-С.39-42.

3. Кулагіна О.С. Дослідження з машинного перекладу / Кулагіна О.С. – М.: Наука, 1979. – 279 с.

4. Белоногов Г.Г. Компютерна лінгвістика і перспективні інформаційні технології / Белоногов Г.Г. – М.: Російський світ, 2004. – 189 с.

5. Гладкий А.В. Синтаксичні структури природної мови в автоматизованих системах / Гладкий А.В. – М.: Наука, 1985, – 334 с.

6. Белошапкова В.А. Сучасна російська мова / Белошапкова В.А. – М.: Азбуковнік, 1997. – 928 с.

7. Леонтьєва М.М. Будова семантичного компонента а інформаційної моделі автоматичного розуміння тексту / Леонтьєва М.М. . – М.: Азбуковнік, 1990, – 229 с.

8. Синтаксис російської мови [Електронний ресурс]. – Режим доступу: http://shkola.lv/

9. Дорохіна Г.В. Модуль морфологічного аналізу слів російської мови / Г.В. Дорохіна, А.П. Павлюкова / / Штучний інтелект. – 2004, – С. 636-642.

10. Дорохіна Г. В. Модуль морфологічного аналізу без словника слів російської мови / Г. В. Дорохіна, В. Ю. Трунов, Є. В. Шилова / / Штучний інтелект. – № 2. – 2010. – С.32-36.

11. Дорохіна Г.В. Корекція словникової бази модуля морфологічного аналізу “РДМА_ІПІІ” / Г.В. Дорохіна, В.А. Акчурин / / Штучний інтелект. – № 3. – 2010. – С. 191-195.

12. Інгве В. Синтаксис і проблема багатозначності / Інгве В. / / Машинний переклад. – М.: – 1957. – 267с

13. Горянік Л. В. Тематичний фільтр текстів / Л. В. Горянік, Г.В. Дорохіна / / Штучний інтелект. – 2004. – № 4. – С. 580-586.

14. Дорохіна Г.В. Модель системи розпізнавання разом вимовних фраз / Г.В. Дорохіна / / Штучний інтелект. – 2005. – № 4. – C. 582-594.

15. Дорохіна Г.В. Обмеження кількості гіпотез фрази при розпізнаванні злитого мовлення / Г.В. Дорохіна / / Известия ТРТУ – 2005. – № 10. – C. 54-60.

16. Єрмаков А.Е. Синтаксичний розбір в системах статистичного аналізу тексту [Текст] / А.Е.Ермаков, В.В. Плешко / / Інформаційні технології. – 2002. – С. 279-244.

17. An. Leontieva, “The Module of Morphophonetic Word Processing for Composing a Vocabulary for Russian Continuous Speech Recognizer”. Scientific-theoretical journal “Artificial intelligence”, Donetsk, Ukraine, Vol. 3, 2007, pp. 319-327.

18. Удо Хан. Системи автоматичного реферування [Текст] / Удо Хан, Індерджіет Мані / / Відкриті Системи. – 2000. – № 12 [електронний ресурс]. – Режим доступу: http://www.osp.ru/os/2000/12/178370/).

19. Лущай В.В. Заповнення позиційного складу пропозиції за принципом функціональної еквівалентності: інтроспективний аналіз експліка-ционной граматики / Лущай В.В. – Донецьк: ДонНУ, 2010. – 229 с.

20. Ю.М.Смірнов, А.М.Андреев, Д.В.Березкін, А.В.Брік. Про один спосіб побудови синтаксичного аналізатора текстів на природній мові / / Изв. вузів. Приладобудування, 1997. Т. 40, № 5 – стор 34-42.

21. Адамец П. Кілька зауважень про синтаксичну омонімії в російській мові. / / Системні семантічнскіе звязку мовних одиниць. М.1992.

22. Кагіров І.А., Леонтьєва Ан. Б. Модуль синтаксичного аналізу для літературної російської мови / / Праці СПІІРАН. Вип. 6. – СПб.: Наука, 2008.