ДонНТУ   Портал магистров

Реферат по теме выпускной работы

   

Содержание

Введение

          

Задача интеллектуальной обработки текстов на естественном языке впервые появилась на рубеже 60-х–70-х гг. ХХ в. К настоящему времени произведено множество исследований в этой сфере, разработаны алгоритмы и созданы экспериментальные программы, способные анализировать предложения. Но эти системы не получили широкого распространения из-за узких специализаций либо больших затрат машинного времени и ресурсов.

Компьютерные технологии все больше внедряются в нашу жизнь, задача обеспечения удобного интерфейса общения с техникой становиться все актуальней. Человеку, который не знаком с компьютерами, довольно трудно привыкнуть к управлению такой техникой. Для облегчения этого процесса необходимо максимально приблизить общение «человек-компьютер» к общению «человек-человек».

Обеспечение взаимодействия с электронно-вычислительными машинами (ЭВМ) на естественном языке является важнейшей задачей искусственного интеллекта. К данной области относят задачи машинного перевода, реферирования текстов, организации естественно-языкового интерфейса к системам управления базами данных и информационного поиска текстов.

Одной из важных задач компьютерной обработки естественно-языковых текстов (КОЕЯТ) является выделение в тексте слов, связанных между собой по смыслу. Она возникает при построении онтологий, словарей сочетаемости, извлечении знаний из текстов. В связной речи грамматическим выражением структурно-смысловых отношений является синтаксическая связь.

1. Актуальность темы

В социальном плане значимость лингвистических проблем компьютеризации связана с возникновением новых видов массовой деятельности, включающих построение искусственных языков и машинных словарей, разработку информационных банков, построение алгоритмов обработки текстов, разработку режимов общения в системе «человек-компьютер-человек» и т.д. Вообще, языковой аспект немаловажен для всех основных направлений индустрии обработки знаний, таких как сбор, создание, хранение, систематизация, распространение, интерпретация информации.

Задачей выделения синтаксически связанных слов русского языка занимаются такие известные российские компании: «Гарант-Парк-Интернет», «ИНТЕЛТЕК ПЛЮС», «ДИАЛИНГ». В Украине над данной проблемой работает коллектив Cognitive Technologies. В Украине средства автоматического анализа текста на основе лингвистических методов развиты недостаточно, что указывает на актуальность данной работы.

2. Цель и задачи исследования, планируемые результаты

Цель работы разработка программного обеспечения автоматического выделения синтаксически связанных слов простого распространенного неосложненного предложения русского языка.

Предмет исследования – простые неосложненные распространенные предложения русского языка.

Объект исследования – методы выделения синтаксически связанных слов в предложении.

 Данная работа направлена на развитие автоматического синтаксического анализа на основе лингвистических методов. В ней предложен следующий подход: проводится поиск множества пар словоформ, потенциально связанных между собой; затем над множеством пар проводится полный синтаксический анализ предложения, в результате которого определяется исходное множество синтаксически связанных слов предложения.

3. Обзор исследований и разработок

С точки зрения описания естественного языка формальными теориями различают формально-грамматический и вероятностно-статистический подходы. Формально-грамматический подход направлен на создание сложных систем правил, которые позволяли бы в каждом конкретном случае принимать решение в пользу той или иной синтаксической структуры, а статистические – на сбор статистики встречаемости различных структур в похожем контексте, на основе которого и принимается решение о выборе варианта структуры.

Также известны методы синтаксического анализа, опирающиеся на данные       психологии и   нейрофизиологии. Одним из таких методов является методы выделения ядра предложения.               

Формально-грамматические подходы заложены классификацией формальных языков и грамматик, предложенной Хомским. Для компьютерной лингвистики среди них наиболее важны грамматики конечных автоматов, контекстно-свободные (КС) и контекстно-зависимые грамматики. Для описания естественно-языковых феноменов в основном применяются КС-грамматики с некоторыми расширениями.

Грамматика конечных автоматов (Finite-State Transition Network) формально соответствует простой по возможностям грамматике третьего типа. Конечный автомат содержит набор состояний (нетерминальных символов), среди которых выделяют одно или несколько начальных и конечных, и условия перехода между состояниями. Информацией для перехода по условиям служат символы, поступающие с ленты, которую читает автомат. Иногда конечный автомат может писать символы на другую ленту, в англоязычной традиции такой автомат называют transducer. Часто для лингвистических приложений условия перехода не задаются непосредственно, а вычисляются словарным компонентом, ставящим в соответствие символам или цепочкам символов ленты-символы их обобщенных классов.

Конечные автоматы являются декларативным средством представления, что означает возможность их обратимости, т.е. применения и для анализа, и для синтеза. Они также весьма эффективны с точки зрения скорости работы, но ограничены в возможности описания многих структур, встречающихся в естественном языке, таких как вложенные конструкции, например, из вложенных друг в друга придаточных предложений.

Более высокий уровень грамматик составляют контекстно-свободные грамматики, которые описываются в виде продукций (правил), ставящих в соответствие нетерминальным символам в своих левых частях (до знака «=») набор терминальных и нетерминальных символов в правых частях.

Подобная грамматика описывает такие предложения, как «лис видит волка»; «молодой лис видит старого волка»; «молодой лис видит старого лежачего волка»; «лис лежит» и т.д. Достаточно просто расширить эту грамматику, чтобы представить в словаре русскую морфологию в более полном виде. Заметим, что в данной грамматике выбор конкретного правила для построения глагольных групп (VP-правила) или именных групп (NP-правила) задан вариантами, гарантированный выбор между которыми сделать в рамках данного правила невозможно. Подобная грамматика относится к так называемым недетерминированным грамматикам.

Синтаксис КС-правил очень прост, однако для описания многих феноменов естественного языка простого аппарата КС-грамматики оказывается недостаточно. В частности, контекстно-свободными правилами неудобно описывать согласование (например, в лице и числе между подлежащим и сказуемым). КС-аппарат неудобен также для отображения разорванных зависимостей, вызванных передвижением слов по фразе, или для описания отсутствия составляющих.

В современных зарубежных разработках, направленных на анализ ЕЯ-текстов, большое внимание уделяется именно статистическим схемам анализа. Основу большинства статистических методов анализа составляют так называемые PCFG-грамматики (probabilistic context-free grammars), являющиеся, по сути, КС-грамматиками (контекстно-свободными), в которых каждое правило дополнено некоторой вероятностной оценкой. Хотя использование простой КС-грамматики не позволяет достигнуть требуемой степени точности анализа (этот вывод был сделан еще в начале 1970-х гг.), различные схемы анализа, построенные на расширениях КС-грамматик, успешно используются в современных естественно-языковых системах.

Выбор того или иного способа представления синтаксической структуры в значительной степени связан с устройством алгоритма синтаксического анализа. Формальные грамматики работают, как правило, с синтаксическим представлением в виде дерева составляющих. Привлекательными свойствами графа зависимостей является их экономичность, удобство использования в преобразованиях, возможность представления частичных результатов анализа в виде множества подграфов.

Для создания «точных» алгоритмов семантико-синтаксического анализа текстов, необходимо, чтобы функционирование языка происходило по строгим «правилам», т.е. чтобы язык представлял собой некое исчисление. Примером являются языки программирования высокого уровня. Но естественный язык не исчисление. В нем, если и есть какие-то правила, отмечаемые лингвистами (например «правила грамматики»), то они имеют «размытые» сферы применения и неточны. Язык является универсальным средством общения между людьми, и трудно ожидать простого решения проблемы его моделирования. Он подобен «черному ящику», у которого можно наблюдать только его входы и выходы, а о «механизме» его функционирования можно только строить предположения.

В настоящий момент существуют следующие средства автоматического синтаксического анализа предложений русского языка: RCO Syntactic Engine, ДИАЛИНГ, Solarix, TREETON, МСА.

3.1 Обзор международных источников

RCO Syntactic Engine - библиотека синтаксического анализа текста.

Библиотека полного синтаксического анализа текста на русском языке RCO Syntactic Engine предназначена для решения следующих задач:

-     грамматический разбор предложения с построением дерева синтактико-семантических зависимостей между его словами;

-     выделение понятий предложения с определением их синтаксических и семантических ролей, генерация канонической формы понятий с использованием тезауруса;

-      разрешение морфологической омонимии.

Единицей синтаксического анализа является отдельное предложение текста, для которого строится дерево зависимостей между составляющими его единицами, обычно словами. По результатам анализа может быть получена следующая информация:

-     все слова с указанием части речи и синтаксической роли в предложении (подлежащее, сказуемое, дополнение и т.д.);

-     все слова, синтаксически подчиненные выбранному слову, с указанием типа синтактико-семантической связи;

-     все понятия текста, соответствующие выбранному слову, в канонической форме. В ряде случаев, например, в случае однородных членов или многословных именных групп одному слову может соответствовать несколько понятий.

Анализ каждого предложения текста производится в три этапа:

1) Предсинтаксическая обработка текста.

На этапе предсинтаксической обработки каждое предложение преобразуется в последовательность базовых текстовых единиц, которые обычно соответствуют отдельным словам и знакам препинания. Каждая текстовая единица характеризуется грамматическим описанием, которое в общем случае получается на основании морфологического анализа соответствующей словоформы в предложении. Это описание позволяет установить все грамматические характеристики текстовой единицы, необходимые для правильного связывания ее с другими единицами – часть речи, род, число, падеж и др.

2) Синтаксический анализ предложения

На этапе собственно синтаксического анализа последовательность текстовых единиц подвергается комплексу процедур грамматического разбора в соответствии с правилами согласования и управления в русском языке, в ходе которого используется словарь моделей управления предикатов (глаголов и отглагольных существительных).

Результатом синтаксического разбора предложения является список его семантически значимых текстовых единиц и различных типов отношений между ними. В число значимых единиц включаются все классы имен существительных, глаголов и прилагательных, и не включаются знаки препинания, а также ряд служебных частей речи. Отношения между текстовыми единицами (словами) выдаются в одну сторону – от главной единицы к зависимым, ввиду чего результат анализа представляет собой дерево синтактико-семантических зависимостей, со входами от любой из текстовых единиц.

3) Постсинтаксический анализ дерева зависимостей

Для удобства утилизации результатов синтаксического разбора в прикладных системах в состав библиотеки включен ряд алгоритмов, обеспечивающих этап постсинтаксического анализа дерева зависимостей.

3.2 Обзор национальных источников

Система анализа политических текстов на русском языке (ПОЛИТЕКСТ) (работы Леонтьева [1995]), разработанная в Центре информационных исследований в 1991-97 гг.

Система ПОЛИТЕКСТ содержала полную цепочку анализа текста, вплоть до семантического, который был реализован только частично. В системе ПОЛИТЕКСТ был разработан и опробован семантический аппарат, который представляется нам настолько законченным и совершенным, что его можно заимствовать фактически без изменений. В центре семантического аппарата ПОЛИТЕКСТ два перечня (вернее, две грамматики): семантических характеристик (СХ) и смысловых отношений (СО). Используется минимальное количество семантических характеристик: ВЕЩВО(«вещество»), ИЗМ(«изменение»), ИНТЕЛ(«интеллектуальность»), ИНФ(«информация») и т.д.; слова характеризуются по признаку принадлежности к одному или нескольким классам. СХ обеспечивают проверку семантического согласования при интерпретации связей в тексте. Вместе с тем ПОЛИТЕКСТ не содержала механизмов структурных оценок семантического представления, то есть методов взвешивания не просто одного вхождения текстового элемента, а всей структуры в целом.

Система ПОЛИТЕКСТ была направлена на анализ официальных документов на русском языке и содержала полную цепочку анализаторов текстa: графематический (первичный анализ), морфологический, синтаксический и частично семантический. Программа морфологического анализа была написана заново, поскольку скорость работы была низкой, но сам морфологический аппарат не изменился. Синтаксический анализ системы ПОЛИТЕКСТ обладал рядом инженерных недостатков, поэтому его не удалось перенять.

В итоге, цепочка процессоров (графематический, морфологический и синтаксический) была собрана на базе OOO Диалинг. После этого стала актуальной разработка семантического анализа внутри системы ДИАЛИНГ как логического завершения цепочки анализаторов.

Solarix Выполняет лексический, морфологический и синтаксический разбор предложения с помощью набора простых процедур, доступных из нескольких языков программирования, в том числе C, C++, C#, Delphi, PHP. В частности, синтаксический разбор одного предложения выполняется с помощью функции sol_SyntaxAnalysis. Результатом ее работы будет синтаксическое дерево, в котором явным образом зафиксированы синтаксические отношения элементов предложения.

Процедура синтаксического разбора включает в себя два дополнительных этапа, которые можно выполнить отдельно через специальные функции процедурного API. Во-первых, сначала определяются границы слов в предложении с учетом правил для русского языка (или другого целевого естественного языка, описанного в словаре). Этот этап называется токенизация и доступен через функцию sol_Tokenize. Во-вторых, для каждого слова распознаются его грамматические признаки, такие как падеж, род, число, время и так далее, с учетом возможных неоднозначностей. Этот этап называется морфологическим разбором и может быть выполнен прикладным кодом отдельно с помощью функций sol_ProjectWord и sol_MorphologyAnalysis.

3.3 Обзор локальных источников

МСА. Поскольку число предложений бесконечно,  при синтаксическом разборе имеет смысл ориентироваться на более мелкие единицы – фразовые категории. Фразовые категории – это группы, в которых имеется одна вершина,  а также может быть одно или несколько зависимых от этой вершины. Таким образом, алгоритм автоматического анализа сводится к вычленению фразовой категории в составе предложения и поиску связей между ними.

Для разработки модуля автоматического синтаксического анализа [20] был использован корпус текстов, состоящий из клауз с нераспространенной синтаксической структурой из.  Клаузы составлены в соответствии с нормами литературного русского языка.  Этот корпус,  безусловно,  нуждается в расширении и усложнении, но на нынешнем этапе разработки модуля синтаксического анализа он отвечает основному поставленному требованию:  идентификация отдельных фразовая категория в структуре клаузы и определение связей между ними.

На основании анализа используемого корпуса были выделены пять основных синтаксических групп:  именная группа,  глагольная группа,  группа прилагательного,  предложная группа,  инфинитивная группа.  Для удобства за каждой группой был закреплен порядковый номер. Каждая синтаксическая группа имеет вершину, то есть слово, от которого зависят все остальные слова в группе. Вершиной является имя существительное или личное местоимение. Вершиной глагольной группы – личные формы глагола.

В каждой фразовой категории действуют подчинительные связи одного из трех типов;  на уровне морфологии это находит отражение в том,  что при согласовании зависимое слово принимает те же показатели рода, числа и падежа, что и вершин; при примыкании наблюдается простое синтаксическое соположение вершины и неизменяемого слова-зависимого без дополнительного маркирования на морфологическом уровне, а при управлении зависимое слово стоит в определенном косвенном падеже, причем выбор падежа определяется по словарю, в характеристиках слова-вершины.  Для определения падежа,  в котором стоит зависимое слово при подчинительной связи,  используется словарь [5].  Предполагается со временем создать свой словарь,  специально приспособленный для нужд автоматического синтаксического анализа.

4. Методика синтаксического анализа сегментов

Предложенная методика состоит из последовательности этапов.

На первом этапе проводим морфологический анализ словоформ предложения. В результате предложение из N слово­форм представляется вектором (4.1):

                                    S = (s1,..., si,..., sN).                                            (4.1)

 

Здесь i – номер словоформы в предложении, si – множество вариантов интерпретации i-ой словоформы.

Согласно этому представлению предложение описывается вектором множеств вариантов интерпретаций каждой словоформы. Каждый вариант интерпретации состоит из пары – написание леммы и её морфологической информации.

На втором этапе выполняем поиск пар потенциально связанных вариантов интерпретации словоформ, для чего вводим отношение η(x,y,t). Оно принимает значение 1, если между вариантами интерпретации пары словоформ   возможна синтаксическая связь . Причем xглавное слово, y – зависимое, а T – множество типов связей, объединяющее множество связей между главными членами предложения Tm и множество связей со второстепенными членами предложения Ta (управление, согласование, примыкание). Элементы множества Tm использованы для задания шаблонов минимальных структурных схемах (МСС) h={t},.

 

                                      T=Tm È Ta,                                                   (4.3)

 

где Tm – множество связей между главными членами предложения, основанные на МСС предложения, Ta – множество связей со второстепенными членами предложения.

На третьем этапе сокращения количества вариантов интерпретаций словоформ множество троек (x,y,t), для которых η (x,y,t)=1, обозначим через R. Множество первых компонент этих троек (главных слов) обозначим через A, множество вторых компонент (зависимых слов) обозначим через B:

 

                          R={(x,y)}: xÎei, yÎeh, i¹h, h (x, y)   

                          А={x}: $(x,y)ÎR, B={y}: $(x,y)ÎR.                             (4.4)

 

Введём критерий отсутствия в предложении словоформ, не связанных с другими словоформами. Для каждой словоформы хотя бы один вариант её интерпретации должен принадлежать либо множеству главных, либо множеству зависимых слов:

 

                                    "i = $  zÎsi : zÎ (AÈB).                                    (4.5)

 

Предложение не удовлетворяющее данному критерию можно не рассматривать, поскольку оно синтаксически не связано.

В остальных предложениях сокращаем количество вариантов интерпретаций словоформ путём формирования вектора S¢. В него войдут только те варианты интерпретаций словоформ, которые участвуют в синтаксических связях в качестве главного либо зависимого слова:

 

                                    S¢ = (s¢1, ..., s¢i, ..., s¢N),

                             s¢i Í si : " zÎ s¢i  (zÎA)Ú( zÎB).                                 (4.6)

 

Множество D возможных морфологических разметок предложения (МРП) можно получить как декартово произведение S¢.

 

                                    D=s¢1´...´ s¢i´...´ s¢N,

                               D={dk : dk}.                                   (4.7)

 

Для морфологической разметки dk введем критерий отсутствия словоформы не связанной с другими словоформами. Для этого сформируем множества:

Fk – множество компонент морфологической разметки dk,

Rk – множество синтаксически связных пар этих компонент,

Ak – множество компонент главных связей,

Bk – множество компонент зависимых связей.

Введенные множества позволяют сформировать критерий отсутствия в возможной морфологической разметке обособленных словоформ.

 

                                    Fk = {dki :  }   

                          Rk={(x,y): (x,y)Î R, xÎFk, yÎFk}

                                    Ak={x: (x,y) Î Rk }

                                    Bk={y: (x,y) Î Rk }

                                 "i =dki Î (AkÈBk).                                    (4.8)

      

Согласно следующему критерию мощность множества слов, которые являются главными и не являются зависимыми должна быть меньше или равна 1. Иначе получаем более двух компонент связности. 

Один из способов выражения синтаксических связей между словами предполагает использование предлога. Чтобы не нарушать общности введенного формализма предложную связь будем выражать двумя связями между парами слов, в одной из которых предлог – зависимое слово, в другой является главным.

Pr – множество предлогов русского языка.

 

                                    " zÎPrFk  zÎBkАk                                       (4.10)

 

В ряде МРП dk присутствуют словоформы, не связанные с другими словоформами предложения. Также могут присутствовать dk, у которых предлоги не входят во множество главных слов A. Такие МРП нужно исключить.

Переходим к четвертому этапу – выбору допустимых связей между словами. Пара (Fk, Rk) описывает орграф, в котором Fk множество вершин, а связи  являются именованными ребрами из вершины x в вершину y с именем t. Подграфы этого графа возможно являются деревьями. Не все они являются деревьями синтаксического подчинения (ДСП). Принимать решение о корректности МРП и допустимости отдельных связей из множества Rk будем, исходя из критериев: односвязность орграфов, заданных Fk и подмножествами связей Rk, не противоречащих шаблонам МСС; равенство 1 полустепени захода вершин этих орграфов.

Анализируем соответствие Rk шаблону МСС h. Для этого введем множество Rm={Rmi}, где RmiÍRk одного типа, причем этот тип входит в шаблон h. 

При |Rm|<|h| предложение не соответствует h.

Введем RM={rmv}, где RM Í Rm1´...´Rmi´...´ Rml и rmv=((x1,y1,t1), ...,(xl,yl,tl)) : при l >1 x1=x2,"i>1 xi+1=yl.

Элемент rmv – основа для создания ДСП по шаблону h. Пусть g={(x,y,t)}, где (x,y,t) – элементы вектора rmv. В него необходимо добавить второстепенные связи множества c.

Если орграф (g', Rk) не односвязный, то по rmv невозможно построить корректное ДСП.

Иначе остается решить проблему вершин с полустепенью захода больше 1. Для каждой такой вершины оставляем по одной связи, исходя из требования: длина пути от корневой вершины до неё – максимальна. Если имеется одна вершина, в которую приводят n конкурирующих связей по путям одинаковой длины, считаем, что имеет место синтаксическая омонимия и все n связей корректны, а паре (Fk, g') соответствует n различных ДСП.

Перечень пар синтаксически связанных пар слов – объединение признанных корректными связей множества g', которые построены по всем Rmi для каждого Fk и шаблона h.

Выводы

Данная работа направлена на разработку программного обеспечения автоматического выделения синтаксически связанных слов простого распространенного осложненного предложения.

Для достижения этой цели проведен обзор методов и средств синтаксического анализа. Он показал, что в настоящее время формально-грамматические методы анализа постепенно вытесняются методами, в той или иной форме использующими вероятностные оценки.

Методы вероятностного типа принципиально не способны обеспечить 100%-ную точность анализа, однако их результаты при работе с реальными текстами оказывается вполне удовлетворительными для многих применений. Хотя затраты на разработку вероятностных анализаторов могут быть существенно ниже, чем на создание исчерпывающих структурно-грамматических моделей естественного языка, но имеют меньшую точность и полноту анализа.

Проанализированы структуры сложных и осложненных предложений: типы их сегментов, функции знаков препинания, союзов и союзных слов. В результате анализа были сделаны следующие выводы о том, что до выполнения синтаксического анализа мы не имеем возможности определить является ли предложение сложным или осложненным. Поэтому анализ сложных, осложненных и простых предложений будем проводить по единому алгоритму.

Разработан алгоритм в виде общей схемы анализа предложения, определен перечень информационных ресурсов (база устойчивых сочетаний знаков препинания, база устойчивых словосочетаний и союзов, база сложных предлогов и предложных слов), изложен алгоритм синтаксического анализа сегментов предложения.

Используемые материалы

1.   Валгина Н.С. Синтаксис современного русского языка: Учебник / Валгина Н.С.М.: Агар, 2000.416 с.

2. Дручинина Вероника. Извлечение информативных фрагментов текста для автоматического реферата [Текст] / Вероника Дручинина // Лінгвокомпютерні дослідження : зб. наук. праць / Донецький національний університет / Укл.: А. Загнітко (відп. ред.), Ж. Краснобаєва-Чорна (заст. відп. ред.) та ін.Донецьк : ДонНУ. 2011.Вип. 4.С.39-42.

3.  Кулагина О.С. Исследования по машинному переводу / Кулагина О.С.М. : Наука, 1979.279 с.

4. Белоногов Г.Г. Компьютерная лингвистика и перспективные информационные технологии / Белоногов Г.Г.М. : Русский мир, 2004.189 с.

5. Гладкий А.В. Синтаксические структуры естественного языка в автоматизированных системах / Гладкий А.В.М. : Наука,1985,334 с.

6.   Белошапкова В.А. Современный русский язык / Белошапкова В.А.М. : Азбуковник, 1997.928 с.

7. Леонтьева Н.Н. Строение семантического компонента а информационной модели автоматического понимания текста / Леонтьева Н.Н. .М. : Азбуковник,1990,229 с.

8.  Синтаксис русского языка [Электронный ресурс].Режим доступа: http://shkola.lv/

9.  Дорохина Г.В. Модуль морфологического анализа слов русского языка / Г.В. Дорохина, А.П. Павлюкова // Искусственный интеллект.2004,С. 636-642.

10. Дорохина Г. В. Модуль морфологического анализа без словаря слов русского языка / Г. В. Дорохина, В. Ю. Трунов, Е. В. Шилова // Искусственный интеллект. – №2.2010.С.32-36.

11. Дорохина Г.В. Коррекция словарной базы модуля морфологического анализа «РДМА_ИПИИ» / Г.В. Дорохина, В.А. Акчурин // Искусственный интеллект. – № 3.2010.С. 191-195.

12. Ингве В. Синтаксис и проблема многозначности / Ингве В.// Машинный перевод. М.:1957. – 267с

13. Горяник Л. В. Тематический фильтр текстов / Л. В. Горяник, Г.В. Дорохина // Искусственный интеллект.2004. – № 4.С. 580-586.

14. Дорохина Г.В. Модель системы распознавания слитно произносимых фраз / Г.В. Дорохина // Искусственный интеллект.2005. – № 4.C. 582-594.

15. Дорохина Г.В. Ограничение количества гипотез фразы при распознавании слитной речи / Г.В. Дорохина // Известия ТРТУ2005. – № 10.C. 54-60.

16. Ермаков А.Е. Синтаксический разбор в системах статистического анализа текста [Текст] / А.Е.Ермаков, В.В. Плешко // Информационные технологии.2002. – С. 279-244.

17.  An. Leontieva, «The Module of Morphophonetic Word Processing for Composing a Vocabulary for Russian Continuous Speech Recognizer». Scientific-theoretical journal «Artificial intelligence», Donetsk, Ukraine, Vol. 3, 2007, pp. 319327.

18. Удо Хан. Системы автоматического реферирования [Текст] / Удо Хан, Индерджиет Мани // Открытые Системы.2000. – № 12 [электронный ресурс]. Режим доступа: http://www.osp.ru/os/2000/12/178370/).

19. Лущай В.В. Заполнение позиционного состава предложения: интроспективный анализ эксплика- ционной грамматики / Лущай В.В.Донецк : ДонНУ, 2010.229 с.

20. Ю.М.Смирнов, А.М.Андреев, Д.В.Березкин, А.В.Брик. Об одном способе построения синтаксического анализатора текстов на естественном языке // Изв. вузов. Приборостроение, 1997. Т. 40,5.

21. Адамец П. Несколько замечаний о синтаксической  омонимии  в русском языке.//Системные семантичнские  связи языковых  единиц.  М.1992.

22.   Кагиров И.А., Леонтьева Ан. Б. Модуль синтаксического анализа для литературного русского языка // Труды СПИИРАН. Вып. 6. — СПб.: Наука, 2008.