Українська   English
ДонНТУ   Портал магистров

Реферат по теме выпускной работы

Содержание

Введение

Особая роль языкознания в решении практических проблем и потребностей общества определяется самой сущностью естественного человеческого языка, являющегося уникальным средством хранения и передачи информации. Выявление формальных структур естественного языка (ЕЯ), формализация языка в целом, построение конструктивной теории и компьютерной модели языка являются приоритетными направлениями информатики на протяжении последних десятилетий.

Задача интеллектуальной обработки текстов на естественном языке впервые появилась на рубеже 60‐х–70‐х гг. ХХ в. Появление ЭВМ, возникновение теории Н. Хомского и генеративной модели языка привело к тесному взаимодействию между лингвистикой и компьютерными науками, к зарождению компьютерной лингвистики. Ее задача – разработка вычислительных алгоритмов и программ на основе формальных языковых моделей, созданных в рамках математической лингвистики.

Самые большие возможности и высокое качество анализа текстов можно получить, проведя его полный лингвистический анализ. Лингвистический процессор (ЛП) системы, поддерживающей полный анализ ЕЯ-текста, содержит 3 основных компонента, соответствующие уровням языка: морфологическому, синтаксическому и семантическому. Вход одного компонента анализа является выходом другого. Морфологический компонент строит морфологическую интерпретацию слов входного текста; синтаксический – синтаксическую структуру предложения; семантический – семантический граф текста.

Выделение в тексте слов, связанных между собой по смыслу – неотъемлемый этап извлечения знаний из ЕЯ‐текстов. Без качественного синтаксического анализа решение этой задачи невозможно, поскольку грамматическим выражением структурно‐смысловых отношений является синтаксическая связь. Синтаксис описывает способы соединения словоформ в словосочетания и предложения, типы синтаксических связей слов и предложений, то есть те механизмы языка, которые способствуют формированию речи. В ходе синтаксического анализа исходный текст преобразуется в структуру данных, обычно – в дерево, которое отражает синтаксическую структуру входной последовательности словоформ и хорошо подходит для последующей обработки на семантическом уровне.

1. Актуальность темы

Системы информационного поиска, диалоговые системы, инструментальные средства для машинного перевода и автореферирования, рубрикаторы и модули проверки правописания, так или иначе, проводят анализ ЕЯ‐текстов. Таким образом, область применения систем автоматической обработки текстов достаточно разнообразна, а в виду большого роста объемов текстовой информации и сложной ее структурированности, анализ ЕЯ‐текстов представляет собой очень актуальную проблему.

На сегодня создание полноценного ЛП является одной из самых актуальных задач в компьютерной лингвистики, решение которой позволило бы достичь высокого уровня формализации языковых структур в разнообразных прикладных целях. Построение достоверных синтаксических структур всех подряд предложений текста – очень важная и нужная ступень в автоматическом понимании текста. Описание сущностей входного текста, определение их свойств и отношений между ними решается уже на уровне синтаксической модели, так как проявляются на уровне общей схемы, не зависящей от смысла высказываний, поэтому морфолого‐синтаксические признаки и структуры привлекаются в качестве правил локального контекстного разбора. Таким образом, синтаксический анализ определяет качество работы ЛП в целом, что делает создание эффективного синтаксического компонента актуальной задачей.

2. Цель и задачи исследования

Цель работы – разработка методики выявления синтаксических групп в английском предложении.

Основные задачи исследования:

  1. Провести аналитический обзор методов автоматического синтаксического анализа.
  2. Изучить типы синтаксической связи словоформ в английских предложениях.
  3. Разработать формальные правила построения простых синтаксических групп внутри предложения.
  4. Изучить минимальные структурные схемы (МСС) простых предложений английского языка и разработать словарь шаблонов МСС для автоматического выделения предикатного ядра предложения.
  5. На основе формальных правил разработать алгоритмы выделения синтаксических групп и реализовать их в соответствующем ПО.

Объект исследования: семантический анализ предложений.

Предмет исследования: выявление синтаксических групп.

Методы исследования: методы автоматического синтаксического анализа предложений ЕЯ‐текстов.

3. Обзор исследований и разработок

Основная задача синтаксического анализа – используя морфологическую информацию о словоформах, построить синтаксическую структуру входного предложения.

Наиболее распространенными формами синтаксической структуры предложений являются графы зависимостей и графы непосредственных составляющих (НС), они используются в чистом виде или в смешанных формах, сочетающих в себе свойства обоих графов [1,2].

Описание структур в виде классического графа зависимостей основывается на понятии бинарного словосочетания в предложении с выделенными главными и зависимыми элементами. Элементы отображаются узлами графа, подчинение одного узла другому – направленными дугами, вследствие чего граф зависимостей является ориентированным графом. Обычно один узел графа, который в большинстве моделей соответствует сказуемому, не имеет узла, которому он подчиняется, и называется вершиной. Иногда подлежащее и сказуемое обозначаются двумя вершинами.

Отношение подчинения задает частичный порядок на множестве узлов. Если одному узлу подчиняются несколько узлов, то между ними порядок не определен: граф зависимостей не передает информации об относительной степени близости зависимого слова к главному. Обычно отношение подчинения подразделяется на ряд типов, и дуги графа отмечаются индексами синтаксических отношений.

В основе модели дерева НС лежит представление о построении предложения как о последовательном попарном синтагматическом сцеплении составляющих от минимальных отдельных слов до максимальной – предложения, составляющими которого в случае полного личного предложения является группа подлежащего и группа сказуемого.

Представление синтаксической структуры в виде дерева НС хорошо согласовано с традиционным разбором предложения, при котором подлежащее, сказуемое и их элементы описываются категориальными характеристиками – именами частей речи или групп.

Следует подчеркнуть, что деревья НС и деревья зависимостей характеризуют синтаксическую структуру предложения в разных аспектах. С помощью первых описывают в явном виде словосочетания, но игнорируется ориентация связей; вторые дают возможность рассмотреть направленные связи, но только между отдельными словами.

Существующие способы представления синтаксических структур имеют определенные недостатки: деревья подчинения не учитывают связей между словосочетаниями и синтаксически целостными группами слов, системы непосредственных составляющих игнорируют направленные связи и не позволяют описывать разрывные словосочетания. Кроме того, в этих представлениях члены предложения определяются на основе формальных признаков, а не по отношению к их семантическому содержанию. Поэтому ни одна из моделей не дает полного представления о синтаксической структуре предложения.

С точки зрения описания естественного языка формальными теориями выделяют формально‐грамматический и вероятностно‐статистический подходы. Формально‐грамматический подход направлен на создание сложных систем правил, которые позволили бы в каждом отдельном случае принимать решение в пользу той или иной структуры, а статистические – на сбор статистики встречаемости различных структур в похожем контексте, на основании которого и принимается решение о выборе варианта структуры.

Формально‐грамматические подходы заложены классификацией формальных языков и грамматик, которую предложил Хомский. Для компьютерной лингвистики среди них наиболее важными являются грамматики конечных автоматов, контекстно‐свободные (КС) и контекстно‐зависимые грамматики.

Конечные автоматы являются декларативным средством представления и очень эффективны с точки зрения скорости работы, но ограничены в возможности описания многих структур естественного языка, например, вложенных придаточных предложений.

Более высокий уровень представлен КС‐грамматиками, описываемых в виде продукций, которые ставят в соответствие нетерминальным символам левой части набор терминальных и нетерминальных символов в правой части. Синтаксис КС‐грамматики достаточно прост, однако для описания некоторых феноменов естественного языка простого аппарата КС‐грамматики оказывается недостаточно. В частности, контекстно‐свободными правилами неудобно описывать согласование (например, в лице и числе между подлежащим и сказуемым), отображать разорванные зависимостей, вызванные передвижением слов по фразе. Кроме того, правило, которое выражает отношения между составляющими, не отражает важную особенность естественных языков – поглощение одной категорией другой, так что новая составляющая выступает заменителем управляющей категории.

Основу большинства вероятностно‐статистических методов анализа составляют так называемые PCFG‐грамматики (probabilistic context‐free grammars), в которых каждое правило дополнено некоторой вероятностной оценкой.

3.1 Обзор международных источников

Общим подходом к проведению синтаксического анализа является его разбиение на несколько этапов [3,4]: сегментация, частичное снятие омонимии, построение синтаксической структуры предложения.

Сегментация на предложения выполняется в общем случае с учетом терминальных знаков пунктуации. Для языков с латинским или кириллическим алфавитом сегментация на слова выполняется с учетом разделительных пробелов между словами и разделительных знаков пунктуации.

Следующим этапом синтаксического анализа является разрешение неоднозначности разметки, т.е. выбор правильной метки из множества возможных меток. В классической грамматике выделяют, как правило, 11 частей речи: существительное, глагол, прилагательное, наречие, местоимение, предлог, союз, артикль, числительное, междометье, частица. Однако для синтаксического разбора этот набор не является достаточным и служит базой для разработки более широкой системы меток, которые могут содержать до нескольких десятков меток. Так, широко используемые наборы меток Brown Corpus и Penn Treebank использует 87 и 45 меток соответственно [5].

Оценить опыт ведущих разработчиков в области создания систем обработки текста можно по опубликованным материалам форума Оценка методов автоматического анализа текста [6]. Рассмотрим организацию систем, принимавших участие в соревновании синтаксических парсеров и показавших лучшие результаты, а именно: ABBYY Syntactic and Semantic Parser, ЭТАП‐3, SyntAutom, SemSin.

ABBYY Syntactic and Semantic Parser [7] при анализе текста использует словарь синтаксических парадигм слов, задающий правила употребления лексемы в зависимости от её класса, и дерево универсальных семантических значений и отношений между ними.

Метод анализа текста, используемый ABBYY Syntactic and Semantic Parser, позволяет выполнять полный анализ предложений с высокой точностью. Однако данный метод использует базы данных, исчерпывающе описывающие перечень синтаксических конструкций, в которых употребляется лексема, и её соответствующие написания, а также дерево универсальных семантических значений и отношений между ними. Себестоимость создания таких ресурсов и специфика коммерческой деятельности, в рамках которой они были созданы, позволяет предположить, что в свободном доступе эти ресурсы не появятся, и указывает на проблематичность воссоздания подобных ресурсов за обозримое время каким-либо научным коллективом, коммерческой организацией или научно‐производственным объединением.

Синтаксический парсер лингвистического процессора ЭТАП‐3 [8] определяет синтаксическую структуру фразы в виде дерева зависимостей, которое строится с помощью нескольких сотен специальных бинарных правил (синтагм). Синтагма связывает синтаксическим отношением не слова фразы, а некоторую пару омонимов этих слов, если они представлены в начале синтаксического анализа несколькими (морфологическими и/или лексическими) омонимами. Таким образом, омонимы слов фразы могут связываться синтаксическими отношениями независимо друг от друга.

В результате работы синтагм на первом этапе синтаксического анализа возникает граф гипотетических синтаксических связей. На дальнейших этапах синтаксического анализатора, посторонние связи различными средствами отфильтровываются, и из графа синтаксических гипотез выделяется дерево синтаксической структуры фразы. Зачастую некоторая языковая конфигурация, будучи погружена в другие контексты, образует другую синтаксическую конструкцию и должна анализироваться уже иначе. Предусмотреть все эти контексты при написании синтагм невозможно в принципе. Из этого следует, что синтагмы неизбежно будут порождать в ряде случаев лишние, неверные синтаксические гипотезы. Как показывает опыт эксплуатации парсера ЭТАПа‐3, для больших фраз количество гипотез может достигать величины 20‐30 n, где n– число слов фразы.

SyntAutom [9] – система, основанная на правилах разбора, построенных вручную. Использует:

Системе присущи общие проблемы большинства систем, основанных на правилах: существуют пределы, за которыми трудно увеличить грамматическое покрытие, из-за комбинаторного роста в комбинаторике и падения в точности.

SemSin [10] – это семантико‐синтаксический анализатор, в задачи которого входит снятие частеречной и морфологической неоднозначности, построение синтаксического дерева зависимостей и частичное снятие лексической неоднозначности. Система создана небольшим коллективом в достаточно сжатые сроки. Использует следующие лингвистические ресурсы:

  1. Морфологический и семантический словари, в которых каждая лексема содержит морфологические характеристики и модели управления слов (актанты вызываемых ею лексем в виде падежей или предлогов с соответствующими падежами).
  2. База фразеологизмов.
  3. База предлогов с моделями управления.
  4. База продукционных правил (около 210).

В процессе анализа предложения система сегментирует его, устанавливает главное слово сегмента (центр сегмента), может объединять сегменты, подчинять их.

3.2 Обзор национальных источников

Для повышения качества синтаксического разбора наиболее оптимальным представляется использовать для формирования синтаксических моделей свойство предикативности, одной из важнейших характеристик простого предложения [11,12]. Предикат – центральная синтаксема в семантическом простом элементарном предложении, формирующая его семантико‐синтаксическую структуру. Предикативно связанные грамматические субъект и предикат квалифицируются как главные члены предложения, поскольку они формируют его конструктивный минимум.

В работах [13,14] предложена синтаксическая модель предложения в виде предикатной структуры, для формирования которой необходимо использовать лингвистические знания в виде семантического словаря предикатов [15], разработан метод синтаксического анализа, формирующий эту синтаксическую модель и опирающийся на словари шаблонов МСС [16] и набор правил выделения синтаксических связей пар слов [17].

Описанная в работе синтаксическая модель позволяет полностью выявлять как предикативные так и синтагматические отношения, описывает не только аргументную структуру и количество актантов предиката, но также учитывает их семантическое содержание, используя семантическую классификацию предикатов.

4. Подход к выделению синтаксических групп предложений английского языка

Правила выделения синтаксических групп предложения должны разрабатываться на основе информации о словах, полученной на этапе морфологического анализа. Таким образом, каждое предложение представимо в виде:

S = (s[1],..., s[i],..., s[N]),

где s[i] = {s[i][1],..., s[i][j],..., s[i][N]} – вектор множеств интерпретаций словоформ, при этом каждое множество интерпретаций s[i] является массивом пар (лемма, морфологические характеристики).

При формировании синтаксических групп английского предложения согласно предложенному подходу выполняют следующие шаги.

1. Выделение в отдельные группы последовательностей слов:

Эти операции выполняются в указанной последовательности. При этом в выделенной последовательности слова не должны быть разделены ни знаками препинания, ни союзами или другими словами.

Графически общая схема работы лингвистического процессора представлена на рисунке 1.

Общая схема работы лингвистического процессора

Рисунок 1 – Общая схема работы лингвистического процессора
(анимация: 6 кадров, 10 циклов повторения, 138 килобайт)

На выходе – наборы звездочек: s[i] s[j], под звездочкой понимается конструкция, включающая главное слово s[i], связанное с множеством зависимых слов s[j], отстюящими от главного на одну связь. Связи направлены от главного слова к зависимым.

2. Формирование предикатного ядра предложения.

Результатом применения правил к предложениям является структура (PRED, Subj), описывающая предикативный минимум предложения, где PRED – ядро предиката, глагольная конструкция; Subj – грамматический субъект, являющийся левосторонним актантом предиката PRED.

Этот этап использует словарь шаблонов МСС для выделения потенциальных синтаксических связей между главными членами предложения.

Синтаксическим существительным английского предложения может выступать существительное или субстантивное словосочетание, местоимение, глагол в форме инфинитива или глагольная конструкция с инфинитивным ядром, глагол в форме герундия или глагольная конструкция с ядром‐герундием, инфинитивное предикативное словосочетание, герундиальное предикативное словосочетание, составная разрывная конструкция, включающая слова there и it.

Сказуемым могут выступать одиночный глагол в простой или аналитической форме, глагол‐связка to be с последующим именным членом, модальный глагол с последующей глагольной конструкцией, подчинительное словосочетание, сочинительное словосочетание (табл. 4.1).

Таблица 4.1 – Формы слов, входящих в МСС

Форма слова Сокращение
1. Показатели предикативности
Непереходный личный глагол Vi
Переходный личный глагол Vt
Спрягаемая форма глагола‐связки to be be
Глаголы‐связки, отличные от to be (to seem, to become) Vb
Глагол действия, выступающий в роли глагола‐связки Vs
Вспомогательный глагол, выступающий в роли смыслового глагола Vh
2. Имена и наречия
Именная группа, представленная существительным в общем падеже либо местоимением NP
Субстантив, выраженный существительным, прилагательным или причастием subs
Адъективная группа, выраженная прилагательным Adj
Наречная группа или предложная группа, способная сочетаться со связкой AdvP

Для классификации МСС предложений был использован функционально‐позиционный признак (S – подлежащее, P – сказуемое, O1, O2 – объекты различного вида, Comp – дополнение):

  1. SP – The bird sings.
  2. SP Comps – He is a boy.
  3. SP O1 – The hunter killed a bear.
  4. SP O2O1 – Albert gave him a book.
  5. SP O1Compo – He painted the door green.
  6. There PS – There is a book on the table.

Основные 7 подтипов ядерных предложений английского языка, описанные с помощью введенных в таблице 4.1 обозначений, представлены в таблице 4.2.

Таблица 4.2 – Минимальные структуры предложений

п/п

Шаблон Пример
1 NP + Vi John worked.
2 NP + Vt + NP John paid the bill.
3 NP + be + subs John is heroic (a hero).
4 NP + be + AdvP John is in the room.
5 NP + Vb + subs John became a hero (heroic).
6 NP + Vs + Adj John felt sad.
7 NP + Vh + NP John has a car.

Выводы

Данная работа направлена на улучшение автоматического синтаксического анализа английских предложений.

Проведенный обзор методов автоматического синтаксического анализа, моделей представления синтаксической структуры предложений показал, что модель в виде предикатной структуры является наиболее перспективной, поскольку позволяет описывать не только аргументную структуру и количество актантов предиката, но также учитывать их семантическое содержание, используя семантическую классификацию предикатов.

В процессе выполнения работы будут разработаны:

Развитием темы выпускной работы станет разработка на основе алгоритмов выявления синтаксических групп парсера английских текстов, который позволит получать синтаксическую структуру предложений в виде предикатной структуры и повысить качество дальнейшего семантического анализа. Предикатная модель – путь к пониманию текста, которое тесно связано с выявлением предикатных структур, характеризующих смысл предложений, а также – цепочек этих предикатных структур, которые опосредуют смысл текста [18].

Список источников

  1. Гладкий А.В. Синтаксические структуры естественного языка в автоматизированных системах общения. – М.: Наука, 1985. – 144 с.
  2. Ножов И.М. Морфологическая и синтаксическая обработка текста (модели программы). – М.: Наука, 2003 – 140 с.
  3. Автоматическая обработка текстов на естественном языке и компьютерная лингвистика: учеб. пособие / Большакова Е.И. и др. – М.: МИЭМ, 2011.]
  4. Автоматическая Обработка Текста [Электронный ресурс]. – Режим доступа: http://www.aot.ru/technology....
  5. Taylor A., Marcus M., Santorini B. The Penn Treebank: The Overview // ARPA Human Language Technology Workshop, 1998. – P. 3–22.
  6. Толдова С.Ю., Соколова Е.Г., Астафьева И., Гарейшина А., Королева А., Привознов Д., Сидорова Е., Тупикина Л., Ляшевская О.Н. Оценка методов автоматического анализа текста 2011–2012: синтаксические парсеры русского языка // Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Международной конференции Диалог (Бекасово, 30 мая – 3 июня 2012 г.). Вып. 11 (18): В 2 т. Т. 2: Доклады специальных секций – М.: Изд-во РГГУ, 2012. – С. 77–90.
  7. Anisimovich K.V., Druzhkin K.Ju., Minlos F.R., Petrova M.A., Selegey V.P., Zuev K.A. Syntactic and semantic parser based on ABBYY Compreno linguistic technologies // Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Международной конференции Диалог (Бекасово, 30 мая–3 июня 2012 г.). Вып. 11 (18): В 2 т. Т. 2: Доклады специальных секций – М.: Изд-во РГГУ, 2012. – С. 91–103.
  8. Iomdin L., Petrochenkov V., Sizov V., Tsinman L. ETAP parser: state of the art // Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Международной конференции Диалог (Бекасово, 30 мая–3 июня 2012 г.). Вып. 11 (18): В 2 т. Т. 2: Доклады специальных секций – М.: Изд-во РГГУ, 2012. – С. 119–131.
  9. Antonova A.A., Misyurev A.V. Russian dependency parser SyntAutom at the DIALOGUE – 2012 parser evaluation task // Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Международной конференции Диалог (Бекасово, 30 мая–3 июня 2012 г.). Вып. 11 (18): В 2 т. Т. 2: Доклады специальных секций – М.: Изд-во РГГУ, 2012. – С. 104–118.
  10. Каневский Е.А., Боярский К.К. Семантико-синтаксический анализатор SemSin [Электронный ресурс]. – Режим доступа: http://www.dialog-21.ru/digests/dialog2012/materials/pdf/Kanevsky....
  11. Загнітко А.П. Теоретична граматика української мови: Синтаксис: Монографія. Донецьк: ДонНУ, 2001. – 662 с.
  12. Вихованець І.Р. Частини мови в семантико-граматичному аспекті / І.Р. Вихованець. – К.: Наук. думка, 1988. – 256 с.
  13. Ермоленко Т.В. Синтаксическая модель предложения русского языка на основе предикатных структур // Искусственный интеллект. – 2012. – № 3. – С. 126–136.
  14. Харламов А.А., Ермоленко Т.В. Разработка компонента синтаксического анализа предложений русского языка для интеллектуальной системы обработки естественно-языкового текста // Программная инженерия № 7, 2013. С. 37–47.
  15. Бондаренко Е.А. Принципы автоматической обработки естественно-языковых текстов: валентностный подход / Е.А. Бондаренко, О.А. Каплина // Искусственный интеллект. – 2013. – N 1. – С. 80–90.
  16. Харламов А.А. Метод выделения главных членов предложения в виде предикативных структур, использующих минимальные структурные схемы / А.А Харламов, Т.В. Ермоленко, Г.В. Дорохина, Д.С. Гнитько // Речевые технологии. – 2012. – № 2. – С. 75–85.
  17. Дорохина Г.В. Автоматическое выделение синтаксически связанных слов простого распространенного неосложненного предложения / Г.В. Дорохина, Д.С. Гнитько // Сучасна інформаційна Україна: інформатика, економіка, філософія: матеріали доповідей конференції, 12 – 13 травня 2011 року, Донецьк, 2011. Т. 1. – С. 34–38.
  18. Alexander A. Kharlamov, Tatyana V. Yermolenko, Andrey A. Zhonin Text Understanding as Interpretation of Predicative Structure Strings of Main Text’s Sentences as Result of Pragmatic Analysis (Combination of Linguistic and Statistic Approaches) // Speech and Computer 15th International Conference, SPECOM 2013, Pilsen, Czech Republic, Septenber 2013. Proceedings. – P. 333–339.

Важное замечание

При написании данного реферата магистерская работа еще не завершена. Окончательное завершение: декабрь 2014 года. Полный текст работы и материалы по теме могут быть получены у автора или его руководителя после указанной даты.