Леонов Андрей Дмитриевич

Факультет компьютерных наук и технологий

Кафедра систем искусственного интеллекта

Специальность «Системы искусственного интеллекта»

Методы автоматизированной коррекции специализированных естественно-языковых текстов

Научный руководитель: к.т.н., доц. Бабаков Роман Маркович
Реферат
Содержание
Введение

Корректировка текстовой информации является одной из важнейших составляющих проектов, имеющих целью автоматизацию документооборота. В настоящее время, благодаря использованию компьютерных технологий, были развиты многие методы коррекции текстовой информации, благодаря чему стало возможным создание таких систем, которые удовлетворяли бы основным требованиям систем автоматизации документооборота. Однако перед приложениями по-прежнему ставятся задачи увеличения быстродействия и качества корректировки, минимизации затрачиваемой памяти, что требует дополнительных исследований в данной области.

Современные текстовые редакторы при проверке текстовой информации не корректируют ошибки, а предлагают варианты для их исправления. Это требует вмешательства пользователя, что не всегда удобно. Автоматическая коррекция орфографических ошибок может быть более эффективным средством минимизации опечаток и их исправлений при создании электронных текстовых файлов. Данная тема и стала целью исследования.

1. Актуальность темы

Проникновение электронной информации во все слои человеческой деятельности заставляет библиотечные учреждения активно осваивать современные информационные технологии, внедрять автоматизированные системы, создавать электронные библиотеки, развивать Интернет-услуги. Цивилизованный библиотечный мир однозначно воспринимает эти изменения как одну из характерных тенденций общества будущего, как систему, облегчающую доступ пользователей к информационным ресурсам.

В связи с ростом числа электронных научных изданий постоянно увеличивается число издательств, редакционно-издательских отделов ВУЗов и научных учреждений, индивидуальных авторов, использующих электронные устройства для написания различных статей, диссертаций и т.п. При этом уровень подготовки пользователей в компьютерной области, знания типографических правил и традиций остается невысоким. К таким правилам относятся оформление заголовков, списков, таблиц, библиографии, формул, чисел, и многое другое. Ошибки, связанные с несоблюдением этих правил, называются типографическими. При текущем уровне технологий исправление таких ошибок производится корректорами вручную, что требует значительных затрат времени. Большинство ошибок являются типовыми, что создает предпосылки для автоматизации процесса корректуры.

Автоматизация стадии корректуры при подготовке научных изданий позволила бы существенно сократить затраты и сроки и повысить качество электронной текстовой информации. В данной работе эта задача ставится как задача автоматической обработки специализированных текстов.

На данный момент существуют качественные инструменты для автоматического поиска и исправления орфографических ошибок, использующие словари и морфологический анализ словоформ текста, но большинство из них являются коммерческими.

Таким образом, возникает необходимость нового исследования, направленного непосредственно на автоматизацию процесса исправления орфографических ошибок.

2. Цель и задачи исследования

Объектом исследования являются структурированные текстовые документы, которые могут быть описаны с помощью синтаксического дерева. Предмет исследования — алгоритмы автоматической коррекции структурированных текстовых специализированных документов.

Целью исследования является разработка методов, алгоритмов и технологий для создания автоматизированной системы, позволяющей многократно повысить эффективность труда корректоров при работе с текстовыми документами.

Для достижения данной цели в работе решается задача формализации описания правил коррекции типографических и орфографических ошибок, а также разработка эффективных алгоритмов поиска мест ошибок в документах и синтеза правил для их исправления.

Множество проблем вызваны тем, что при ручной обработке документов корректоры придерживаются недостаточно формализованных рекомендаций. И составление вручную достаточно полного описания набора правил для автоматического использования трудно реализуемо. Некоторые из используемых рекомендаций довольно сложны и сильно зависят от контекста, что требует сложных моделей для описания правил коррекции.

Задача автоматической коррекции текстовой информации заключается в построении совокупности правил, которые могут быть использованы в алгоритмах поиска и исправления ошибок.

3. Методы обнаружения ошибок

Известно, по крайней мере, три метода автоматизированного обнаружения орфографических ошибок в текстах: статистический, полиграммный и словарный [1]. При статистическом методе из текста одна за другой выделяются составляющие его словоформы, а их перечень по ходу проверки упорядочивается согласно частоте встречаемости. По завершении просмотра текста упорядоченный перечень предъявляется человеку для контроля, например, через экран дисплея. Орфографические ошибки в сколь-нибудь грамотном тексте несистематичны и редки, так что искаженные ими слова оказываются где-то в конце перечня. Заметив их здесь, контролирующее лицо может автоматизировано найти их в тексте и исправить.

При полиграммном методе [1] все встречающиеся в тексте двух- или трехбуквенные сочетания (биграммы и триграммы) проверяются по таблице их допустимости в данном естественном языке. Если в словоформе не содержится недопустимых полиграмм, она считается правильной, а иначе – сомнительной, и тогда предъявляется человеку для визуального контроля и, если нужно, исправления.

При словарном методе все входящие в текст словоформы, после упорядочения или без него, в своем исходном текстовом виде или после морфологического анализа, сравниваются с содержимым заранее составленного машинного словаря. Если словарь такую словоформу допускает, она считается правильной, а иначе предъявляется контролеру. Он может оставить слово, как есть, оставить его и вставить в словарь, так что далее в сеансе подобное слово будет опознаваться системой без замечаний; заменить (исправить) слово в данном месте; потребовать подобных замен по всему дальнейшему тексту; отредактировать слово вместе с его окружением. Операции, над сомнительным участком текста, указанные или иные возможные, могут комбинироваться исходя из замысла проектировщика автоматического корректора.

Результаты неоднократных исследований [1] показали, что только словарный метод и экономит труд человека и ведет к минимуму ошибочных действий обоих родов — пропуска текстовых ошибок, с одной, стороны, и отнесения правильных слов к сомнительным, с другой. Поэтому словарный метод стал доминирующим, хотя полиграммный метод иногда и применяют как вспомогательный.

4. Алгоритмы анализа текстовой информации
4.1. Алгоритмы морфологического анализа

С помощью алгоритмов морфологического анализа распознаются элементы морфологической структуры слова - корни, основа, аффиксы, окончания. К алгоритмам, широко применяемым на морфологическом уровне, относятся стемминг и лемматизация. Цель стемминга – отождествить основы семантически схожих словоформ, что необходимо для адекватного взвешивания терминов в процессе информационного поиска. На входе стеммера – текст, на выходе – список основ слов входного текста. Стеммеры, разрабатываемые с конца 50-х гг. XX в., классифицируются на алгоритмические и словарные. Алгоритмические стеммеры функционируют на основе файлов данных, содержащих списки суффиксов и флексий. В процессе морфологического анализа программа выполняет сопоставление суффиксов и окончаний слов во входном тексте и в соответствующем списке, причём анализ начинается с последнего символа слова. Словарные стеммеры функционируют на основе словарей основ слов. В процессе морфологического анализа такой стеммер выполняет сопоставление основ слов во входном тексте и в соответствующем словаре, а анализ начинается с первого символа слова.

Словарные стеммеры обеспечивают большую точность поиска, в то время как алгоритмические - большую полноту, допуская больше ошибок, которые проявляются в недостаточном или избыточном стеммировании. Избыточное стеммирование (overstemming) имеет место в том случае, если по одной основе отождествляются слова с разной семантикой; при недостаточном стеммировании (understemming) по одной основе не отождествляются слова с одинаковой семантикой, например, bet как основа better, a childr - как основу children. В первом случае имеет место избыточное стеммирование, поскольку по основе bet прилагательное better отождествляется с глаголом bet и его производными (bets, betting), значение которых не имеет ничего общего со значением прилагательного. Во втором случае имеет место недостаточное стеммирование, так как по основе childr нельзя отождествить формы множественного (children) и единственного числа (child) одной лексемы.

4.2. Алгоритмы синтаксического анализа

Одним из фундаментальных алгоритмов, применяемых на синтаксическом уровне, является синтаксическая декомпозиция (syntactic splitting). На входе у сплиттера – текст, на выходе – список предложений текста. Алгоритмы синтаксической декомпозиции разрабатываются с 1960-х гг. и предусматривают распознавание предложений на основе символов форматирования текста: пробелов, знаков пунктуации, знаков перевода каретки. Разбивка текста на предложения осложняется отсутствием стандартного форматирования текста; точки, восклицательные, вопросительные знаки, которые обычно применяются в качестве разделителей, могут использоваться не только в конце, но и в середине предложения. Предложения являются основной единицей анализа во многих системах, а в системах автоматического реферирования и выходной текст состоит из предложений. Ошибки в распознавании предложений существенно снижают эффективность таких систем в целом.

Дедукционно-инверсионная архитектура декомпозиции текста, в соответствии с которой вначале текст разбивается на абзацы, затем - на слова, затем из слов генерируются предложения. Таким образом, декомпозиция начинается с большей единицы (абзаца), затем осуществляется переход к меньшей единице (слову), затем – снова к большей (предложению). Дедукционно-инверсионная архитектура декомпозиции позволяет игнорировать такие компоненты текста, как заголовки, подзаголовки, оглавления, поскольку они не входят в состав абзацев.

Синтаксическая декомпозиция является основой для выполнения целого ряда алгоритмов распознавания фразовой структуры предложения. Широко распространены алгоритмы выделения n-gram – словосочетаний, состоящих из двух (биграмы), трёх (триграмы) и более (тетрграмы, пентаграмы, гексаграмы) токенов [2]. Разбивка на словосочетания в данном случае проводится с учётом позиции токена в предложении. Например, предложение John has a dog включает 4 юниграмма, 3 ди-грама (John has, has a, a dog), 2 триграма (John has a, has a dog), 1 тетраграм – всё предложение. Количество биграмм для каждого предложения (ng(s)) будет составлять n-1, тригарм – n-2, где n-количество токенов в предложении, т. е. ng(s) = Wi-(n-1), Wi-(n-2), ... Wi-(n-n), где wi - порядковый уровень n-gram, начиная с биграм. Распознавание n-gram проводится на основе соответствующих правил.

Анализ распределения n-gram позволяет выявить статистически значимые словосочетания и часто применяется в стохастических алгоритмах аннотирования тегами частей речи. При этом начало и конец предложения обозначаются некоторыми условными тегами (false tags), что позволяет рассматривать в качестве триграм даже предложения состоящие из одного токена и устанавливать вероятностные параметры, необходимые для выбора того или иного тега.

Распределения n-gram используются с целью автоматической классификации и категоризации, поскольку выступают в качестве важного параметра, позволяющего определить принадлежность текста к определённой категории, типу, группе, жанру. При анализе на синтаксическом уровне в качестве основной единицы выступают биграммы и диграммы, поскольку рекуррентность словосочетаний с большим количеством токенов маловероятна. Анализ n-gram большего порядка применяется в системах автоматической коррекции орфографии, а также в системах автоматического распознавания текстов (Optical Character Recognition), где основной единицей выступают символы в токенах.

Для анализа морфологически значимых словосочетаний применяются чанкеры (chunkers), которые на выходе выдают списки фраз определённого типа (именные, глагольные, адъективные, адвербиальные). Наиболее распространены именные (noun phrase) чанкеры, распознающие словосочетания с управляющим существительным. Именно этим типом словосочетаний обозначаются объекты, описываемые в тексте, а их ранжирование по весовым коэффициентам позволяет получить список ключевых слов, отражающих основное содержание текста. Реферирование текста на основе словаря существительных позволяет получить практически такие же результаты, как и реферирование, проводимое и с учётом слов, относящихся к другим частям речи [3]. Распознавание словосочетаний этого типа выполняется на основе предварительного аннотирования тегами частей и объединения отдельных частей речи во фразы на основе правил грамматики.

Правила фразовой структуры были разработаны для английского языка в рамках концепции генеративной грамматики, предложенной Н. Хомским. Грамматические правила записываются в виде NP → NN; NP → DetNN; NP → DetANN, где указывается состав словосочетания, в данном случае именного (noun phrase – NP), а также порядок слов [4]. В первом случае показано, что именное словосочетание может состоять только из одного существительного (NN); во втором случае оно состоит из детерминанта (Det) и существительного, причём детерминант занимает позицию перед существительным, а обратный порядок слов неправилен; в третьем случае словосочетание состоит из детерминанта, прилагательного (А), существительного, при этом другие варианты словопорядка неправильны.

Иерархические синтаксические структуры применяются в системах машинного перевода для установления эквивалентности синтаксических структур в двух языках. На синтаксическом уровне может проводиться декомпозиция не только на словосочетания и предложения, но и на клаузы – элементарные предикативные структуры, выражающие суждение. Понятие клаузы в определённой степени соответствует понятию пропозиции в лингвистике, однако клаузы выделяются по формальным признакам, к которым может относиться, например, наличие именной группы и следующей за ней глагольной группы. Разбивка на клаузы применяется в системах интеллектуального анализа для более адекватной передачи содержания текста.

Выводы

Таким образом, в данной работе рассмотрены базовые алгоритмы автоматической коррекции текстов, а также спроектирован программный комплекс, позволяющий на автоматическом уровне выделять ошибки и опечатки в документах со структурированной текстовой информацией. Отличительной особенностью данного комплекса является его ориентация на документы со специализированным текстом.

К перспективным задачам можно отнести следующие: разработка эффективных методов обучения классификаторов определения ошибок и совершенствование используемых алгоритмов.

При написании данного реферата магистерская работа еще не завершена. Окончательное завершение: зима 2014–2015 гг. Полный текст работы и материалы по теме могут быть получены у автора или его руководителя после указанной даты.
Список использованных источников

  1. Peterson J.L., Computer programs for detection and correction spelling: errors. Commun. ACM, 1980, 23, № 12, 676 – 687.
  2. Bickel, S. Predicting Sentences using N-Gram Language Models / S. Bickel, P. Haider, T. Scheffer. – 2005. [Электронный ресурс]. – Режим доступа: http://delivery.acm.org/10.1145/1230000/1220600/p193-bickel.pdf
  3. Яцко В.А. Симметричное реферирование: теоретические основы и методика / В.А. Яцко // Научно-техническая информация. Сер.2. – 2002. – № 5. – С. 18-28.
  4. Brinton, L.J. The structure of modem English / L.J. Brinton. – Amsterdam; Philadelphia: John Benjamins, 2000. – 335 p.
  5. Яцко В.А. Алгоритмы предварительной обработки текста: декомпозиция, аннотирование, морфологический анализ / В.А. Яцко, М.С. Стариков, Е.В. Ларченко // Научно-техническая информация. Сер.2. – 2009.
  6. Штурман Я.П. Анализ систем автоматизированного обнаружения орфографических ошибок. НТИ, 1985.
  7. Бабко-Малая О.Б. Методы и системы автоматизированного обнаружения и коррекции текстовых ошибок / О.Б. Бабко-Малая, В. А. Шемраков // Препринт № 5. Л.: БАН СССР, 1987, 46 с.

Design by elemis.