^
Українська  English

Михневич Павел Денисович
Факультет компьютерных наук и технологий
Кафедра искусственного интеллекта и системного анализа
Специальность Программное обеспечение интеллектуальных систем
Тема выпускной работы Разработка веб-сервиса для фонетической обработки текстовой информации
Научный руководитель: к.ф.-м.н., доц. Кравец Татьяна Николаевна


Михневич Павел Денисович

ДонНТУ  Портал магистров
  1. Введение
  2. Актуальность и мотивация темы
  3. Цель и задачи исследования, планируемые результаты
  4. Обзор исследований и разработок
  5. Работа лингвистического процессора
  6. Изложение собственных результатов
  7. Выводы
  8. Список источников

Введение

С изобретением транзистора и появлением нового поколения компьютеров, а также первых языков программирования, среди прочих, также начались эксперименты в направлениях, которые позже будут озаглавлены компьютерной лингвистикой и обработкой естественных языков. Спустя десятилетия, эти направления всё ещё изобилуют открытыми вопросами, и готовы к новым решениям [1].

1. Актуальность и мотивация темы

Решение проблем обработки естественных языков выведет взаимодействие человека и компьютера на новый уровень и неизменно повлечёт за собой развитие смежных областей, таких как компьютерная лингвистика и искусственный интеллект, на который, в современном мире, массы возлагают большие ожидания.

Обработка естественных языков задача крайне сложная. Естественные языки, в отличие от языков искусственных, формировались не учёными, а историей, что влечёт за собой определённое бремя языкового развития. Также, задачи обработки естественных языков отличаются для каждого из них, а значит, мало какое решение может быть спроецировано на все языки, что так же существенно усложняет развитие этой отрасли.

Большинство проектов, в направлении обработки естественных языков создаются в качестве лемм мира лингвистики, т.е. исследуют естественные языки, создают новые представления, формируют методологии, методики, подходы, опираясь на которые, впоследствии создаются проекты, отвечающие за практическое применение этих знаний.

2. Цель и задачи исследования, планируемые результаты

Целью работы является разработка веб-сервиса для фонетического анализа стихотворных произведений.

На вход сервиса будет подаваться текст, а на выходе будут указаны фонетические повторы, их индексы ассоциативной силы, общие цепочки.


Общая задача разбивается на две категории:


В упрощённом виде, принимаемый текст проходит по следующим стадиям:

  1. предварительная обработка:
    • очистка от спецсимволов
    • автоматическое исправление ошибок
    • определение ударений по словарю (в т.ч. и побочных)
  2. приведение к фонетическому виду
  3. разбиение на потенциальные слоги
  4. разбор каждого потенциального слога на фоносиллабический комплекс с указанным количеством консонант (2/3/4+)
  5. поиск повторов по фоносиллабам
  6. вычисление индекса ассоциативной силы

Веб-сервис должен обладать следующим функционалом:


Отдельно стоит выделить обработку ошибок. Т.к. весь текст, поступающий на вход, вводится напрямую пользователем без ограничений, необходимо обрабатывать все возможные ошибки ввода, в особенности это важно при работе со словарями, в которых входной текст должен прямо соответствовать шаблону, и при каждом исключении, пользователь должен быть оповещён, как именно ему следует изменить текст, чтобы избавиться от ошибки.

Также, важным элементом работы веб-сервиса является возможность интерактивного ввода. Другими словами, изменение текста для анализа, или настроек, влияющих на него, вызывает асинхронную загрузку новых результатов анализа на этой же странице, без перезагрузки самой страницы.

3. Обзор исследований и разработок

Работа выполняется в рамках области обработки естественных языков, но имеет основную направленность на поэтику.

Поэтика – лингвистическое исследование поэтической функции вербальных сообщений в целом и поэзии в частности [2].

Родоначальником термина считается Аристотель, с его одноимённым трактатом [3], в котором была описана эстетическая сторона поэтики. В ту же эпоху, развитие поэтики дал Квинт Гораций Флакка в работе О поэтическом искусстве [4]. Поэтика также рассматривалась в каждой из эпох, вплоть до немецкого идеализма. И только в начале двадцатого столетия, были описаны идеи мелодики стиха [5].

Особый интерес в рамках данной разработки представляют работы Векшина Г.В. [6-10].

4. Работа лингвистического процессора

Основой работы обработки естественных языков является лингвистический процессор. Наибольшую известность он получил в задачах синтеза речи.

В общем виде, лингвистический процессор состоит из трёх блоков. На его вход подаётся обычный текст.

Модель работы лингвистического процессора

Рисунок 1 – Модель работы лингвистического процессора

Первый блок называется блоком предварительной обработки текста. На этом этапе текст очищается от служебных символов, для задач синтеза речи, раскрываются аббревиатуры и сокращения, выполняется преобразование число-числительное, а также преобразуются формулы. Для задач фонетического анализа аббревиатуры стоит сохранить в первоначальном виде, т.к. именно в этом виде они, чаще всего, и используются в речи.

Модель работы первого блока ЛП

Рисунок 2 – Модель работы первого блока ЛП

После первого этапа, остаётся нормализованный текст. На втором этапе необходимо осуществить пофразовую обработку текста. Для этого текст разделяется на значимые единицы. Для задач синтеза речи, этой единицей будут выступать синтагмы – отрезки, состоящие из одного или нескольких слов, объединённых интонацией [11]. После разделения текста выделяются фразовые ударения. В конце блока осуществляется интонационная разметка, и паузация – расстановка длительности пауз. Таким образом, нормализованный текст переходит в синтагматически размеченный.

Модель работы второго блока ЛП

Рисунок 3 – Модель работы второго блока ЛП

На третьем этапе осуществляется пословная обработка. В процессе работы данного блока выделяются словесные ударения. Как основные, так и побочные. После чего происходит объединение в фонетические слова – удаление словоразделов между ударными и безударными словами. В конце работы блока пословной обработки, и лингвистического процессора в целом, осуществляется фонемное транскрибирование – преобразование орфографического текста в фонемный [12], согласно правилам русской фонетики [13].

Модель работы третьего блока ЛП

Рисунок 4 – Модель работы третьего блока ЛП

5. Изложение собственных результатов

К моменту завершения работы над авторефератом, система соответствует большинству требований. Веб-сервис размещён на временном сервере, и принимает тестовые анализы нескольких пользователей.

Анализ стиха выполняется в полном объёме. Результаты, получаемые в процессе анализа перепроверены, и являются корректными.

Требуется модификация пост-обработки результатов анализа.

Пользовательский функционал также соответствует поставленным целям, но всё ещё требует доработки стилей, и небольших изменений по отображению результатов. На текущий момент, многие из них не несут в себе полезной конечному пользователю информации, и необходимы только для внутренней работы алгоритма. Но на их основе, добавив несколько новых функций, можно получить и значимую информацию. Также возможно расширение вспомогательного функционала, не влияющего на результаты анализов, для большего удобства использования сервиса.

Выводы

Обработка естественных языков достаточно сложное направление, в первую очередь за счёт того, что в разных языках, могут быть разные условия и цели задач, в следствие чего исследователи разных языковых групп, зачастую, решают локальные задачи, к тому же, отягощённые естественным развитием конкретного языка.

Граница поэтики в компьютерной лингвистике пока крайне мала, однако представляет действительный интерес у исследователей, и имеет потенциал развития как в области искусственного интеллекта, так и в своей собственной. Новые инструменты анализа, могут крайне благоприятно сказаться на дальнейших исследованиях и разработках в этой области.

Список источников

  1. Manning C.D. Foundation of statistical nature language processing / C.D. Manning. – 1992. – Vol.12, N 4. – P.89-94.
  2. Якобсон, Р. Работы по поэтике / Р. Якобсон – Прогресс, 1987. – 81 с.
  3. Аристотель. Поэтика / Минск: Литература, 1998.
  4. Гораций. О поэтическом искусстве / Наука, 1981.
  5. Эйхенбаум, Б. Мелодика русского лирического стиха / Б. Эйхенбаум – ОПОЯЗ, 1922.
  6. Векшин, Г.В. Метафония в звуковом повторе (к поэтической морфологии слова) / Г.В. Векшин – Новое литературное обозрение № 90, 2008. – 229–250 с.
  7. Векшин, Г.В. Очерк фоностилистики текста: Звуковой повтор в перспективе смыслообразования / Г.В. Векшин – М., 2006. – 462 с.
  8. Векшин, Г.В. О соотношении суперсегментной и сегментно-звуковой организации поэтического текста / Г.В. Векшин – Межуровневые связи в системе языка: Сб. научн. трудов. – Изд–во УДН, 1989. – 86–93 с.
  9. Векшин, Г.В. Поток речи и смыслоформирующая роль звука: превращение случайного в необходимое / Г.В. Векшин – Актуальные проблемы лингвистики в вузе и школе: Сб. научн. трудов. – Пенза, 1997.
  10. Векшин, Г.В. Языки общения и функциональные стили (в их отношении к тексту) / Г.В. Векшин – Изд–во МГУП, 2002. – 35–67 с.
  11. Синтагма. Определение термина – [Электронный ресурс]. – Режим доступа: http://scicenter.online/russkiy-yazyik-scicenter/sintagma-122760.html
  12. Определение лексического процессора на лекциях по лингвистике Белорусского Государственного Университета Информатики и Радиоэлектроники – [Электронный ресурс]. – Режим доступа: https://studfiles.net/preview/1401101/page:48/
  13. Описание фонетики и фонологии русского языка – [Электронный ресурс]. – Режим доступа: https://www.wikiwand.com/ru/Русская_фонетика
Сайт разработан в рамках выполнения индивидуальной работы по дисциплине интернет‑технологии,
в 2018–2019 учебном году, в соответствии с требованиями и ограничениями, описанными в задании.
Вся информация и её представление актуальны исключительно на конец 2018 года.