^
Русский  English

Міхневич Павло Денисович
Факультет комп'ютерних наук та технологій
Кафедра штучного інтелекту і системного аналізу
Спеціальність Програмне забезпечення інтелектуальних систем
Тема випускної роботи Розробка веб-сервісу для фонетичної обробки текстової інформації
Науковий керівник: к.ф.-м.н., доц. Кравець Тетяна Миколаївна


Міхневич Павло Денисович

ДонНТУ  Портал магістрів
  1. Вступ
  2. Актуальність і мотивація теми
  3. Мета і завдання дослідження, заплановані результати
  4. Огляд досліджень і розробок
  5. Робота лінгвістичного процесора
  6. Виклад власних результатів
  7. Висновки
  8. Список джерел

Вступ

З винаходом транзистора і появою нового покоління комп'ютерів, а також перших мов програмування, серед інших, також почалися експерименти в напрямках, які пізніше будуть озаглавлені комп'ютерною лінгвістикою і обробкою природних мов. Через десятиріччя ці напрямки все ще рясніють відкритими питаннями і готові до нових рішень [1].

1. Актуальність і мотивація теми

Рішення проблем обробки природних мов виведе взаємодію людини і комп'ютера на новий рівень і незмінно спричинить за собою розвиток суміжних областей, таких як комп'ютерна лінгвістика і штучний інтелект, на який в сучасному світі маси покладають великі сподівання.

Обробка природних мов завдання вкрай складне. Природні мови, на відміну від мов штучних, формувалися не вченими, а історією, що тягне за собою певний тягар розвитку мови. Також, завдання обробки природних мов відрізняються для кожної з них, отже, мало яке рішення може бути спроектовано на всі мови, що так само суттєво ускладнює розвиток цієї галузі.

Більшість проектів в напрямку обробки природних мов створюються в якості лем світу лінгвістики, тобто досліджують природні мови, створюють нові уявлення, формують методології, методики, підходи, спираючись на які, згодом, створюються проекти, що відповідають за практичне застосування цих знань.

2. Мета і завдання дослідження, заплановані результати

Метою роботи є розробка веб-сервісу для фонетичного аналізу віршованих творів.

На вхід сервісу буде подаватися текст, а на виході будуть вказані фонетичні повтори, їх індекси асоціативних сил, загальні ланцюжки.


Загальне завдання розбивається на дві категорії:


У спрощеному вигляді, який приймає текст проходить за такими стадіями:

  1. попередня обробка:
    • очищення від спецсимволів
    • автоматичне виправлення помилок
    • визначення наголосів по словнику (в т.ч. і побічних)
  2. приведення до фонетичного вигляду
  3. розбиття на потенційні склади
  4. розбір кожного потенційного складу на фоносіллабіческій комплекс з вказаною кількістю консонант (2/3/4+)
  5. пошук повторів по фоносіллабам
  6. обчислення індексу асоціативної сили

Веб-сервіс повинен володіти наступним функціоналом:


Окремо варто виділити обробку помилок. Оскільки весь текст, що надходить на вхід, вводиться безпосередньо користувачем без обмежень, необхідно обробляти всі можливі помилки введення, особливо це важливо при роботі зі словниками, в яких вхідний текст повинен прямо відповідати шаблоном, і при кожному виключенні, користувач повинен бути сповіщений, як саме йому слід змінити текст, щоб позбутися від помилки.

Також, важливим елементом роботи веб-сервісу є можливість інтерактивного введення. Іншими словами, зміна тексту для аналізу, або налаштувань, що впливають на нього, викликає асинхронну завантаження нових результатів аналізу на цій же сторінці, без перезавантаження самої сторінки.

3. Огляд досліджень і розробок

Робота виконується в рамках області обробки природних мов, але має основну спрямованість на поетику.

Поетика - лінгвістичне дослідження поетичної функції вербальних повідомлень в цілому і поезії зокрема [2].

Родоначальником терміна вважається Аристотель, з його однойменним трактатом [3], в якому була описана естетична сторона поетики. В ту ж епоху, розвиток поетики дав Квінт Горацій Флакка в роботі Про поетичне мистецтво [4]. Поетика також розглядалася в кожній з епох, аж до німецького ідеалізму. І тільки на початку двадцятого століття, були описані ідеї мелодики вірша [5].

Особливий інтерес в рамках даної розробки представляють роботи Векшина Г.В. [6-10].

4. Робота лінгвістичного процесора

Основою роботи обробки природних мов є лінгвістичний процесор. Найбільшу популярність він отримав в задачах синтезу мови.

У загальному вигляді, лінгвістичний процесор складається з трьох блоків. На його вхід подається звичайний текст.

Модель роботи лінгвістичного процесора

Рисунок 1 – Модель роботи лінгвістичного процесора

Перший блок називається блоком попередньої обробки тексту. На цьому етапі текст очищається від службових символів, для задач синтезу мови, розкриваються абревіатури і скорочення, виконується перетворення число-числівник, а також перетворюються формули. Для завдань фонетичного аналізу абревіатури варто зберегти в первинному вигляді, тому що саме в цьому виді вони, найчастіше, і використовуються в мові.

Модель роботи першого блоку ЛП

Рисунок 2 – Модель роботи першого блоку ЛП

Після першого етапу, залишається нормалізований текст. На другому етапі необхідно здійснити пофразовую обробку тексту. Для цього текст розділяється на значущі одиниці. Для задач синтезу мови, цією одиницею виступатимуть синтагми - відрізки, що складаються з одного або декількох слів, об'єднаних інтонацією [11]. Після поділу тексту виділяються фразові наголоси. В кінці блоку здійснюється інтонаційна розмітка, і паузация - розстановка тривалості пауз. Таким чином, нормалізований текст переходить в синтагматичні розмічений.

Модель роботи другого блоку ЛП

Рисунок 3 – Модель роботи другого блоку ЛП

На третьому етапі здійснюється пословна обробка. В процесі роботи даного блоку виділяються словесні наголоси. Як основні, так і побічні. Після чого відбувається об'єднання в фонетичні слова - видалення словоразделов між ударними і ненаголошеними словами. В кінці роботи блоку послівний обробки, і лінгвістичного процесора в цілому, здійснюється фонемний транскрибування - перетворення орфографічного тексту в фонемний [12], згідно з правилами російської фонетики [13].

Модель роботи третього блоку ЛП

Рисунок 4 – Модель роботи третього блоку ЛП

5. Виклад власних результатів

До моменту завершення роботи над авторефератом, система відповідає більшості вимог. Веб-сервіс розміщений на тимчасовому сервері, і приймає тестові аналізи декількох користувачів.

Аналіз вірша виконується в повному обсязі. Результати, одержані в процесі аналізу перевірені ще раз, і є коректними.

Потрібна модифікація пост-обробки результатів аналізу.

Призначений для користувача функціонал також відповідає поставленим цілям, але все ще вимагає доопрацювання стилів, і невеликих змін по відображенню результатів. На поточний момент, багато з них не несуть в собі корисної кінцевому користувачеві інформації, і необхідні тільки для внутрішньої роботи алгоритму. Але на їх основі, додавши кілька нових функцій, можна отримати і значиму інформацію. Також можливе розширення допоміжного функціоналу, що не впливає на результати аналізів, для більшої зручності використання сервісу.

Висновки

Обробка природних мов досить складний напрямок, в першу чергу за рахунок того, що в різних мовах, можуть бути різні умови і цілі завдань, в наслідок чого дослідники різних мовних груп, найчастіше, вирішують локальні завдання, до того ж, обтяжені природним розвитком конкретного мови.

Кордон поетики в комп'ютерній лінгвістиці поки вкрай мал, проте представляє дійсний інтерес у дослідників, і має потенціал розвитку як в області штучного інтелекту, так і в своїй власній. Нові інструменти аналізу, можуть украй сприятливо позначитися на подальших дослідженнях і розробках в цій області.

Список джерел [ru]

  1. Manning C.D. Foundation of statistical nature language processing / C.D. Manning. – 1992. – Vol.12, N 4. – P.89-94.
  2. Якобсон, Р. Роботи з поетики / Р. Якобсон – Прогрес, 1987. – 81 с.
  3. Аристотель. Поетика / Мінськ: Література, 1998.
  4. Горацій. Про поетичне мистецтво / Наука, 1981.
  5. Ейхенбаум, Б. Мелодика російського ліричного вірша / Б. Ейхенбаум – ОПОЯЗ, 1922.
  6. Векшин, Г.В. Метафонія в звуковому повторі (до поетичної морфології слова) / Г.В. Векшин – Новий літературний огляд № 90, 2008. – 229–250 с.
  7. Векшин, Г.В. Нарис фоностилістики тексту: Звуковий повтор в перспективі смислообразованія / Г.В. Векшин – М., 2006. – 462 с.
  8. Векшин, Г.В. Про співвідношення суперсегментної і сегментно-звуковий організації поетичного тексту / Г.В. Векшин – Міжрівневі зв'язки в системі мови: Зб. наук. праць. – Вид-во УДН, 1989. – 86–93 с.
  9. Векшин, Г.В. Поток мови і смислоформірующа роль звуку: перетворення випадкового в необхідне / Г.В. Векшин – Актуальні проблеми лінгвістики у вузі і школі: Зб. наук. праць. – Пенза, 1997.
  10. Векшин, Г.В. Мови спілкування і функціональні стилі (в їх відношенні до тексту) / Г.В. Векшин – Вид-во МГУП, 2002. – 35–67 с.
  11. Синтагма. Визначення терміна – [Електронний ресурс]. – Режим доступу: http://scicenter.online/russkiy-yazyik-scicenter/sintagma-122760.html
  12. Визначення лексичного процесора на лекціях з лінгвістики Білоруського Державного Університету Інформатики і радіоелектроніки – [Електронний ресурс]. – Режим доступу: https://studfiles.net/preview/1401101/page:48/
  13. Опис фонетики і фонології російської мови – [Електронний ресурс]. – Режим доступу: https://www.wikiwand.com/ru/Русская_фонетика
Сайт розроблено в рамках виконання індивідуальної роботи з дисципліни інтернет‑технології,
в 2018–2019 навчальному році, відповідно до вимог і обмежень, що вказані в завданні.
Вся інформація та її відображення актуальні виключно на кінець 2018 року.