Русский   English
ДонНТУ   Портал магістрів

Реферат за темою випускної роботи

Зміст

Вступ

На сьогоднішній день інформаційні технології в усьому світі стрімко впроваджуються в наше життя, в тому числі і в сферу навчання і контролю знань. На фоні прискорення загального темпу життя все частіше ми зустрічаємо поняття дистанційного навчання, яке дозволяє отримувати знання в будь-який зручний час. Виходячи з цього, задача швидкого і об'єктивного автоматизованого контролю знань учнів стає все більш актуальною. Не дивлячись на це, практично всі існуючі автоматизовані методи оцінки знань значно поступають експертному оцінюванню знань.

1. Актуальность теми

Більшість нинішніх систем оцінки мовних знань не дозволяють проводити гнучку оцінку в залежності від критичності допущених помилок. У цих системах необхідно, щоб відповіді повністю збігалися з правильними, а бали виставляються за принципом «все або нічого». Виходячи з цього, розробка системи гнучкої оцінки знань є актуальною, особливо останнім часом, коли все більшої популярності набирають різні курси дистанційного навчання, в тому числі і мовні.

2. Мета і завдання дослідження

Мета роботи – розробка системи тестування знань іноземної мови з підсистемою аналізу помилок.

Для виконання поставленої мети необхідно виконати ряд завдань:

  1. Аналіз методів оцінки мовних знань.
  2. Створення тестового набору, який включає в себе правильні відповіді, а також варіанти відповідей, що включають опечатки і граматичні помилки.
  3. Розробка системи тестування мовних знань.
  4. Розробка підсистеми інтелектуального визначення критичності допущених помилок.
  5. Перевірка правильності роботи системи

Предмет дослідження – система оцінки мовних знань, що наближена до експертної оцінки.

Об'єктом дослідження є інтелектуальне оцінювання знань.

Методи дослідження: аналітичний огляд і узагальнення інформації, нечіткі методи, методи теорії інформації та комп'ютерної лінгвістики.

Областю використання розроблюваної системи є мовні школи, а також системи дистанційного навчання, в яких оцінка знань іноземних слів і граматики здійснюється за допомогою набору різних тестів.

3. Анализ существующих систем тестирования знаний английского языка

Було виконано аналіз різних online-систем, що дозволяють провести тестування мови. Важливим критерієм вибору систем є загальнодоступність.

1.     http://www.englisch-hilfen.de/en/

Серед аналізованих порталів англійської мови даний портал пропонує найбільш широкий вибір різних мовних тестів. Є тести на порядок слів, на словниковий запас, граматичні тести, і тести на вимову, так само є вибір різний комплексних тестів на різні напрямки. Є тести, в яких необхідно самому вводити слова, що є найбільш цікавим, оскільки в даному випадку варіанти відповідей не представлені, що виключає відповідь на завдання  «навмання». Не дивлячись на багату гаму тестів, відповіді на завдання в основному пропонується списком, це означає, що є можливість вгадати, а там, де треба вводити слова вручну, перевірка відповідей проходить за принципом  «все або нічого», що, безумовно, є недоліком цих варіантів завдань.

2.     http://englex.ru/

Online-школа англійської мови інглекс надає можливість визначити рівень знання мови за допомогою комплексної перевірки знань в чотирьох областях: граматиці, словниковому запасі, читанні і сприйнятті мови на слух. Незважаючи на різноманітні завдання, дана система тестування завжди пропонує різні варіанти відповідей, що є її недоліком.

3.     http://englishteststore.net/

Даний портал, безсумнівно, може похвалитися багатим набором тестів і вправ для англійської мови, орієнтованих на різні рівні знань. Тут можна перевірити навички читання, усного мовлення, сприйняття усного мовлення, перевірити словниковий запас, рівень граматики. Однак всі ці завдання об'єднує недолік наданих відповідей.

4.     http://www.study.ru/test/

Тести, що надаються даним порталом, відрізняються від інших тим, що дозволяють перевірити знання різних частин мови, будь то займенники, прийменники, артиклі та інші, а також уміння будувати питальні речення. Завдання надають вибір відповідей, про недоліки якого вже розказано раніше.

У Мережі можна знайти величезну кількість тестів англійської мови, які не виділяються ні різноманітністю, ні вибором тематики тестів, ні, тим більш, диференційованими тестами, що дозволяють оцінювати знання мови на зовсім іншому рівні. Ось кілька таких систем:


Незважаючи на великий достаток тестів, знайти такі, які давали б диференційовану кількість балів за відповіді, не вдалося.

Також, крім online-систем тестування мовних знань, існує і програмне забезпечення для ПК, яке призначене для цих же цілей. Подібне ПО можна характеризувати за наступними критеріями:

В ході аналізу таких систем були відзначені наступні: OpenTest2, MyTestXPro, Indigo, Айрен. Серед них найбільш виділяються дві системи, кожна з яких має свої переваги і недоліки:

4. Методи оцінювання мовних знань

Карпова виділяє найпоширеніші методи оцінки знань [1]:

Оскільки дані типи далекі від методики оцінки знань викладачем, необхідно розробити систему, яка буде оцінювати знання випробовуваних як викладач. Однією з можливих систем може бути наступна: є деяке речення з пропущеним ключовим словом, наприклад, дієслово, яке необхідно вручну вписати в потрібній формі. Якщо вписане слово збігається з еталонним, відповідь є вірною, і людина отримує максимальну кількість балів за тест. Якщо немає – система повинна визначити, якого роду була зроблена помилка, і після цього визначати, яку кількість балів треба виставити за роботу. При цьому важливим є той факт, що експерти не повинні перебирати всі можливі варіанти помилок, а все, що від них вимагається – один раз вказати типи помилок і кількість балів, які  «варті» кожен з них. Також дана система буде універсальною, оскільки розрахована для знаходження помилок в будь-якій частині мови і в будь-якої тематики.

Ідентифікацію помилок в загальному випадку можна здійснити за допомогою декількох етапів:

Этапы идентификации ошибок

Рисунок 1 – Етапи ідентифікації помилок (анімація: кількість кадрів – 7 шт., частота кадрів – 1/сек, кількість повторів необмежена, розмір – 42,5 кілобайт)

Розглянемо кожен етап більш детально.

1. Порівняння відповіді на завдання з еталоном. Якщо відповідь збігається, за завдання видається максимальне кількість балів.

2. Якщо відповідь не співпаде з правильним, виконується нечіткий пошук в словнику для отримання інформації про відповіді. Ця інформація містить дані про форми слова, відміні, тощо.

3. Якщо відповідь не була знайдена, або відповідь надто відрізняється від порівнюваних слів, бали за завдання не виставляються, відповідь вважається повністю невірною.

4. Порівнюються морфологічні ознаки найбільш ймовірного слова, яке випробовуваний мав на увазі. Наприклад, кількість балів за відповідь, що вираховується, для пари дієслів часу Past Simple і Past Continuous буде менше, ніж для Past Simple і Future Simple.

5. За допомогою морфемного аналізу визначається частина слова, в якій була допущена помилка. Залежно від місця помилки необхідно знімати різну кількість балів, оскільки правильно написати корінь важливіше, ніж, наприклад, суфікс.

6. У разі некритичною помилки, на основі пунктів 4 і 5 визначається кількість балів, яку необхідно зняти за відповідь.

7. На основі пунктів 1, 3, 6 виставляються бали за завдання.

Ключовими етапами розроблюваної системи є нечіткий пошук у словнику, морфологічний і морфемний аналіз. На них необхідно зупинитися.

4.1 Нечіткий пошук в словнику

Оскільки система, що розроблюється, призначена для перевірки мовних знань, мається на увазі, що введені слова будуть містити помилки, тому необхідно передбачити спосіб пошуку слів з помилками. Для цього і потрібен нечіткий пошук, який дозволяється знайти схожі слова. Ступінь схожості визначається за допомогою метрик. Метрикою нечіткого пошуку називають функцію відстані між двома словами, що дозволяє оцінити ступінь їх подібності. Як метрики, використовують відстані Хеммінга, Левенштейна, Дамерау – Левенштейна [2]. У нашій системі використовується модифікація відстані Левенштейна – відстань Дамерау-Левенштейна. Суть даної модифікації полягає в тому, до операцій вставки, видалення і заміни символів, визначених у відстані Левенштейна, додана операція транспозиції (перестановки) символів.

Наведемо приклади таких відстаней.

Right – Rigth: 1

Rabbit – Rabit: 1

Fly – Flai: 2

Таким чином, в разі розбіжності слова з еталоном, за допомогою нечіткого пошуку ми отримуємо слово, яке мав на увазі випробуваний, незважаючи на можливі помилки, і далі працюємо з ним.

4.2 Морфологічний аналіз

Метою і результатом морфологічного аналізу є визначення морфологічних характеристик слова і його основна словоформа  [3].

Існує три основні підходи до проведення морфологічного аналізу. Перший підхід часто називається  «чіткої» морфологією. Другий підхід ґрунтується на деякій системі правил, які по заданому слову визначають його морфологічні характеристики. На противагу до першого підходу, його називають  «нечіткої» морфологією. Третій, імовірнісний підхід, заснований на сполучуваності слів з конкретними морфологічними характеристиками  [3].

Для наших цілей найбільш підходить перший підхід, оскільки він, як і другий, на вхід приймає окремі слова, в той час як третій – імовірнісний – на вхід приймає частини речення, що не підходить для системи тестування мовних знань. Перший варіант простіше в реалізації, однак, має істотний недолік – слова, що надходять на вхід, можуть не входити в словник усіх словоформ. Така ситуація може виникнути через помилки введення початкового тексту, наявності в тексті власних назв і так далі.

Рішення даної проблеми пропонує Гашков у своїй роботі  «Підвищення точності визначення морфологічних ознак невідомих слів методом аналогій з допомогою нечітких множин» [4].  Автор припускає, що використання методу аналогій в поєднанні з нечіткими множинами може поліпшити якість аналізу. Проведені експерименти показали, що точність визначення ознак невідомих словником слів зросла до 50%, що автор вважає задовільним результатом [4].

4.3 Морфемний аналіз

Метою морфемного аналізу слова є поділ слова на окремі лексеми: приставки, коріння, суфікси та закінчення  [3]. Методи морфемного аналізу в глобальному сенсі можна розбити на дві групи.

В першу групу відносяться ті методи, які виконують аналіз тільки на основі словника. Даний метод було б логічно об'єднати з попереднім етапом аналізу відповіді – з морфологічним аналізом. Це дозволить значно скоротити час проведення аналізу відповідей, оскільки проводиться морфологічний розбір слова, і відразу ж отримуємо його морфемні складові. У цієї групи є явний недолік – якщо слова немає в словнику, морфемний розбір не буде виконано. Цієї проблеми позбавлена друга група.

До другої групи належать ті методи, які для своєї роботи не посилаються на словник при розбитті слова на морфеми. До цієї групи входять різні статистичні, а також імовірнісні методи. Дана група методів потребує попереднього навчання правил. Явним достоїнством цієї групи є те, що морфемний розбір слова виконується завжди, хоч і може помилятися в деяких випадках. Добрі результати показують дослідження, які проводив Xuri TANG [5]. Автор займається ймовірнісними методами. Його метод аналізу заснований на ймовірності переходу із n-1-букви в n-букву. Якщо ця ймовірність менше певного порогу – величини, що задається заздалегідь, то ці букви вважаються межами різних морфем, і, отже, повинні бути розділені.

У загальному випадку, для проведення якісного морфемного аналізу, необхідна комбінація цих двох методів, тим паче, якщо стоїть завдання проведення й інших видів аналізу, як в нашому випадку, що, безумовно, значно скоротить загальні часові витрати на проведення аналізу.

Висновки

Система тестування, що розроблюється, буде затребувана, оскільки найпоширеніші методи оцінки вважають невірним відповідь, навіть якщо виникла проста помилка, яка не є критичною. Наприклад, в слові  «ccrying» бачимо зайву букву, яка може бути поставлена внаслідок тремтіння рук, або просто через більш довге натискання на клавішу. Дана помилка є не ключовою, тому буде некоректно  «знімати» за неї все бали.

Дана магістерська робота може служити основою для подальших розробок, які неможливі без налагодженої роботи морфологічного і частково морфемного аналізу – система оцінки знань за допомогою синтаксичного і семантичного аналізу. Додавання цих аналізів дозволить розробляється повністю охопити оцінку знань іноземної мови.

При написанні даного реферату магістерська робота ще не завершена.
Остаточне завершення: травень 2017 року. Повний текст роботи та матеріали по темі можуть бути отримані у автора або його керівника після зазначеної дати.

Список джерел

  1. Карпова И.П. Некоторые аспекты качественной оценки ответов тестируемых в системах контроля знаний [Электронный ресурс]. – Режим доступа: http://cat.convdocs.org/docs/index-194365.html
  2. П.М. Мосалев. «Обзор методов нечеткого поиска текстовой информации» – Журнал "Вестник Московского государственного университета печати" Выпуск № 2 / 2013.
  3. Константин Селезнёв. «Обработка текстов на естественном языке» – «Открытые системы», № 12, 2003 г.
  4. А.В.Гашков «Повышение точности определения морфологических признаков неизвестных слов методом аналогий с помощью нечетких множеств» – Вестник Челябинского государственного университета. 2014. № 7 (336). Филология. Искусствоведение. Вып. 89. С. 20–23.
  5. Xuri TANG. Dept. Foreign Languages Wuhan University of Science and Engineering, 430073, Wuhan, P. R. China
  6. Карпова И.П. Анализ ответов обучаемого в автоматизированных обучающих системах. – Информационные технологии, 2001, № 11. – с.49-55.
  7. Белоногов, Г. Г. Компьютерная лингвистика и перспективные информационные технологии. М., 2004. 248 с.