Автореферат Сєдаков Є.В. Інформаційні технології оцінки знань в системах штучного інтелекту

ІНФОРМАЦІЙНІ ТЕХНОЛОГІЇ ОЦІНКИ ЗНАНЬ В ЕЛЕКТРОННИХ ТЕСТОВИХ СИСТЕМАХ

Зміст

Вступ
Стан питання
Висновки

Вступ
Тестові системи давно й міцно ввійшли в життя багатьох розвинених країн. З кожним роком вони поширювалися по освітніх системах світу, через зручність обробки результатів і можливості масового оцінювання знань у стислий термін. З появою комп'ютерів проведення тестів стало ще більш швидким і зручним процесом. Однак комп'ютерні тестові системи перейняли від звичайних тестових систем їх недолік — далеко не завжди тести дають можливість адекватно оцінити знання учня. Цей недолік можна спробувати виправити одним із багатьох шляхів. Один з них — робота з відповідями на запитання. У той час як повні відповіді оцінюються однозначно за допомогою деякого максимального бала за відповідь, неповні можуть бути оцінені по-різному. Також є можливість ввести в систему різні додаткові й уточнюючі питання, що впливають на результат, такі як питання про впевненість учня у відповіді. Другий зі шляхів — зміна самої структури класичної тестової системи. Тобто зміна того, як зв'язані між собою завдання, відповіді і їх оцінки. Це може бути досягнуто за допомогою концепт-карт і адаптивного тестування, що базується на них.

Мета. Максимально збільшити точність оцінювання знань, не перевантажуючи при цьому набір завдань уточнюючими або перевірочними елементами, які затрудняють тестування. Для цього важливо вибрати, дослідити й, при необхідності, поліпшити один з підходів до вдосконалення існуючих методів тестування або їх комбінацію. У зв'язку із цим потрібно виконати наступні задачі:

проаналізувати поточний стан питання;
вибрати один чи декілька підходів, за допомогою яких можна збільшити точність оцінювання знань ;
створити модель оцінювання знань на основи вибраних методів;
спроектувати систему тестування, в основі якої знаходиться отримана модель;
cтворити програмний продукт на основі проекту.

Актуальність теми
Електронні системи тестування в тій або іншій формі все частіше використовуються для прийняття рішень, важливих у рамках професійного життя людини. Існує багато електронних тестових систем, які використовуються при працевлаштуванні та отриманні різного роду сертифікатів. Більш того, вони використовуються на державному рівні, як, наприклад, зовнішнє незалежне тестування, результат якого обробляє комп'ютер.

Плановані практичні результати
Результати дослідження можуть бути використані для вдосконалення існуючих тестових систем за допомогою програмних модулів розширеного аналізу відповідей або для створення нових тестових систем з відмінною від класичної структурою.

Стан питання
Аванесов В.С. в [1] розглядає спосіб оцінювання, згідно з яким у багатьох випадках досить представляти учню питання із трьома варіантами відповідей, один з яких вірний. Але оцінювання таких відповідей ведеться, наприклад у системі балів, яка включає лише -1, 0, 1. Учень може закінчити тест із негативною кількістю балів, якщо буде вибирати відповіді, які є логічно протилежними правильним. Або вважаються педагогом більш помилковими. Такі завдання відповідають принципу імплікації [2] й найкраще підходять для перевірки знань щодо причинно-наслідкового зв'язку між явищами.

Підхід є дуже цікавим, тому що, згідно зі словами самого Аванесова В.С., дозволяє знайти в знаннях учнів критичні помилки в логічних зв'язках, які інакше не були б виявлені. У той же час, на даний момент є не так багато систем тестування, які дозволяють „штрафувати“ учня.

Дослідження Аванесова щодо психологічних аспектів тестування показують, що дуже часто важливу роль у створенні тестових завдань для об'єктивної оцінки знань відіграють „дистрактори“ і їх особливості. Це такі варіанти відповідей, які не є вірними, але можуть відволікти увагу учня. Добре підібрані дистрактори повинні вибиратися непідготовленими учнями приблизно в 1/К випадків, де К — загальна кількість відповідей. Тобто не повинні бути очевидно невірними. Якщо тестове завдання має відповіді, які ніколи не вибирають, то система тестування, яка його використовує, не може надавати об'єктивні оцінки за зрозумілими причинами — усі розрахунки щодо ймовірностей угадування відповідей учнями відразу стають невірними. За рахунок очевидно невірної відповіді завдання стає значно більш легким. Якщо поганий дистрактор видалити зі списку відповідей і провести перерахування балів, то у рамках більшості моделей оцінювання, кількість балів, яку набере середньостатистичний учень, зменшиться.

Очевидно, що вибір правильних дистракторів вимагає серйозного втручання експерта в предметній області в складання завдань, однак це мінімізує ймовірність вгадування, яка є одним з важливих факторів багатьох моделей. Також далеко не всі тестові завдання можуть бути змінені так, щоб список відповідей став зв’язним.

Важливим є внесок Карпової І.П в розвиток моделей оцінювання тестових завдань із частковими відповідями. Запропонований нею метод оцінювання називається Дельта-методом або Д-Методом і не вимагає активного втручання експерта в складання завдань. Основою Д-Методу є функція подоби множин, як зворотна функція відстані між множинами відповідей і правильних відповідей:

, (1)

де LE — потужність еталонної множини, КA — кількість елементів з відповіді, які входять в еталон, К' — кількість елементів, що не входять в еталон. Ця оцінка змінюється в рамках [0,1] і зменшується, як при нестачі елементів у відповіді, так і при наявності зайвих. Якщо правильність відповіді залежить від порядку елементів, то він представляється у вигляді списку і використовується процедура визначення ступеня подоби списків [3]. Для порівняння списків можна використовувати процедуру сортування [4], яке полягає в попарній перестановці елементів. Максимальне число перестановок Кn для списку довжиною n можна визначити через n:

, (2)

А ступінь подоби списків визначити як:

, (3)

де Ki — кількість перестановок (інверсій) у списку-відповіді. Процедура порівняння списків розбивається на два етапи, на першому з яких відбувається порівняння списків, як множин, а на другому виключаються зайві елементи, а інші впорядковуються. Загальний ступінь подоби списків є функцією від результатів обох порівнянь (див. Мал. 1).

Малюнок 1 (анімація, 52 кадри, 10 повторень) — Використання Д-методу для порівняння слів

Цю функцію необхідно задавати залежно від важливості компонентів оцінки ступені подоби. У загальному випадку — це середнє арифметичне. Уважається, що дані методи можна поширити на відповідь типу множина списків, у вигляді якого, у свою чергу, можна представляти відповіді на природній обмеженій мові [5], таблиці [6].

Якість оцінювання знань можна поліпшити не тільки шляхом правильної оцінки відповідей, але й шляхом поліпшення системи тестових завдань. Анохіна А. в [7] розглядає багато аспектів адаптивного тестування, когнітивних процесів при тестуванні, моделей тестів, і пропонує використання концепт-карт для поліпшення структури поля питань, а значить і якості перевірки знань. Концепт-карти являють собою графи, у вершинах яких перебувають деякі концепти — елементи галузі знань. Зв'язки між концептами представляються на графі ребрами. Також використовуються „сполучні фрази/слова“, які описують зв'язки або можуть служити подобами вершин, переводячи один зв'язок у декілька. Наприклад, сполучні фрази можуть значити „містить у собі, робить, може перебувати у стані“. У карт можуть бути різні топології [8]. Візуально, найбільш загальні концепти звичайно розташовують зверху [9]. Система, що використовує концепт-карти, може бути описана через опис трьох її частин: завдань, що дозволяють учневі довести, що він розуміє якийсь концепт; способів вирішення завдань, зазначених вище, учнем; способу оцінювання концепт-карти учня [10]. При навчанні концепт-карта може бути задана вчителем заздалегідь, тоді оцінити в остаточному підсумку можна буде лише кількість і структуру засвоєних концептів. Але існують і системи, у яких учневі дається лише список концептів, також часто й зв'язків між ними, а іноді заздалегідь задані базові концепти. Вважається, що в процесі конструювання власної концепт-карти учнем, відбуваються когнітивні процеси більш високого порядку, згідно з таксономією Блума [11], ніж при простому підтвердженні розуміння кожного з концептів, як трапляється у класичних тестових системах [12].

У системі, прототип якої побудувала група під керівництвом Анохіної А., вчитель розбиває всю програму курсу на окремі підрозділи й будує для кожного концепт-карту. Однак кожна наступна концепт-карта доповнює попередню, не змінюючи її. Наприкінці обробки матеріалу курсу формується одна велика концепт-карта знань, у яку зливаються всё підрозділи курсу. Також використовується два типи зв'язків: „важливі“ і „менш важливі“.
Зіставлення концепт-карт, створених учнем і вчителем, приводить до одної з п'яти типових ситуацій.
1) Учень правильно з'єднав концепти й одержить 5 балів за важливі й 2 за менш важливі зв'язки.
2) Учень створив зв'язки, яких немає в карті вчителя. За це не накладають штрафи, але й не видаються бали.
3) Зв'язок створений правильно, але хоча б один зі зв'язаних концептів розташований не там, де повинен бути, тобто його положення і інші зв'язки не відповідають карті вчителя. Учень одержує 80% балів за відповідний зв'язок.
4) Зв'язок має невідповідний тип, а хоча б один з концептів перебуває не на своєму місці. Учень одержить 50% балів.
5) Два концепти переплутані місцями, але це не має значення, тому що вони обоє пов'язані з тим самим вузлом і більше ні з якими. Учень одержує повний бал. Тобто „лівий лист“ і „правий лист“ у деревоподібній структурі карти рівноправні.

На концепт-картах можна базувати своєрідні системи адаптивного тестування [13]. Вони визначають, наскільки важко учневі створювати концепт-карту й, згідно з оцінкою його успіхів, доповнюють її потрібними концептами. Однак самі процеси „визначення проблеми“ і „допомоги учню“ слабко детерміновані.

Існує ще один напрямок для поліпшення якості, який не пов'язан ні з адаптивним тестуванням, ні з оцінкою неповних відповідей. Про це пише в [14] Дарвін Хант. У статті, насамперед, обговорюється, що ж таке особисте знання людини. Автор доходить висновку, що знання — це лише особливого роду віра. І тому знання не можна відокремити від ступеня впевненості людину в ньому, а також у джерелах, за допомогою яких це знання було отримано. При вимірі рівня знань людину важливу роль відіграють ті завдання, у яких він робить помилки. Просто тому, що людина, що не знає чогось і людина, твердо впевнена у помилковому факті, на практиці виявляються дуже різними людьми. Фахівець, який має набір знань, не стане діяти в незнайомій ситуації, спираючись на відсутність необхідних знань або обривкові відомості. Він спробує так або інакше одержати допомогу ззовні. Фахівець же, що володіє помилковими знаннями, у яких він певен, здійснить помилку, не сумніваючись у своїй правоті. Саме тому при оцінці рівня знань важливо знати, наскільки людина певна у тому або іншому твердженні. Якщо у відповіді сполучаються впевненість і помилка — на завдання потрібно звернути увагу й указати на нього учневі.

Для визначення рівня впевненості застосовується критерій самооцінки, що в англомовній літературі зветься „self-assessment“. До кожного тестового завдання додається шкала впевненості з п'яти пунктів: зовсім певен, сильно певен, досить певен, не дуже певен, взагалі не певен. Дослідження затверджують, що студенти, що одержували такі тести замість звичайних, набагато краще готувалися до іспитів, щоб мати можливість показати високий рівень упевненості. А відбувалося це тому, що в систему були уведені мотиваційні елементи [15]. Маючи відсоток правильно оцінених відповідей, можна змінювати кінцеву оцінку з його допомогою. Певні правильні відповіді будуть підвищувати додаткову частину оцінки, а певні неправильні знижувати. У той час як невпевнені неправильні не будуть виявляти істотного впливу.

Звісно не варто давати цьому елементу оцінки занадто велику питому вагу. Його модуль варто залишити в межах трьох-п'яти відсотків. Але навіть це послужить мотивацією для повторення й уважного вивчення матеріалу. Мотивація й більш глибоке вивчення галузей знань учнів не є єдиними плюсами тестування із самооцінкою. Повторне включення в наступні тести матеріалу першого тесту покаже, чи працюють студенти над своїми помилками, велике число невпевнених у відповіді на окремі питання людей виявить завдання з неправильним формулюванням. Статистичні дослідження у Швеції в 2001 році також показали, що введення рівня впевненості у звичайний тест знизило різницю між середніми результатами тестів чоловічої й жіночої частини учнів без зниження загального рівня успішності [16].

Введення рівня впевненості у відповіді подвоює кількість завдань у системі тестування. Через це доводиться переглядати кількість часу, що надається для виконання завдань і кількість завдань, що будуть видані учням. З іншого боку, дані про рівень впевненості у відповідях є незаперечно цінними, обробляються автоматично та не залежать від предметної області.

Висновки. Проведений аналіз методів оцінювання знань. Результати аналізу показують, що багато моделей дозволяють оцінювати неповні відповіді без використання спеціальних експертних знань про предметну область, однак їх коректність необхідно статистично довести. Також існує ряд способів поліпшення якості, пов'язаних з активним втручанням експертів у процес навчання і зміненням класичної структури систем тестування. Існують ефективні способи оцінювання, для використання яких необхідне введення додаткових уточнюючих питань. Їхнє подальше вивчення покаже, чи необхідно їх застосування на практиці.

На даний момент реферат не завершено. З повною версиєю можна буде ознайомитися в січні 2014 року у автора сайту або у його наукового керівника.

Список використаних джерел

Аванесов В.С. Научные проблемы тестового контроля знаний / В.С. Аванесов — М.: Исследовательский центр проблем качества подготовки специалистов, 1994. — 135 с.
Аванесов В.С. Композиция тестовых заданий. / В.С. Аванесов, 3 изд. М.: Центр тестирования, 2002. — 240с.
Фор А. Восприятие и распознавание образов / Пер. с фр. / Под ред. Г.П. Катыса. — М.: Машиностроение, 1989. — 272 с.
Кнут Д. Искусство программирования для ЭВМ / т.3. Сортировка и поиск / Пер. с англ. / Под ред. Баяковского и Штаркмана. — М.: Мир, 1978. — 848 с.
Шемакин Ю.И. Начала компьютерной лингвистики: учеб. пособие / Ю.И. Шемакин— М.: Изд-во МГОУ, А/О "Росвузнаука", 1992. — 115 с.
Карпова И.П. Анализ ответов обучаемого в автоматизированных обучающих системах / И.П. Карпова // Информационные технологии, 2001, № 11. — с.49-55.
Anohina A. Using concept maps in adaptive knowledge assessment / A. Anohina, V. Graudina, J. Grundspenkis // Advances in Information Systems Development, 2006. — p. 469
Yin Y. Comparison of two concept-mapping techniques: implications for scoring, interpretation, and use. / Y. Yin, J. Vanides, M.A. Ruiz-Primo, C.C. Ayala, R.J. Shavelson — J. Res. Sci. Teaching, vol. 42, no. 2 , 2005. — p.166-184
Novak J.D. The theory underlying concept maps and how to construct them. / J.D. Novak, A.J. Canas — Technical Report IHCM CmapTools 2006-1.
Problems and issues in the use of concept maps in science assessment / M.A. Ruiz-Primo, R.J. Shavelson — J. Res. Sci. Teaching 33 (6), 1996. — p. 569-600
Bloom B.S. Taxonomy of educational objectives. Handbook I: The cognitive domain / B.S. Bloom — David McKay Co Inc., New York — 1956.
Mogey N. The use of computers in the assessment of student learning / N. Mogey, H. Watt // G. Stoner (ed.) Implementing Learning Technology. Learning Technology Dissemination Initiative, 1996. — p.50-57
Papanastasiou E. Computer-adaptive testing in science education/ E. Papanastasiou // Proc. of the 6th Int. Conf. on Computer Based Learning in Science, 2003. — p. 965-971
Hunt D.P. The concept of knowledge and how to measure it / D.P. Hunt // Journal of Intellectual Capital, vol. 4, p 110-113
Franken R.E. Human Motivation / R.E. Franken, 3rd ed., Brooks Cole, Pacific Grove, CA, 1994.
Koivula N. Performance on the Swedish Scholastic Aptitude Test: effects of self-assessment and gender/ N. Koivula, P. Hassmen, D.P. Hunt // Sex Roles, Vol. 44 No. 11/12, 2001. — p. 629-645

Сєдаков Євген Вадимович

Факультет комп'ютерних наук та технологій

Кафедра систем штучного інтелекту

Спеціальність «Системи штучного інтелекту»

Інформаційні технології оцінки знань в системах штучного інтелекту

Науковий керівник: к.т.н., доц. Звєнігородський Олександр Сергійович

Зміст