ДонНТУ   Портал магистров

ИНФОРМАЦИОННЫЕ ТЕХНОЛОГИИ ОЦЕНКИ ЗНАНИЙ В ЭЛЕКТРОННЫХ ТЕСТОВЫХ СИСТЕМАХ

 

Содержание

 

Введение
Тестовые системы давно и прочно вошли в жизнь многих других развитых стран. С каждым годом они распространялись по образовательным системам мира, в виду удобства обработки результатов и возможности массового оценивания знаний в сжатые сроки. С появлением компьютеров проведение тестов стало ещё более быстрым и удобным процессом. Однако компьютерные тестовые системы переняли от обычных тестовых систем их недостаток — далеко не всегда тесты дают возможность адекватно оценить знания учащегося. Этот недостаток можно попытаться исправить одним из множества путей. Один из них — работа с ответами на вопросы. В то время как полные ответы оцениваются однозначно с помощью некого максимального балла за ответ, неполные могут быть оценены по-разному. Также имеется возможность ввести в систему различные дополнительные и уточняющие вопросы, влияющие на результат, такие как вопросы об уверенности ученика в ответе. Второй из путей — изменение самой структуры классической тестовой системы. То есть изменение того, как связаны между собой задания, ответы и их оценки. Это может быть достигнуто с помощью концепт-карт и адаптивного тестирования, базирующегося на них.

Цель. Максимально увеличить точность оценивания знаний, не перегружая при этом набор заданий  уточняющими или проверочными элементами, которые затруднят тестирование. Для этого важно выбрать, исследовать и, при необходимости, улучшить один из подходов к усовершенствованию существующих методов тестирования или их комбинацию. В связи с этим требуется выполнить следующие задачи:

Актуальность темы
Электронные системы тестирования в той или иной форме всё чаще используются для принятия решений, важных в рамках профессиональной жизни человека. Существует масса электронных систем тестирования, которые используются при трудоустройстве или получении разного рода сертификатов. Более того, они используются на государственном уровне, как, например, внешнее независимое тестирование, результат которого обрабатывает компьютер.

Планируемые практические результаты

Результаты исследования могут быть использованы для усовершенствования существующих тестовых систем с помощью программных модулей расширенного анализа ответов или для создания новых тестовых систем с отличающейся от классической структурой.

Состояние вопроса
Аванесов В.С.  в [1]  рассматривает способ оценивания, согласно которому  во многих случаях достаточно представлять ученику вопросы с тремя вариантами ответов, один из которых верный. Но оценивание таких ответов  ведется, например, в системе баллов, которая включает лишь -1, 0, 1. Ученик может закончить тест с негативным количеством баллов, если будет выбирать ответы, которые логически противоположны правильным. Или считаются педагогом более ошибочными. Такие задания отвечают принципу импликации [2] и лучше всего подходят для проверки знаний относительно причинно-следственной связи между явлениями.

Подход является очень интересным, так как, согласно словам самого Аванесова В.С., позволяет найти в знаниях тестируемых критические ошибки в логических связях, которые иначе не были бы обнаружены. В то же время, на данный момент имеется не так уж и много систем тестирования, которые позволяют «штрафовать» ученика.

Исследование Аванесова В.С. относительно психологических аспектов тестирования показывают, что очень часто важную роль в создании тестовых заданий для объективной оценки знаний играют «дистракторы» и их особенности. Дистракторы — это такие варианты ответов, которые не являются верными, но могут отвлечь внимание ученика. Хорошо подобранные дистракторы должны выбираться неподготовленными тестируемыми приблизительно в 1/К случаев, где К — общее количество ответов. То есть не  должны быть очевидно неверными. Если тестовая задача имеет ответы, которые никогда не выбирают, то система тестирования, которая его использует, не может предоставлять объективные оценки по понятным причинам — все расчеты относительно вероятностей угадывания ответов тестируемыми сразу становятся неверными. За счет очевидно неверного ответа задание становится значительно более легким. Если плохой дистрактор удалить из списка ответов и провести пересчет баллов, то в рамках большинства моделей оценивания количество баллов, которое наберет среднестатистический ученик, уменьшится.

Очевидно, что подбор правильных дистракторов требует серьёзного вмешательства эксперта в предметной области в составление заданий, однако это минимизирует вероятность угадывания, которая является одним из важных факторов множества моделей. Также далеко не все тестовые задания  могут быть изменены так, чтобы список ответов стал связным.

Важным является вклад Карповой И.П.  в развитие моделей оценивания тестовых заданий с частичными ответами. Предложенный ею метод оценивания называется Дельта-методом или Д-методом  и не требует активного вмешательства эксперта в составление заданий. Основой Д-метода является функция подобия множеств, как обратная функция расстояния между множествами ответов и правильных ответов:

1,                                    (1)

где LE — мощность эталонного множества, КA — количество элементов из ответа, которые входят в эталон, К' — количество элементов, не входящих в эталон. Эта оценка изменяется в границах [0,1] и уменьшается, как при нехватке элементов в ответе, так и при наличии лишних. Если правильность ответа зависит от порядка элементов, то он представляется в виде списка и используется процедура определения подобия списков [3]. Для сравнения списков можно использовать процедуру сортировки [4], которая состоит в попарной перестановке элементов. Максимальное число перестановок Кn для списка длиной n можно определить через n:

2,                                 (2)

А степень подобия списков определить как:

3,                                 (3)

где Ki — количество перестановок (инверсий) в списке-ответе. Процедура сравнения списков разбивается на два этапа, на первом из которых происходит сравнение списков, как множеств, а на втором исключаются лишние элементы, а остальные упорядочиваются. Общая степень подобия списков является функцией от  результатов обоих сравнений (см. Рис. 1).

D-метод, 52 кадра, 256x128

Рисунок 1 (анимация, 52 кадра, 10 повторений) — Использование Д-метода для сравнения слов

Эту функцию необходимо задавать в зависимости от важности компонент оценки степени подобия. В общем случае — это среднее арифметическое. Считается, что данные методы можно распространить на ответ типа множество списков, в виде которого, в свою очередь, можно представлять ответы на естественном ограниченном языке [5], таблицы [6].

Качество оценивания знаний можно улучшить не только путем правильной оценки ответов, но и путем улучшения системы тестовых заданий. Анохина А. в [7] рассматривает множество аспектов адаптивного тестирования, когнитивных процессов при тестировании, моделей тестов, и предлагает использование концепт-карт для улучшения структуры поля вопросов, а значит и качества проверки знаний. Концепт-карты представляют из себя графы, в вершинах которых находятся некоторые концепты — элементы области знаний. Связи между концептами представляются на графе ребрами. Также используются «связующие фразы/слова», которые описывают связи или могут служить подобиями вершин, переводя одну связь в несколько. Например «включает в себя, производит, может находиться между». У карт могут быть различные топологии [8]. Визуально, наиболее общие концепты обычно располагают сверху [9].  Система, использующая концепт-карты, может быть описана через описание трех её частей: заданий, позволяющих ученику доказать, что он понимает некий концепт; способов разрешения заданий, указанных выше, учащимся;  способом оценивания концепт-карты ученика [10]. При обучении, концепт-карта может быть задана учителем заранее, и оценить, в конечном счете, можно будет лишь количество и структуру усвоенных концептов. Но существуют и системы, в которых ученику дается лишь список концептов, также часто и связей между ними, а иногда заранее заданы базовые концепты. Считается, что в процессе конструирования собственной концепт-карты  учеником, происходят когнитивные процессы более высокого порядка, согласно таксономии Блума [11], чем при простом подтверждении понимания каждого из концептов, как случается в классических тестовых системах [12].

В системе, прототип которой построила группа под руководством Анохиной А., учитель разбивает  всю программу курса на отдельные подразделы и строит для каждого концепт-карту. Однако каждая следующая концепт-карта дополняет предыдущую, не меняя её. В конце обработки материала курса формируется одна большая концепт-карта знаний. Также используется два типа связей: «важные» и «менее важные». Сопоставление концепт-карт, созданных учеником и учителем, приводит  к одной из пяти типовых ситуаций.

1) Ученик правильно соединил концепты и получит 5 баллов за важные и 2 за менее важные связи.

2) Ученик создал связи, которых нет в карте учителя. За это не налагаются никакие штрафы.

3) Связь создана правильно, но хотя бы один из связанных концептов расположен не там, где должен быть, т.е. его другие связи не соответствуют карте учителя. Ученик получает 80% баллов за соответствующую связь.

4) Связь имеет неподходящий тип, а хотя бы один из концептов находится не на своем месте. Ученик получит 50% баллов.

5) Два концепта перепутаны местами, но это не имеет значения, так как они оба связаны с одним и тем же узлом и больше ни с какими. Ученик получает полный балл. Т.е. «левый лист» и «правый лист» древовидной структуры карты равноправны. На концепт-картах можно базировать своеобразные системы адаптивного тестирования [13]. Они определяют, насколько трудно ученику создавать концепт-карту и, согласно оценке его успехов, дополняют её нужными концептами. Однако сами процессы «определения проблемы» и «помощи учащемуся» слабо детерминированы.

Существует ещё одно направление для улучшения качества, которое не связано ни с адаптивным тестированием, ни с оценкой неполных ответов. Об этом пишет в [14] Дарвин Хант. В статье, прежде всего, обсуждается, что же есть личное знание человека. Автор приходит к выводу, что знание — это лишь особого рода вера. И поэтому знание нельзя отделить от степени уверенности человека в нем, а также в источниках, с помощью которых это знание было получено. При измерении уровня знаний человека важную роль играют те задания, в которых он совершает ошибки. Просто потому, что человек, не знающий чего-то и человек, твердо уверенный в ошибочном факте, на практике оказываются очень разными людьми. Специалист, который обладает недостаточным набором знаний, не станет действовать в незнакомой ситуации, опираясь на отсутствие необходимых знаний или обрывочные сведения. Он попытается, так или иначе, получить помощь извне. Специалист же, обладающий ошибочными знаниями, в которых он уверен, совершит ошибку, не сомневаясь в своей правоте. Именно поэтому при оценке уровня знаний важно знать, насколько человек уверен в том или ином утверждении. Если в ответе сочетаются уверенность и ошибка — на задание нужно обратить внимание и указать на него учащемуся.

Для определения уровня уверенности применяется критерий самооценки, называемый в англоязычной литературе «self-assessment». К каждому тестовому заданию добавляется шкала уверенности из пяти пунктов: совершенно уверен, сильно уверен, достаточно уверен, не очень уверен, вообще не уверен. Исследования утверждают, что студенты, получавшие такие тесты с самооценкой вместо обычных, гораздо усерднее готовились к экзаменам, чтобы иметь возможность показать высокий уровень уверенно. А происходило это потому, что в систему были введены мотивационные элементы [15]. Имея процент правильно оцененных самими учениками ответов, можно изменять конечную оценку с его помощью. Уверенные правильные ответы будут повышать дополнительную часть оценки, а уверенные неправильные понижать. В то время как неуверенные неправильные не будут оказывать существенного влияния.

Естественно, не стоит давать этому элементу оценки слишком большой удельный вес. Его модуль стоит оставить в пределах трёх-пяти процентов. Но даже это послужит мотивацией для повторения и внимательного изучения материала. Мотивация и более глубокое изучение областей знаний учеников не являются единственными плюсами тестирования с самооценкой. Повторное включение в последующие тесты материала первого теста покажет, работают ли студенты над своими ошибками. Большое число неуверенных в ответе на отдельные вопросы учеников выявит задания с неправильной формулировкой. Статистические исследования в Швеции в 2001 году также показали, что введение уровня уверенности в обычный тест снизило разницу между средними результатами тестов мужской и женской части учащихся без снижения общего уровня успеваемости [16].

Введение уровня уверенности в ответе удваивает количество заданий в системе тестирования. Из-за этого приходится пересматривать количество времени, отводимого на выполнение заданий и количество заданий, выдаваемых учащимся. С другой стороны, данные об уровне уверенности в ответах являются неоспоримо полезными, обрабатываются автоматически и полностью независимы от предметной области.

 

Выводы. Проведен анализ методов улучшения оценивания знаний. Результаты анализа показывают, что многие модели позволяют оценивать неполные ответы без использования специальных экспертных знаний о предметной области, однако их корректность необходимо статистически доказать. Также существует ряд способов улучшения качества, связанных с активным вмешательством экспертов в процесс обучения и с изменением классической структуры систем тестирования. Существуют эффективные способы оценивания, для использования которых необходимо введение дополнительных уточняющих вопросов. Их дальнейшее изучение покажет, необходимо ли их применение на практике.    

 

На данный момент реферат не завершен. С полной версией можно будет ознакомиться в январе 2014 года у автора сайта или научного руководителя.

Список использованных источников

  1. Аванесов В.С. Научные проблемы тестового контроля знаний / В.С. Аванесов  — М.: Исследовательский центр проблем качества подготовки специалистов, 1994. — 135 с.
  2. Аванесов В.С. Композиция тестовых заданий. / В.С.  Аванесов, 3 изд. М.: Центр тестирования, 2002. — 240с.
  3. Фор А.  Восприятие  и  распознавание  образов /  Пер.  с  фр. /  Под  ред. Г.П. Катыса. — М.: Машиностроение, 1989. — 272 с.
  4. Кнут Д. Искусство программирования для ЭВМ / т.3. Сортировка и поиск / Пер. с англ. / Под ред. Баяковского и Штаркмана. — М.: Мир, 1978. — 848 с.
  5. Шемакин Ю.И.  Начала  компьютерной  лингвистики:  учеб.  пособие / Ю.И. Шемакин—  М.: Изд-во МГОУ, А/О "Росвузнаука", 1992. — 115 с.
  6. Карпова И.П. Анализ ответов обучаемого в автоматизированных обучающих системах / И.П. Карпова // Информационные технологии, 2001, № 11. — с.49-55.
  7. Anohina A. Using concept maps in adaptive knowledge assessment / A. Anohina, V. Graudina, J. Grundspenkis // Advances in Information Systems Development,  2006. — p. 469
  8. Yin Y. Comparison of two concept-mapping techniques: implications for scoring, interpretation, and use. / Y. Yin, J. Vanides, M.A. Ruiz-Primo, C.C. Ayala, R.J. Shavelson —  J. Res. Sci. Teaching, vol. 42, no. 2 , 2005. —  p.166-184
  9. Novak J.D. The theory underlying concept maps and how to construct them. / J.D. Novak, A.J. Canas  — Technical Report IHCM CmapTools 2006-1.
  10. Problems and issues in the use of concept maps in science assessment / M.A. Ruiz-Primo, R.J. Shavelson — J. Res. Sci. Teaching 33 (6), 1996. — p.   569-600
  11. Bloom B.S. Taxonomy of educational objectives. Handbook I: The cognitive domain / B.S.  Bloom — David McKay Co Inc., New York — 1956.
  12. Mogey N. The use of computers in the assessment of student learning / N. Mogey, H. Watt // G. Stoner (ed.) Implementing Learning Technology. Learning Technology Dissemination Initiative, 1996. — p.50-57
  13. Papanastasiou E. Computer-adaptive testing in science education/ E. Papanastasiou  // Proc. of the 6th Int. Conf. on Computer Based Learning in Science, 2003. —   p. 965-971
  14. Hunt D.P.  The concept of knowledge and how to measure it / D.P. Hunt  // Journal of Intellectual Capital, vol. 4, p 110-113
  15. Franken R.E. Human Motivation / R.E. Franken, 3rd ed., Brooks Cole, Pacific Grove, CA,  1994.
  16. Koivula N. Performance on the Swedish Scholastic Aptitude Test: effects of self-assessment and gender/ N. Koivula, P. Hassmen, D.P. Hunt // Sex Roles, Vol. 44 No. 11/12,  2001. —  p. 629-645