В статье описан алгоритм отбора информативных признаков, основанный на использовании нейронной сети, представляются результаты применения метода к задаче анализа отчисления студентов механико-математического факультета.
Ключевые слова: отбор признаков, нейронная сеть, успеваемость
Предлагаемое исследование проведено в рамках направления Прикладная математика и информатика
. В Пермском государственном национальном исследовательском университете (ПГНИУ) это направление характеризуется массовым набором (более 85 бюджетных мест) и многолетними традициями подготовки (с 1971 года).
Связь объема финансирования вуза с количеством обучающихся, а также сама возможность вести учебный процесс определяется аккредитацией вуза, успешное прохождение которой связано с рядом показателей, в число которых входит минимальный проходной балл по единому государственному экзамену (ЕГЭ), количество магистров и аспирантов, защитивших диссертации. В связи с этим необходимо уметь анализировать и получать прогноз количества обучающихся студентов, для более эффективной организации учебного процесса.
Согласно исследованию [1] традиционная система оценки знаний студентов, базирующая на итоговом контроле в форме экзамена и (или) зачета, не стимулирует в должной мере систематической работы студентов. Оценка, получаемая студентом на экзамене, в определенной мере зависит от ряда случайных факторов (выбора билета, психологического и физического состояния студента и экзаменатора и др.).
Исходя из этих рассуждений, данные, представленные в 100-бальной шкале БРС отражают более полную информацию о студенте, чем традиционные оценки по 5-бальной шкале.
В ПГНИУ с 01.09.2013 года введена в действие бально-рейтинговая система (БРС), которая позволяет получить дифференцированную и разностороннюю информацию о качестве и результативности обучения.
На данный момент в иностранной литературе существует огромное количество исследований на тематику анализа и прогнозирования успеваемости студентов. Иностранные исследователи выделяют разные факторы, влияющие на успеваемость студентов. В обзоре [2], рассматривались разные подходы к прогнозированию успеваемости обучающихся в колледжах. Были рассмотрены SAT и оценки аттестата для прогнозирования меры успешности в колледжах, под которой понимается средняя оценка, выпускная оценка, лидерские качества и доход после выпуска. В работе [3] авторы использовали мульти-регрессионный метод, использующий комбинацию k регрессионных моделей и метод, основанный на матрице факторизации. Авторы прогнозировали успеваемость студентов при прохождении онлайн курсов. За входные параметры были взяты оценки в аттестате, балл SAT, оценки за уже пройденные курсы, информация о содержимом курса и какой преподаватель проводит занятия по данному курсу.
Данная работа берет свое начало из [4], в которой проводилось исследование успешности окончания курса программирования студентами первокурсниками механико-математического факультета ПГНИУ.
В качестве объекта исследования были выбраны студенты 1 курса, 2014-2016 года поступления. Использовались данные за первый год обучения, то есть три учебных периода и промежуточных аттестации. Исследование проводится с целью выявить, какие факторы оказывают наибольшее влияние на отчисление студента.
Были использованы следующие входные параметры:
Алгебра и аналитическая геометрия
Алгоритмизация и программирование
Математический анализ
Объем выборки составляет 274 студентов, на обучающую и тестовую выборки были поделены следующим образом: 2014 и 2016 год на обучение, а 2015 год на тестирование.
C помощью технологии, сложившейся в Пермской научной школе искусственного интеллекта [5-6] выполнялось проектирование нейронной сети, ее обучение и тестирование, а также эксперименты над нейросетевой математической моделью. Моделирование осуществлялось с помощью нейросимулятора [7].
Оптимальная структура нейронной сети представляла собой персептрон, имеющий 16 входных нейронов, один скрытый слой с 15 нейронами и один выходной нейрон.
В качестве активационных функций нейронов скрытого слоя и выходного нейрона использовалась функция тангенса гиперболического. алгоритм обучения – упругого распространения. После обучения прогностические свойства нейронной сети проверялись на примерах тестирующего множества, которые не использовались при ее обучении. Ошибка сети на обучающем множестве в среднем составила 28,7%, а ошибка на тестирующем множестве – 34,11%.
Было обучено 10 моделей нейронных сетей и посчитана значимость параметров для каждой модели. Результаты приведены в таблице 1. Для каждой модели была посчитана медиана для значимостей, и для показателей, со значимостью меньше делалась отметка
. Были получены результаты, представленные в таблице 1.
Таблица 1
1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | |
---|---|---|---|---|---|---|---|---|---|---|
X1 | 0,126 | 0,165 | 0,112 | 0,116 | 0,227 | 0,113 | 0,111 | 0,143 | 0,155 | 0,119 |
X2 | 0,088 | 0,056 | 0,116 | 0,137 | 0,067 | 0,057 | 0,094 | 0,109 | 0,108 | 0,113 |
X3 | 0,101 | 0,151 | 0,169 | 0,146 | 0,319 | 0,084 | 0,144 | 0,106 | 0,156 | 0,159 |
X4 | 0,06 | 0,079 | 0,051 | 0,069 | 0,017 | 0,063 | 0,051 | 0,076 | 0,06 | 0,07 |
X5 | 0,048 | 0,035 | 0,046 | 0,033 | 0,03 | 0,044 | 0,032 | 0,015 | 0,024 | 0,007 |
X6 | 0,061 | 0,064 | 0,049 | 0,024 | 0,005 | 0,067 | 0,045 | 0,063 | 0,044 | 0,053 |
X7 | 0,041 | 0,063 | 0,026 | 0,03 | 0,004 | 0,041 | 0,065 | 0,019 | 0,042 | 0,027 |
X8 | 0,045 | 0,034 | 0,032 | 0,063 | 0,015 | 0,03 | 0,041 | 0,044 | 0,04 | 0,048 |
X9 | 0,051 | 0,038 | 0,078 | 0,088 | 0,075 | 0,064 | 0,084 | 0,097 | 0,041 | 0,077 |
X10 | 0,078 | 0,051 | 0,059 | 0,062 | 0,082 | 0,053 | 0,072 | 0,048 | 0,053 | 0,067 |
X11 | 0,05 | 0,039 | 0,062 | 0,033 | 0,139 | 0,092 | 0,036 | 0,061 | 0,074 | 0,059 |
X12 | 0,056 | 0,035 | 0,034 | 0,046 | 0,001 | 0,059 | 0,035 | 0,058 | 0,051 | 0,026 |
X13 | 0,061 | 0,029 | 0,03 | 0,019 | 0,005 | 0,048 | 0,043 | 0,047 | 0,03 | 0,043 |
X13 | 0,037 | 0,054 | 0,021 | 0,044 | 0,005 | 0,031 | 0,031 | 0,022 | 0,04 | 0,041 |
X14 | 0,036 | 0,04 | 0,055 | 0,042 | 0,01 | 0,034 | 0,035 | 0,02 | 0,019 | 0,015 |
X15 | 0,018 | 0,037 | 0,006 | 0,034 | 0,000 | 0,053 | 0,023 | 0,03 | 0,034 | 0,045 |
X16 | 0,044 | 0,029 | 0,055 | 0,016 | 0,001 | 0,068 | 0,059 | 0,042 | 0,028 | 0,031 |
Таким образом, можно предположить, что параметры X5, X7, X8, X13, X14, X15, X16 (форма обучения, преподаватель по предмету Алгоритмизация и программирование
, преподаватель по предмету Математический анализ
, проживание дома, проживание в общежитии, время, затраченное на дорогу до университета, учебное заведение: Лицей/Гимназия или Школа, получение соц.стипендии) оказывают наименьшее влияние на результирующий параметр, то есть отчисление студентов.
Таблица 2
X1 | X2 | X3 | X4 | X5 | X6 | X7 | X8 | X9 | X10 | X11 | X12 | X13 | X14 | X15 | X16 | |
Количество отметок | 0 | 0 | 0 | 0 | 9 | 3 | 7 | 7 | 2 | 1 | 4 | 5 | 9 | 8 | 10 | 7 |
В дальнейшем планируется продолжить исследование в данном направлении и построить модель, которая поможет классифицировать студентов по группам риска
.