На сучасному етапі подальшого вдосконалення навчання в системі вищої освіти запроваджується модульно-рейтингова система, в основі якої лежить тестовий контроль рівня підготовки студентів. Головна мета тестування – отримати валідну, надійну і корисну інформацію щодо досягнень студентів. Єдиною гарантією того, що тест повністю відповідає сучасним цілям навчання та освіти, є дотримання певної послідовності дій при його конструюванні. Цю проблему досліджували такі науковці-тестологи як В. Аванесов, А. Анастазі, Л. Бурлачук, А. Майоров, М. Челишкова, П. Клайн, Н. Гронланд та інші. Та все ж багато викладачів-практиків мають певні труднощі у розробці та правильному методичному застосуванні власних тестів.
Метою даної статті є висвітлення технології створення тестів викладачем, аналіз вимог до планування тестів, основних етапів їх конструювання та показників ефективності.
На думку Н. Гронланда [4, с. 126-134], першим кроком створення тесту є формулювання його мети. На жаль, багато авторів сучасних тестів досягнень цей крок ігнорують. Але відбір змісту тесту повинен мати чітку цільову спрямованість, інакше не можна розраховувати на його високу якість. Далі слід конкретизувати загальні цілі навчання для певного розділу, теми, тобто визначити те, що повинен знати і вміти учень на даному етапі навчання з певної теми. Конкретизація навчальних цілей чітко виражена у стандартах та навчальних програмах з кожного предмету. Надалі розробляється план тесту. Цей крок називають розробкою специфікації тесту [2, с. 151-153]. З цією метою найкраще використовувати двосторонню таблицю специфікацій, що пов’язує навчальні цілі з змістом курсу і конкретизує важливість кожного навчального результату. Вона забезпечує більшу гарантію високої змістовної та функціональної валідності тесту [4, с. 126-134]. На даному етапі фіксується структура, зміст перевірки і відсоткове співвідношення завдань у тесті.
Наведемо приклад узагальненої таблиці специфікацій. Таблиця 1 складена так: перелік загальних навчальних цілей записано у лівій колонці, а головні змістовні лінії (окремі розділи) – у верхній стрічці таблиці. Нижня стрічка і крайня права колонка заповнюються першими, виходячи із запланованої кількості завдань тесту, відсоткових співвідношень між розділами (змістовними лініями) та тих знань і вмінь, що потрібно перевірити. Щоб підрахувати кількість завдань для кожної клітинки, треба перемножити загальну кількість завдань, на відсоткову частку певного розділу. Необхідно звернути увагу на те, що в цілому відсоткова часка усіх змістовних ліній (розділів) та всіх знань і вмінь, що перевіряються, повинна складати 100%.
Збільшення кількості тестових завдань збільшує надійність тесту; з іншої сторони – це може втомлювати студентів. Тому у визначенні кількості завдань перед автором тесту постає проблема. Так для досягнення задовільної надійності потрібно не менше 20 завдань. Важливу роль у визначенні кількості завдань тесту відіграють особливості контингенту, який необхідно тестувати. Зазвичай при розробці тесту кількість завдань попереднього (чорнового) варіанту повинна бути хоча б на 50% більшою від запланованої кількості. При складанні плану майбутнього тесту слід звернути увагу також на створення шкали оцінювання, тобто визначення ваги кожного тестового завдання. Для цього використовують критерії оцінювання навчальних досягнень студентів з даного предмету. Наступним кроком є створення самих тестових завдань. Варто зазначити, що хоча для аналізу тестових завдань існує потужний статистичний апарат, його лише недостатньо. Перш за все самі завдання повинні бути ефективними. Не варто перевантажувати тест завданнями, які не несуть інформації про знання учнів з даної теми. Кожне завдання у тесті повинно бути індикатором відповідного знання, а досягнути цього можна лише за рахунок детальної експертизи цього тесту спеціалістами-предметниками [5].
При конструюванні тестів досягнень, як відомо, використовуються тестові завдання різних типів. Тому наступним кроком є вибір найбільш прийнятних тестових завдань для перевірки певного часткового фрагменту інформації. При цьому варто враховувати ряд моментів. Щоб правильно вибрати тип тестових завдань, необхідно спробувати сконструювати завдання кожного типу - з готових завдань завжди легше вибрати найоптимальніше. Критеріями вибору виду завдання є: зрозумілість; попередження випадкового вгадування; компактність і точність; одні завдання не повинні містити в собі відповіді на інші; якщо кілька завдань є однаково ефективні, то треба вибрати той, що рідше зустрічається у тесті [3, с 80-81]. П. Клайн вважає джерелом помилок при тестуванні втомленість та розсіяння уваги, а використання тестових завдань різних видів роблять тест менше монотонним для студентів [3, с 78-79].
Можна сформулювати вимоги до тестових завдань для забезпечення їх валідності таким чином:
1) кожне тестове завдання повинно мати тільки одну думку; 2) необхідно користуватися чіткою, зрозумілою мовою; 3) необхідно використовувати за можливістю прості речення, тому що дуже короткі (у телеграфному стилі) формулювання, як правило, є багатозначними, а непомірно довгі фрази ускладнюють розуміння завдання, викликають втому; 4) завдання
повинні бути реально наближені до предмета, з якого вимірюється рівень знань, мати конкретний зміст; 5) невірні відповіді (дистрактори) повинні бути правдоподібні.
Коли завдання сформульовані, необхідно тест оформити належним чином. На цьому етапі слід подбати про очевидну валідність тесту (очевидно валідними повинні бути перш за все самі тестові завдання).
Також до кожного тесту повинна бути складена інструкція. Інструкція повинна бути зрозумілою, в ній повинно вказуватись, як вибирати відповіді і яким чином вписувати (відмічати) їх. В інструкції може міститись додаткова інформація, яка необхідна для студентів. Інструкція може подаватись загальна для всього тесту, а може бути написана окремо для кожного завдання чи групи завдань. П. Клайн рекомендує при написанні інструкції дотримуватись таких правил: формулювати інструкцію якомога коротше; використовувати прості речення без уточнень; для зрозумілості наводити приклади [3, с 50-51].
Існують рекомендації щодо оформлення тесту. І хоча вони є очевидними, на них варто звернути увагу. Л. Бурлачук серед інших виділяє такі: нумерується кожне завдання; завдання має містити не більше 10-12 слів; кожне завдання треба відділити (можна за допомогою вільного простору); загальний вигляд тесту має бути естетичним, привабливим [2, с 156-157].
Коли тест створений, необхідно приступити до його апробації та аналізу. Апробація, або як її називає Л. Бурлачук - пілотажне дослідження, проводиться на групі людей, що мають спільні особливості з тими, для кого цей тест призначений [2, с 157-158]. Аналіз отриманих даних допоможе відібрати найкращі завдання для кінцевої версії тесту. Валідність тесту залежить від характеристик якості його завдань. В завданнях може аналізуватись як їх якісна сторона, тобто їх зміст, так і кількісна, тобто їх статистичні якості. Якісний аналіз включає розгляд змістовної валідності і оцінки завдань з точки зору ефективних методів їх складання. Кількісний аналіз передбачає вимірювання трудності завдання та дискримінативності.
Розглянемо спочатку спосіб визначення трудності завдань. Для цього зручно скласти таблицю 2 аналізу завдань, в якій кожна колонка являє собою завдання, а кожна стрічка -досліджуваного. З таблиці 2 легко визначити показник, що вказує частку тестованих, що відповіли правильно на завдання або індекс трудності завдання. Цей показник знаходиться діленням кількості учнів, що правильно відповіли на завдання, на кількість усіх досліджуваних. На думку Л. Бурлачука цей показник для кожного завдання повинен лежати в межах 0,25 - 0,75. Індекс нижчий 0,25 показує, що завдання занадто складне, а індекс вищий 0,75 - що легке. Такі завдання є неефективними і їх варто видалити з тесту. Тому Л. Бурлачук називає цей показник ще індексом ефективності. Автор вважає за необхідне, щоб цей показник для всього тесту в середньому наближався до 0,5 [2, с 158-161].
А. Анастазі та С. Урбіна роблять деяке уточнення щодо трудності завдань, посилаючись на ймовірність вгадування відповіді у завданнях з множинним вибором. Щоб врахувати частку досліджуваних, що вгадали правильну відповідь, варто збільшити індекс трудності завдань. Тому автори вважають, що, наприклад, для завдань з вибором із 5 варіантів відповідей середній індекс трудності завдань повинен становити приблизно 0,69 [1, с. 197-198].
Завдання тільки тоді можна включати у тест, якщо вони, крім зазначеної трудності, є ще й дискримінативними. Дискримінативність або розрізнювальну (розподільну) здатність можна пояснити, як можливість достовірно розрізняти осіб тестування з різним рівнем знань.
78
Розподільна здатність тесту - це не лише внутрішня характеристика тесту, а й параметр, який має суттєвий вплив на валідність процесу тестування. Для визначення дискримінативності завдань використовують коефіцієнт кореляції кожного завдання з загальним балом усього тесту. Відповідно, чим вищий цей коефіцієнт кореляції, тим краще завдання. Як стверджує Л. Бурлачук, мінімальною кореляцією є 0,2. завдання з від’ємною кореляцію варто видалити.
Для обчислення цього показника, як і для обчислення будь-якої кореляції, найчастіше використовують коефіцієнт моментів Персона (1).
П. Клайн, А. Анастазі та С Урбіна пропонують спрощений спосіб аналізу завдань для малих груп [1, с. 207-211], [3, с 192-193]. Нехай у групі 60 осіб, які після проведення тесту поділені так: 20 студентів з найвищими, 20 студентів - з найнижчими тестовими показниками. Тобто групу поділено на підгрупи: В (верхня), С (середня), Н (низька). Результати зручно записати у таблицю 4. Наближено коефіцієнт дискримінативності кожного завдання визначається відніманням від кількості студентів, що правильно відповіли на нього у підгрупі В, кількості студентів, що правильно відповіли на нього у підгрупі Н. Трудність завдання визначається кількістю усіх студентів, що дали правильну відповідь на це запитання. Але в даному випадку, чим більше число ми отримаємо, тим менша його трудність і навпаки.
Таким чином, бачимо, що завдання 2 легке, бо на нього відповіло 56 з 60 студентів, а завдання 7 – складне, бо на нього дали правильну відповідь всього 5 студентів з 60. Завдання 4 та 5, хоч і за рівнем трудності є задовільними, але бачимо, що їх дискримінативна здатність від’ємна та нульова.
Метою аналізу тестових завдань викладачем є не лише виявлення помилок у складанні тесту, а й недоліків при викладанні даного матеріалу. Після обговорення проблемних питань з студентами можна вияснити причину отриманих показників. Якщо питання було сформульовано правильно, то, можливо, студенти не зрозуміли даний матеріал. В цьому випадку викладач може ще раз пояснити ті моменти, які були незрозумілими.
Для більш детального аналізу тестових завдань А. Анастазі та С. Урбіна пропонують провести додатковий аналіз „проблемних” завдань. У таблицю вноситься кількість студентів з груп В та Н, що вибрали кожен з п’яти варіантів відповідей на ці запитання. Правильні відповіді виділені жирним шрифтом. Легко бачити з таблиці 5, що на 2 завдання з підгрупи В всі відповіли правильно, а з підгрупи Н лише 4 студенти неправильно. Тому обговорення цього питання допоможе викладачеві вияснити, чи дійсно воно надто просте, чи неправильно сформульоване, чи, можливо, даний матеріал добре засвоєний студентами. У першому випадку його варто викинути взагалі, у другому випадку – переформулювати, а у третьому – залишити без змін. Так, дані по 4 запитанню показують, що варіант в відповіді привертає до себе увагу половини студентів з підгрупи В. Тому обговорення і обґрунтування студентами свого вибору допоможе вияснити причину цього. Можливо – це добре вибраний дистрактор, а можливо – були недоліки при поясненні матеріалу, і на цей факт потрібно звернути увагу викладачеві. Так як варіант д (неправильний) не вибрав ніхто з студентів, можна стверджувати, що він є поганим (непрацюючим) дистрактором, його варто замінити. Завдання 7 є надзвичайно складним, так як на нього дали правильну відповідь лише 5 студентів з підгрупи В і жоден з підгрупи Н. Велика кількість виборів варіанту в (неправильного) говорить про його привабливість.
Перейдемо тепер до визначення рівня надійності тесту. Надійність може вимірюватись кількома методами (ретестовий метод, метод паралельних форм, метод розщеплення). У будь якому випадку оцінка надійності тесту зазвичай базується на кореляції двох наборів результатів тестування. Її легко обчислити за допомогою коефіцієнта добутку моментів Пірсона (1).
Розглянемо способи перевірки валідності тесту. Одразу зазначимо, що дослідження валідизації тесту часто закінчується невдачею. Однією з причин цього тесту є те, що предметом дослідження є зміст питань тесту, а критерієм – шкала оцінок. Валідність тесту створюється поступово на усіх зазначених етапах його розробки. Існують також і статистичні методи визначення різних видів валідності тесту. Так, конкурентна валідність оцінюється за кореляцією розробленого тесту з іншими тестами чи методами оцінювання, валідність яких встановлена раніше. Змістовна валідність визначається перевіркою того, що завдання тесту відображають всі аспекти досліджуваної області. З цією метою при конструюванні тесту складається таблиця специфікацій. Конструктивна валідність включає в себе усі види валідності, перераховані вище. Тому можна стверджувати, що не існує єдиного показника, за яким визначається валідність тесту. На відміну від показників надійності, дискримінативності та трудності завдань, точні розрахунки валідності тесту провести практично неможливо [2, с. 166-167]. Після того, як якість тестових завдань оцінено і з’ясовано всі недоліки, автор тесту повинен їх усунути. При цьому здійснюється оптимізація довжини тесту та часу його проведення.
Отже бачимо, що складання ефективного, надійного, валідного тесту це досить клопітка робота. Але щоб тест об’єктивно вимірював знання студентів, він повинен відповідати цим вимогам, а тому його потрібно складати за запропонованою схемою: 1) визначення мети тесту; 2) складання таблиці специфікацій; 3) підбір тестових завдань найоптимальнішої форми; 4) належне оформлення тесту; 5) пілотажне (пробне) тестування; 6) статистична обробка результатів пілотажного тестування, 7) усуненням знайдених недоліків тесту.
Література
1. Анастази А., Урбина С. Психологическое тестирование. - 7-е изд. - СПб.: Питер, 2005. - 688 с.
2. Бурлачук Л. Ф. Психодиагностика: Учебник для вузов. – СПб.: Питер, 2006. – 351 с.
3. Клайн Пол. Справочное руководство по конструированию тестов. Перевод Е. П. Савченко. -М.: „ПАН Лтд.”, 1994.-283 с.
4. Norman E. Gronlund Measurement And Evaluation in Teaching. Fourth Edition – New York, London: Macmillan publishing Co., Inc., 1981. – 597 p.
5. Аванесов В. С. (2 октября 2008). Теория и методика педагогических измерений [WWW документ]. – Режим доступу: URL: http://testolog.narod.ru (7 октября 2008).