Реферат за темою випускної роботи
Зміст
ВступУ сучасному світі велику роль відіграє контроль знань учнів, студентів, працівників. Під контролем розуміється система науково обґрунтованої перевірки результатів навчання. Існує безліч форм контролю — іспит, залік, атестація, контрольна. Але найбільш коректним засобом виміру знань на сьогоднішній день є тестування. Тестування — це сукупність спеціальним чином підготовлених і підібраних завдань, що дозволяє провести виявлення необхідних характеристик процесу навчання. Одне з головних переваг тестів полягає в тому, що вони дозволяють опитати всіх учасників з усіх питань потрібного матеріалу в однакових умовах, застосовуючи при цьому до всіх без винятку одну і ту ж, заздалегідь розроблену шкалу оцінок. Це значно підвищує об'єктивність і обґрунтованість оцінки в порівнянні з іншими формами контролю. Тести та тестові завдання отримали своє поширення в сферах, де потрібно точно визначити знання з усього курсу навчання, де багато що здають, де потрібен ретельний відбір учасників: іспити в ДАІ, атестація працівників підприємств, прийом на роботу, атестація і контроль знань студентів, дистанційна освіта і екзаменаційний тест. Сьогодні комп'ютерне тестування має низку переваг перед традиційним тестуванням. Воно відрізняється високою оперативністю, продуктивністю процесу тестування і об'єктивністю результатів контролю знань. На відміну від бланкових систем тестування, комп'ютерні тести дозволяють використовувати складні методи контролю оцінки знань учнів, знизити фінансові та часові витрати при проведенні тестування, застосувати в тестах мультимедійні завдання, а так само підвищити відкритість процесу тестування. Більшість систем тестування, не мають можливості відповідати на наші запитання. Коли ми хочемо щось дізнатися, ми запитуємо — задаємо питання, що, загалом, і природно в процесі пізнання. У зв'язку з цим взаємодія системи з користувачем через інтерфейс питання–відповідь набуває особливої актуальності і стає центральним завданням даного дослідження. Система питання–відповідь — це інформаційна система, здатна приймати питання і відповідати на них на природній мові, іншими словами, це система з природно–мовним інтерфейсом. На вхід такій системі подається запит, сформульований на природній мові, після чого він обробляється з використанням методів NLP (Natural Language Processing), і генерується природно–мовна відповідь. Як джерело інформації система питання–відповідь використовує локальне сховище, глобальну мережу, або і те й інше одночасно. Створення системи тестування на базі веб–технологій є вкрай перспективною і актуальною науковою задачею, результатом якої буде створення сучасної моделі веб–сервісу тестування знань з використанням інтерфейсу питання–відповідь і за допомогою засобів веб–розробки для ефективної роботи. З моменту появи перших прототипів систем питання–відповідь їх область застосування значно розширилася. Наприклад, їх використовують у відповідях на питання, пов'язані з часом, геолокаційні питання, вивчаються так само суміжні області, такі як: побудова інтерактивних систем питання–відповідь, повторне використання відповідей і уявлення знань. Але область використання інтерфейсів питання–відповідь в системах тестування залишається не дослідженою, аналогів на даний момент немає, і це є доброю перспективою для розробки дослідницької бази для майбутніх робіт. 1. Актуальність темиПередбачається, що дана магістерська робота дозволить розширити існуючі моделі питально–відповідної системи, збільшивши їх гнучкість і сприйнятливість в межах деякої предметної області. На даний момент розроблені багато аспектів проблеми розвитку творчого мислення учнів у навчальному процесі. Доведено вплив самостійної постановки питань і складання задач на більш глибоке засвоєння навчального матеріалу, на розвиток самостійності. Всі ці аспекти безпосередньо пов'язані з використанням питань для організації навчально–пізнавальної діяльності учнів, проте, в центрі обговорення — використання питань або питально–відповідна методу. Проблема дослідження — це як за допомогою питально–відповідна інтерфейсу системи тестування організувати навчально– пізнавальну діяльність учнів у процесі навчання так, щоб стимулювати інтелектуальний і творчий розвиток таких учнів? Важливою вимогою до освітньої системи на сучасному етапі є необхідність допомагати учням самим добувати знання, орієнтуватися в насиченому інформаційному просторі, тобто вчити їх працювати творчо, а не репродуктивно. Організувати процес навчання необхідно таким чином, щоб учень сам задавав питання системі для поповнення необхідних знань. Організація навчального процесу, при якому учень є ініціатором навчального діалогічного спілкування з системою, дозволяє по–новому виявити роль і функції системи, яка вже виступатиме як помічник учня, і її роль полягає, насамперед, у координуванні діалогу. 2. Мета і задачі дослідження та заплановані результатиМета дослідження: вирішити виявлену проблему шляхом наукового обгрунтування та розробки методики використання питально–відповідна інтерфейсу як інструменту ведення “зворотного діалогу” з системою, для інтелектуального і творчого розвитку учнів. Об'єктом дослідження є процес навчання та перевірки знань учнів за допомогою системи тестування з інтерфейсом питання–відповідь. Предметом дослідження є метод використання інтерфейсу питання–відповідь в системах тестування, стимулюючих інтелектуальний і творчий розвиток учнів. При вирішенні поставленої проблеми за основу бралися гіпотези про те, що організація навчально–пізнавальної діяльності учнів у процесі навчання за допомогою питально–відповідна інтерфейсу стимулюватиме їх інтелектуальний і творчий розвиток, якщо:
Для реалізації поставленої мети необхідно вирішити наступні завдання дослідження:
Призначенням системи є навчання учнів за допомогою питально-відповідна інтерфейсу і процедури 3. Огляд досліджень та розробокАвтори більшості створюваних в даний час систем питання–відповідь природним чином орієнтуються на англійську мову. Однак будь–яка серйозна система повинна будь–яким чином аналізувати структуру запиту, опираючись на знання про мову, на якому він сформульований. Тому призвести об'єктивне порівняння систем, розрахованих на різні мови, практично неможливо. Тим не менш, можна вивчити принципи роботи будь даної системи і зробити висновок про глибину виробленого їй аналізу пропозицій запиту і вхідного тексту. Насамперед, слід зазначити, що для англійської мови вже існують вільно поширювані у вихідних текстах синтаксичні аналізатори (наприклад CMU Link Parser) і довідкові системи за словами мови, найпопулярніша з яких — WordNet. Система CMU Link Parser, розроблена в університеті Карнегі–Меллона, будує для будь–якого заданого пропозиції його Системи WordNet і CMU Link Parser використовуються в питально–відповідної системі, спільно з пошуковою машиною загального призначення Managing Gigabytes. Спочатку користувальницький запит обробляється синтаксичним аналізатором CMU Link Parser, потім за допомогою нескладного алгоритму в ньому вибирається Однією з найбільш розвинених в даний час питально–відповідних систем є розроблена в Далласі система Lasso. Для індексації елементів використовується узагальнена пошукова система. Введений запит аналізується, визначається його тип, запитувану сутність і тип відповіді. Алгоритм визначення наведених елементів ґрунтується на послідовному застосуванні восьми різних Проаналізувавши аналоги, можна зробити висновок, що системи високого рівня для російської мови в даний час знаходяться тільки в стадії розробки. З іншого боку, є об'єктивні передумови для створення систем питання–відповідь, за якістю не поступаються західним аналогам [1]. 3.1 Огляд міжнародних джерелСистема питання–відповідь являє собою програмний модуль, що дозволяє людині вести з машиною діалог на природній мові. Користувач задає питання програмній системі, а програмна система друкує відповіді, що формуються у вигляді осмислених пропозицій. Перші системи питання–відповідь з'явилися в 60–х роках минулого століття. серед найбільш відомих реалізацій слід виділити системи BASEBALL LUNAR. Система BASEBALL дозволяла вести діалог з користувачем, які цікавляться результатами змагань бейсбольної ліги США за минулий рік. Система LUNAR відповідала на питання, пов'язані з геологічним аналізом зразків порід, доставлених з місячної поверхні експедиціями програми “Аполлон”. Обидві системи були досить ефективно реалізовані і представляли собою приклади систем питання–відповідь, орієнтованих на конкретну предметну область. Наприклад, система LUNAR, демонструвалася на конференції 1971 р., на якій обговорювалися питання місячних досліджень, дозволяла отримати відповіді приблизно на 90 % усіх питань, заданих даній системі. Деякі відомі програмні системи, розроблені в 60–х роках минулого століття, містили в собі питально–відповідні модулі у вигляді підсистем. P > Так, програма ELIZA 1 містила в якості програмного модуля питально–відповідну систему, яка, власне, і дозволяла спілкуватися з користувачем. У 70–х і 80–х роках минулого століття було реалізовано досить багато систем питання–відповідь, що дозволяють вести діалог з користувачем у конкретній предметній області. Наприклад, програмний комплекс Unix Consultant відповідав на питання, пов'язані з операційною системою UNIX. Unix Consultant був заснований на досить складною і розвиненою базі знань, що містить інформацію про операційну систему UNIX. Інтерфейс до бази знань був реалізований у вигляді системи питання–відповідь[2]. До сучасних навчальним систем відносяться системи TrainingWare, eLearning Server 3000 v2.0, eLearningOffice 3000, IBM Workplace Collaborative Learning і HyperMethod 3.5 компанії ГіперМетод, яка є найбільшим російським розробником готових рішень і програмного забезпечення в області мультимедіа, експертного навчання та електронної комерції [3]. 3.3 Огляд локальних джерелСтворення систем тестування знань не є інноваційною ідеєю, так як раннє успішно розроблялися і створювалися системи такого типу, як в Україні так і за її межами. У Донецькому національному технічному університеті проводяться дослідження за темами, суміжним з моєю. Статті Звенигородського А.С. (кафедра систем штучного інтелекту) присвячені дослідженням і вирішенню багатьох проблем у цій сфері. Наприклад, у статті Звенигородський А.С., Іванова С.Б., Чернишова В.М. “Модель однієї відповіді на запитання в природно-мовних системах тестування” розглядається проблема моделювання питань на перерахування в системах комп'ютерного тестування знань. Запропоновано модель відповіді на перерахування, що враховує складові предметної області відповіді і природно мовні засоби їх вираження. Представлено алгоритм аналізу та оцінки відповіді на перерахування. А в статті Звенигородський А.С., Чернишова В.М. “Модель питання в природно-мовних системах тестування” розглядається проблема генерування питань у системах комп'ютерного тестування знань. Запропоновано модель питання, що враховує складові предметної області питання і поточні параметри тестування. Представлена структурна схема процесу формування питання [ 4 ]. У Харківському національному університеті радіоелектроніки створений тестовий центр з метою розробки та впровадження технологій комп'ютерного тестування знань. Під керівництвом к.т.н., доцента кафедри автоматизації проектування обчислювальної техніки Олександра Сергійовича Шкіля розроблена і успішно впроваджена система OpenTEST2 - це комп'ютерна програма тестування знань створена для очного підсумкового контролю якості знань учнів у великих навчальних організаціях зі складною розподіленою структурою. На сьогоднішній день існує достатня кількість стандартних систем тестування знань. Дослідження показують, що більша частина з них орієнтована на проходження тестування в Internet через Web-інтерфейс. Програми українського виробництва, на жаль, поки не можуть скласти гідну конкуренцію зарубіжним аналогам. Проте інтерес до комп'ютеризації освіти в нашій країні стрімітельно зростає. І можливо, в найближчому майбутньому, з'явиться гідний програмний продук, який займе своє місце на ринку IT-розробок. Зокрема, роботи наших магістрів, у яких були успішно створені готові програмні продукти, і які успішно пройшли тестування:
4. Методи реалізації системи тестування з інтерфейсом питання–відповідь4.1 Загальна модель представлення системиПри створенні моделі системи тестування з інтерфейсом питання–відповідь, було вивчено велику кількість робіт з даної теми, серед яких можна виділити ряд спільних недоліків:
Сучасні системи питання–відповідь працюють з необмеженими або обмеженими предметними областями. У першому випадку вони більше нагадують традиційні пошукові системи, проте відрізняються від них тим, що використовують більшу кількість онтологій. Основним додатком системи тестування з інтерфейсом питання–відповідь є реалізація інтерфейсу людина–база знань для різних областей застосування. Крім того, системи питання-відповідь, вирішують завдання інформаційного пошуку взагалі. Перелічимо основні вимоги для виведення відповіді користувачу:
4.2 Системи питання–відповідь, що базуються на веб–пошукуСистеми питання–відповідь, що базуються на веб–пошуку, як джерело використовують веб–сторінки або їх фрагменти. При побудові даних систем використовується результати систем інформаційного пошуку мережі Інтернет, тобто в даному випадку в архітектуру включена одна з існуючих пошукових систем. Системи питання–відповідь, отримуючи питальне речення на природній мові від користувача, обробляє його, генерує запит з ключових слів для пошукової системи. Ключові слова вибираються виходячи з самого питального пропозиції. Після пошукового запиту система отримує результати інформаційного пошуку у вигляді веб-посилань і фрагментів тексту–сніпетів. Сніппет — невеликий уривок тексту з веб-документа результатів роботи пошукової системи, який використовується в якості опису посилання результатах пошуку. Зазвичай сниппет містить контекст, в якому зустрілося ключове слово в тексті веб–документа. Далі система питання–відповідь працює з даними фрагментами веб-документів, використовуючи методи обробки природних мов, генерує відповідь користувачеві. Зазвичай це методи виділення різних іменованих сутностей, дат, чисел і різні алгоритми вибору фрагмента тексту в якості відповіді. Відзначимо основні переваги даних систем:
Але є й недоліки даного підходу до розробки систем питання-відповідь:
4.3 Основні методи пошуку відповідіПісля того, як визначені ключові слова, тобто, сформульовано питання користувача, робота системи переходить на наступний етап — етап інформаційного пошуку.
Інформаційний пошук На даному етапі відбувається отримання релевантних пошуковому запиту текстових фрагментів, які можливо містять відповідь. У сучасних питально–відповідних системах даний модуль являє собою класичну пошукову машину, на вхід якої надходить запит з ключових слів. Після того як отримано набір текстових документів, релевантних запиту, витягуються фрагменти, в яких велика ймовірність отримання відповіді на запитання. Для того щоб отримати фрагменти з документів, які можуть одержати відповідь з найбільшою ймовірністю, текст документа ділиться на частини — одним зі способів є поділ на абзаци. Потім вибирається той фрагмент (абзац), який здобуде всі ключові слова або найбільша їх кількість. Нехай є пошуковий запит, що складається з наступного набору ключових слів: {k1, k2, k3, k4}. Текст документа розділений на фрагменти (параграфи) і один з параграфів містить включення k1, k2, k3, причому k1 і k2 зустрічаються два рази, k3 — один. Вводиться поняття вікна параграфа воно включає в себе весь текст між двома ключовими словами-одним, розташованим вище інших по тексту, другий — нижче. Розглядаються всілякі включення ключових слів у фрагмент документа (вікно параграфа). Таким чином, для даного випадку можна отримати 4 випадки вікна параграфа:[K1-1, k2-1, k3], [k1-2, k2-1, k3], [k1-1, k2-2, k3], [k1-2, k2-2, к3]. Кожне з вікон параграфів оцінюється для кожного з них розраховуються такі величини:
Далі відбувається сортування і вибір фрагмента документа, причому порівнюються величини всіх вікон усіх параграфів [9]. Витяг відповіді На даному кроці розпізнається і витягується з отриманих текстових фрагментів відповідь на запитання. Важливу роль у виділенні відповіді відіграє тип відповіді. Загальна ідея вирішення завдання вилучення відповідей полягає в наступному: виявляються так звані кандидати для відповіді — слова або словосполучення, які можуть розглядатися як відповідь на запитання. Потім проводиться аналіз списку кандидатів, всі кандидати оцінюються, вибирається найбільш підходящий, тобто той, який має найвищу оцінку. Вибір кандидатів відповідей Виділення іменованих сутностей. Стратегія вилучення відповіді з текстового фрагмента залежить від типу очікуваної відповіді. Найчастіше для фактографічних питань при первинному аналізі фрагментів тексту використовуються методи виділення іменованих сутностей. Наприклад, для таких типів відповіді, як географічні розташування, імена людей (PERSON, LOCATION, COUNTRY) у витягу відповіді будуть використані алгоритми розпізнавання імен власних. Для вилучення сутностей може використовуватися готова стороння система вилучення інформації, яка навчається розміченим текстовим корпусом, також може використовуватися словники, що містять списки різних сутностей. Використання шаблонів. Розглянемо один з популярних способів вилучення відповіді — за допомогою відповідності шаблонах. Для кожного типу відповіді складаються шаблони, за допомогою них в текстових фрагментах проводиться пошук і виділення кандидата відповіді. Для вибору відповіді використовуються інформація про тип очікуваної відповіді, отримана на першому етапі роботи системи, і символьні шаблони. Шаблони можна створювати як вручну, так і автоматичними навченими алгоритмами. Також можна використовувати автоматичні методи для виявлення шаблони для подальшого їх застосування. Метою навчання є виявлення та побудова зв'язків між конкретним типом відповіді (наприклад, DATE_OF_DEATH) і конкретним фокусом питання (для цього випадку — персона). Таким чином, потрібно виявити шаблони, що зв'язують два види цих фраз (PERSON / DATE_OF_DEATH). Наведемо приблизний алгоритм навчання для виявлення шаблонів:
Використання N–грам. Іншим способом вилучення відповідей з фрагментів є виявлення кандидатів застосуванням n–грам. N–грами — це під послідовність з n елементів, наступних один за одним в даній послідовності. Даний алгоритм ефективно застосовувати до сніпетів при пошуковому запиті, отриманому при перефразовуванні питального речення. На першому етапі з сниппета витягуються уніграмми, біграми і триграми. Далі їм присвоюються ваги, рівні кількості сніпетів, в яких зустрілася дана n–грами. Наступний етап — оцінювання та збір кандидатів з n-грам. При оцінюванні переслідується мета визначення того, наскільки дана n-грами відповідає типу очікуваної відповіді. Далі n–грами ранжуються, вибирається певну їх кількість з високими оцінками і будується кандидат відповіді, шляхом конкатенації n–грам. Кандидат для відповіді з високою оцінкою вибирається в якості відповіді. Оцінка кандидатів відповіді Після вибору кандидатів проводиться оцінка і вибір потенційного відповіді. Оцінка проводиться за допомогою перевірки різними способами. Для кожного типу відповіді складаються шаблони, за допомогою них в текстових фрагментах проводиться пошук і виділення кандидата відповіді. Є багато різних підходів, застосовуваних для вирішення завдання вибору відповіді з кандидатів, в цілому вони все відрізняються тим, як формалізуються, порівнюються і обробляються в них пропозиції на природній мові для оцінки і виділення потенційних відповідей серед кандидатів відповіді. Метод мішка слів. Один з простих способів обчислення оцінки для кандидата відповіді є метрика методу мішка слів: де Qk — безліч слів питання, Ak — безліч слів сніппета, що містить кандидата відповіді, а оцінка Sk для k–го кандидата обчислюється, як відношення потужності перетину множин Qk і Sk і потужності множини Qk [10–14]. Метод з використанням семантичних структур Для оцінки кандидата відповіді можна використовувати обробку текстової інформації, пов'язаної з розміткою семантичних ролей. Загальна формулювання завдання розмітки семантичних ролей полягає в наступному: для пропозиції на природній мові необхідно визначити безліч учасників ситуації, описуваної в цьому реченні, і їх семантичні ролі — відповідні відносини між учасниками. У результаті створюється семантична структура — структуроване уявлення текстової інформації, що представляється у вигляді орієнтованого графа, яке використовується для оцінки кандидата відповіді. Для цього порівнюються граф питального пропозиції та граф пропозиції, в якому міститься кандидат відповіді. І по обчисленої міру схожості графів можна проставити оцінку кандидату відповіді. На рисунку 4 представлений приклад розбору пропозиції “Кеннеди убил его личный водитель из специального оружия взрывными пулями в упор”, у вигляді семантичного графа. Для російської мови з доступних рішень, які можна використовувати для оцінки кандидата відповіді на питання, є технологія семантичного аналізу системи АОТ. Семантичний аналіз пропозиції увазі процес виявлення його семантичної структури. Введемо термінологію, певну авторами системи АОТ і аналогічну використовуваної в задачі розмітки семантичної ролей. Семантична структура складається з семантичних вузлів (учасників ситуації) і семантичних відносин (семантичних ролей). Після аналізу пропозиції виходить безліч з вузлів і відносин між ними. Вузлами є слова або словосполучення з пропозиції, а відносини являють собою зв'язки з мітками, які позначають різні типи семантичних ролей. У результаті отримане безліч можна візуалізувати у вигляді орієнтованого дерева-графа, який автори системи називають семантичним графом пропозиції [15–16]. ВисновкиПідвищення цінності освіти в суспільстві і розвиток обчислювальної техніки інформаційних технологій визначили широке поширення навчальних систем і систем перевірки знань. Дані дослідження мають підвищити якість оцінювання знань, формалізувати й автоматизувати методику формування адаптивних тестів, оцінити якість формованих системою тестів, надати можливість оцінювання знань як, загалом, з дисципліни, так і з окремих тем зокрема. Більшість дослідницьких питально–відповідних систем побудовано за типовим конвеєру. Розрізняють етап аналізу питання, на якому важливо визначення типу очікуваної відповіді, етап інформаційного пошуку, на якому отримують текстові фрагменти, і етап витягання відповіді, на якому проводиться пошук і вибір кандидатів відповіді, їх оцінка та вибір потенційного відповіді. Велика частина сучасних питально–відповідних систем використовуються різні методи аналізу і обробки природних мов. На основі дослідження існуючих рішень можна зробити висновок про можливість реалізації прототипу питально-відповідна інтерфейсу для системи тестування, заснованого на веб–пошуку з використанням методів обробки природної мови, так як при цьому немає необхідності в підтримці великої бази текстових документів, відсутня необхідність в залученні експертів , не потрібна розробка методів пошуку текстових фрагментів, що містять потенційний відповідь і можна абстрагуватися від завдань інформаційного пошуку. Був проведений аналіз існуючих засобів семантичного розбору природно-мовних текстів, їх особливості та технології. Описано алгоритми системи аналізу тексту і розроблена структура системи побудови семантичного розбору для природно–мовних текстів. Важливе зауваженняПри написанні даного автореферату магістерська робота ще не завершена. Імовірна дата завершення – 10 грудня 2015. Повний текст роботи, а також матеріали по темі можуть бути отримані у автора або його керівника після зазначеної дати. Перелік посилань
|