Реферат за темою випускної роботи
![Анимация](images/an.gif)
Зміст
- Вступ
- 1. Актуальність теми
- 2. Мета і завдання дослідження, плановані результати
- 3. Поняття і види словників
- 3.1 Типологія словників
- 3.2 Основні складові словника
- 3.3 Електронні словники та онлайн–словники
- 4. Онтології
- 4.1 Поняття онтологій
- 4.2 Мови опису онтологій
- 4.3 Лексичні онтології
- 4.4 Електронний словник WordNet, як приклад лексичної онтології
- Висновки
- Список джерел
Вступ
Універсального і загальноприйнятого визначення поняття «словник» в даний час не існує.
Причин для цього декілька:
- розширення обсягу і змісту поняття «словарь», поява нових видів довідкових видань словникового типу;
- виникнення протиріч між повсякденними стереотипами і науковим уявленням про словниках;
- відмінності в лексикографічних традиціях;
- вільне поводження з термінологією;
- тенденція до протиставлення специфічних типів словників «звичайному словнику»
- небажання лексикографів займатися проблемою визначення поняття «словник».[2]
Тому різні джерела по–різному визначають поняття «словник»:
- словник — книга, яка містить зібрання слів (чи морфем, словосполучень, ідіом і т. д.), розташованих по визначеному принципу, і дає відомості про їх значеннях, вживанні, походження, перекладі на іншу мову і т. п. (лінгвістичні словники) або інформацію про поняття та предмети, що позначаються ними, про діячів у будь–яких областях науки, культури та ін.;[8]
- словник — збірник слів, висловів якоїсь мови, з тлумаченням або з перекладом. Словники бувають загальні і приватні, повсякденні і наукові;[9]
- словник — зібрання слів (зазвичай в алфавітному порядку), стійких виразів з поясненнями, тлумаченнями чи з перекладом на іншу мову;[10]
- словник — зібрання слів якоїсь мови у абетковому порядку або розташованих за словопроізводством;[11]
- словник — книга, яка містить перелік слів, завичай з поясненнями, тлумаченнями чи перекладом на іншу мову;[12]
- словник — книга, яка містить перелік слів, розташованих по тим або іншим принципом (наприклад, за алфавітом), з тими чи іншими поясненнями;[13]
- словник — це довідник, в якому можна почерпнути ту чи іншу інформацію про одиниці мови або предмет (явище) навколишньої дійсності.[1]
З розвитком комп'ютерної техніки все більшого і більшого поширення отримують електронні словники і онлайн–словники.
1. Актуальність теми
Словники потрібні всім — від лінгвістів–початківців до професійних перекладачів. Взагалі–то будь-який словник заслуговує право на життя. А так як у даний час комп'ютери займають все більш значне місце не тільки серед програмістів та інженерів, але і в середовищі найрізноманітниших користувачів, включаючи лінгвістів, перекладачів та фахівців, які потребують оперативного перекладі іншомовної інформації, то комп'ютерні словники стали дуже зручним підручним засобом у цілях економії часу й оптимізації процесу розуміння іншомовної інформації. Крім того, зараз є програми–перекладачі, які можуть виробляти більш–менш адекватний переклад іншомовних текстів і можуть бути підмогою в роботі фахівців різних профілів.[14]
Дана робота присвячується вивченню зазначених проблем, а також аналізу деяких лінгвістичних програмних продуктів, спрямованих на автоматизацію процесу перекладу.
2. Мета і завдання дослідження, плановані результати
Метою даної роботи є створення електронного словника за допомогою онтологій.
Основні завдання роботи:
- Аналіз актуальності словників в наш час.
- Порівняння паперових і електронних словників.
- Аналіз можливості використання онтологій для створення онлайн & ndash; словника.
- Дослідження існуючих аналогів на прикладі WordNet
- Розробка онлайн–словника.
3. Поняття і види словників
Основна функція словника полягає в тому, що він повідомляє головним чином інформацію, актуальну з точки зору інтерпретації, вживання або заміни знаків, що містяться в лівій частині. Квантитативний визначник "головним чином" вводиться для того, щоб забезпечити плавний перехід від «безумовних» словників до проміжних типів, а також для того, щоб надати укладачам словника певну свободу дій щодо факультативної інформації.
Видові ознаки словника:
- розташовується на зовнішньому носії інформації;
- призначений для несуцільного читання;
- відрізняється відносною лаконічністю;
- організований таким чином, щоб забезпечити швидкий пошук інформації;
- права частина словника містить головним чином такі відомості, які мають на меті допомогти передбачуваним користувачам в інтерпретації, вживанні або заміні знаків, що містяться в лівій частині.[2]
3.1. Типологія словників
Словники прийнято ділити на два основних типи: енциклопедичні і лінгвістичні.
Об'єкт опису лінгвістичних (мовних) словників — мовні одиниці (слова, словоформи, морфеми).
У такому словнику слово (словоформа, морфема) може бути охарактеризоване з різних сторін (многоаспектно):
- зі сторони змісту;
- словотворення;
- орфографії;
- орфоепії;
- правильності вживання.
Залежно від того, скільки ознак слова описані в словнику, розрізняють словники одноаспектні і багатоаспектні.
Синхронічні лінгвістичні словники відображають зріз мови якогось певного часу (наприклад, мови XVIII століття, сучасної мови).
Диахроничні (наприклад, етимологічні) — відображають розвиток мови з плином часу.
Енциклопедичні — словники містять екстралінгвістичну інформацію про описувані мовні одиниці; ці словники містять відомості про наукові поняття, терміни, історичні події, персоналії, географії і т. п. У енциклопедичному словнику немає граматичних відомостей про слово, а дається інформація про предмет, що позначається словом.
Термінологічний словник містить терміни якоїсь області знаннь або теми та їх тлумачення.
На особливу увагу заслуговує розмежування лінгвістичних (перш за все тлумачних) і енциклопедичних словників, яке, в першу чергу, полягає в тому, що в енциклопедичних словниках описуються поняття (у залежності від обсягу і адресата словника дається більш–менш розгорнута наукова інформація), в тлумачних — лінгвістичних значення.
В енциклопедичних словниках багато словникових статей, у яких заголовним словом є імена власні.
Енциклопедії, довідники і словники, а також наукові матеріали використовуються в повсякденному житті для отримання інформації з найрізноманітніших питань. [1]
3.2. Основні складові словника
Перед створенням словника повинні бути створені такі компоненти, без яких словник не може існувати.
1. Словник — перелік слів, який складається в процесі роботи над словником.
Словник у енциклопедичних виданнях — повний перелік назв статей (термінів), як правило з короткою анотацією і вказівкою розмірів статей (у друкованих знаках).
Словник у лінгвістичних словниках & mdash; алфавітний перелік (реєстр) словникових одиниць (слів, фразеологізмів і т. п.), що підлягають тлумаченню або переведенню.
Видання енциклопедії зазвичай починається зі складання тематичних словников з різних галузей знань, що мають рубрикацію від загальних понять до приватних термінів. На основі зведеного тематичного словника складається загальний алфавітний словник всього видання.
Словник енциклопедії є зміст видання, що відображає його структуру та профіль.
При складанні словника:
- проводиться відбір термінів для заданого обсягу;
- встановлюється співвідношення обсягів розділів і окремих статей;
- виділяється цикл статей;
- розробляється система посилань.
З роботою над словником тісно пов'язане планування розміщення бібліографії, ілюстрацій, карт й іншого додаткового матеріалу.
2. Глосарій — словник вузькоспеціалізованих термінів у будь–якій галузі знань з тлумаченням, іноді перекладом на іншу мову, коментарями і прикладами.
Зібрання глосс і власне глосарії стали попередниками словника.
Глоса — іншомовне або незрозуміле слово в текст книги з тлумаченням, вміщеним або над самим словом, або під ним, або поруч на полях.
Спочатку глосою називали саме незрозуміле слово або вираз.
Глосарій — це також список часто використовуваних виразів.
3. Азбуковник — список незрозумілих слів з їх коротким поясненням (зазвичай глосс до текстів). Азбуковники складалися в XVII столітті в Білорусі, в Росії, в Україні.
Статті розташовувалися в алфавітному (абетковому) порядку (зазвичай враховувалися лише перші літери), звідси і пішла назва.
4. Тезаурус — зібрання відомостей (корпус, звід), що охоплює з максимальною повнотою поняття, визначення і терміни спеціальної галузі знань або сфери діяльності, з прикладами їх вживання в текстах.
Тезаурус (в сучасній лінгвістиці) — особливий різновид словників загальної або спеціальної лексики, в яких вказані семантичні відносини (синоніми, антоніми, пароніми, гіпоніми, гіпероніми і т. п.) між лексичними одиницями.
Основні структурні елементи проектування словника:
- адресат(и) словника;
- назначення словника;
- зв'язок з іншими творами;
- носій інформації, на якому розташовується словник;
- склад лівої частини словника;
- склад правої частини словника;
- склад додаткової інформації;
- склад і взаємне розташування частин словника;
- засоби компресії у словнику;
- організація словника і забезпечення доступу до інформації.[2]
3.3. Електронні словники та онлайн–словники
У поданий час комп'ютери займають все більш значне місце не тільки серед програмістів та інженерів, але і в середовищі самих різноманітних користувачів, включаючи лінгвістів, перекладачів та фахівців, які потребують оперативного перекладу іншомовної інформації. У зв'язку з цим комп'ютерні словники є дуже зручним підручним засобом з метою економії часу і оптимізації процесу розуміння іншомовної інформації. Крім того, зараз є програми–перекладачі, які можуть виробляти більш–менш адекватний переклад іншомовних текстів і можуть бути підмогою в роботі фахівців різних профілів.[14]
Електронний словник — словник у комп'ютері або іншому електронному пристрої. Він дозволяє швидко знайти потрібне слово, часто з урахуванням морфології і можливістю пошуку словосполучень (прикладів вживання), а також з можливістю зміни напряму перекладу (наприклад, англо–російська або російсько–англійська). Внутрішньо електронний словник влаштований, як база даних зі словниковими статтями.
Електронні словники не варто плутати з комп'ютерними словниками, призначеними не для користувачів, а для комп'ютерних програм, що працюють з текстами на природних мовах.[3]
Саме зараз електронні словники вийшли з тіні паперових і стають самостійними гравцями на мовному майданчику, причому гравцями, які, схоже, найближчим часом зроблять інших дійових осіб експонатами Музею книги. Адже електронні словники мають ряд очевидних й істотних переваг у порівнянні зі словниками традиційними. Єдиним же їх недоліком є ??прихильність до персонального комп'ютера і, отже, обмежена доступність. Однак цей недолік буде досить скоро усунутий, якщо не повністю, то, як мінімум, по більшій мірі в наслідок все зростаючих темпів комп'ютеризації, в тому числі й зростаючою доступністю переносних комп'ютерів типу Laptop.[14]
Популярні електронні словники:
- Free Online Dictionary of Computing;
- FreeDict;
- Jargon file;
- Slovoed;
- WordNet.
Сьогодні електронні словники актуальні, як ніколи.
Адже фундаментальні кращі паперові словники — неминуче словники застарілі.
Особливо це характерно для розмовної лексики, зокрема, ненормативної. У цій області вітчизняні класичні словники постають не тільки застарілими, але і просто святенницькими.
Функції фіксації поточного стану мови беруть на себе зростаючі, як гриби після дощу, невеликі словнички, зазвичай вельми кон'юнктурні та поверхневі. Нові значення в них відірвані від своїх мовного коріння, погано або довільно пояснені.
Для масових програмних продуктів, якими є електронні словники, характерні часта зміна версій і наявність постійного зворотного зв'язку з тисячами користувачами. Тому комп'ютерна лексикографія — це неминуче актуальна лексикографія.
Життя електронного словника повинно бути схожим на нелегке життя інших програмних систем: з маніакальним прагненням особливо шкідливих користувачів виявити чергову помилку або лакуну, і, з іншого боку, з можливістю і необхідністю виправити становище зараз, а не через десятиліття.[14]
Онлайн–словник — електронний словник, розміщений в Інтернеті. Онлайн–словники в наш час швидко набирають популярність. Їх розміщують у себе багато пошукових порталів.
Є 3 варіанти онлайн–словників:
- авторські словники, які повністю відповідають своїм паперовим варіантам;
- піратські словники, отримані шляхом сканування авторських паперових словників, опубліковані без дотримання авторських прав;
- змішані версії, коли в основі лежать як авторські, так і піратські словники.
Відомі приклади онлайн–словників:
- Вікісловник — багатомовний проект Фонду Вікімедіа. Граматичний, тлумачний, етимологічний словники і тезаурус для більш ніж 150 мов.
- Lingvo — словник Лінгво є точною копією паперових словників видавництв «Російська мова–Медіа», «РУССО», ABBYY Press. Доступні для безкоштовного звантаження в Інтернеті за адресою lingvo.abbyyonline.com. Дан переклад слів і стійких словосполучень з англійської, німецької, французької, італійської, іспанської, української, латинської на російську і навпаки. Крім загального словника, відкриті тематичні словники з медицини, техніки, маркетингу та іншим областям.
- Мультитран — система для перекладачів з російської, англійської, німецької, французької, італійської, іспанської, нідерландської, латиської, естонської та японської мов. Містить близько шести мільйонів термінів і надає можливості алфавітного, морфологічного і фразового пошуку.
- FreeOnlineTranslators & mdash; Найбільший міжнародний онлайн переклад слів і тексту, понад 40 напрямків безкоштовного перекладу.[15]
4. Онтології
Онтологія в інформатиці — це спроба всеосяжної та докладної формалізації деякої області знань за допомогою концептуальної схеми. Зазвичай така схема складається з структури даних, що містить всі релевантні класи об'єктів, їх зв'язки та правила (теореми, обмеження), прийняті в цій галузі. [16]
4.1. Поняття онтологій
Онтології використовуються в процесі програмування як форма представлення знань про реальний світ або його частини. Основні сфери застосування — моделювання бізнес–процесів, семантична павутина (англ. Semantic Web), штучний інтелект.
Сучасні онтології будуються здебільшого однаково, незалежно від мови написання. Зазвичай вони складаються з екземплярів, понять, атрибутів і відносин.
Екземпляри (англ. Instances) або індивіди (англ. Individuals) — це основні, низькорівневі компоненти онтології. Екземпляри можуть являти собою як фізичні об'єкти (люди, будинки, планети), так і абстрактні (числа, слова).
Строго кажучи, онтологія може обійтися і без конкретних об'єктів. Однак, однією з головних цілей онтології є класифікація таких об'єктів, тому вони також включаються.
Поняття (англ. Concepts) або класи (англ. Classes) — абстрактні групи, колекції або набори об'єктів. Вони можуть включати в себе екземпляри, інші класи, або ж поєднання і того, і іншого. Приклад: Поняття «люди», вкладене поняття «людина». Чим є «людина» — вкладеним поняттям, чи примірником (індивідом) — залежить від онтології.
Класи онтології складають таксономию — ієрархію понять по відношенню вкладення.
Об'єкти в онтології можуть мати атрибути. Кожен атрибут має принаймні ім'я і значення, і використовується для зберігання інформації, яка специфічна для об'єкта і прив'язана до нього. Значення атрибута може бути складним типом даних. Важлива роль атрибутів полягає в тому, щоб визначати відносини (залежності) між об'єктами онтології. Зазвичай ставленням є атрибут, значенням якого є інший об'єкт.
Онтології бувають загальні і спеціалізовані. Загальні онтології використовуються для подання понять, загальних для великого числа областей. Такі онтології містять базовий набір термінів, глосарій або тезаурус, використовуваний для опису термінів предметних областей. Спеціалізовані (предметно–орієнтовані) онтології — це уявлення будь–якої галузі знань або частини реального світу. У такій онтології містяться спеціальні для цієї області значення термінів. Якщо використовуюча спеціалізовані онтології система розвивається, то може знадобитися їх об'єднання. Підзадачею об'єднання онтологій є завдання відображення онтологій. І для інженера по онтології це серйозні завдання. Онтології навіть близьких областей можуть бути несумісні один з одною. Різниця може з'являтися через особливості місцевої культури, ідеології або внаслідок використання іншої мови опису. Об'єднання онтологій виконують як вручну, так і в напівавтоматичному режимі. В цілому це — трудомісткий, повільний і дорогий процес. Використання базисної онтології — єдиного глосарію — дещо спрощує цю роботу. Є наукові роботи за технологіями об'єднання, але вони здебільшого теоретичні.
За останні роки розробка онтологій — формальних явних описів термінів предметної області і відносин між ними — переходить зі світу лабораторій зі штучного інтелекту на робочі столи експертів по предметним областям. У всесвітній павутині онтології стали звичайним явищем. Онтологія визначає загальний словник для вчених, яким потрібно спільно використовувати інформацію в предметної області. Вона включає машинно–інтерпретовані формулювання основних понять предметної області і відносини між ними.
Онтології вмісту Web–сторінок необхідні пошуковим програмами для поліпшення якості пошуку по Web. Ідея побудови специфікацій концептуалізацій змісту Web–сторінок знаходиться в підставі концепції так званого Розумного Web або Semantic Web.
Формальна специфікація вмісту Web–документа дає можливість пошуковій програмі робити висновки про відповідність пошукового запиту даному Web–документу не тільки на основі синтаксичної інформації, одержаної з тексту цього документа, але і грунтуючись на семантиці змісту даного документа. Це може кардинально поліпшити якість Web–пошуку, так як опис світу Web–сторінки, ясна пошуковій програмі, дає останній набагато більше інформації, ніж вона може отримати з неструктурованого тексту.[16]
4.2. Языки описания онтологий
Мова опису онтологій & mdash; формальний мова, яка використовується для кодування онтології. Існує кілька подібних мов:[16]
Мова Resource Description Framework (RDF) — система опису ресурсів Web. Розроблена для того, щоб описувати вміст Web. У Semantic Web, коли говорять про якихось сутностях Web, називають ці сутності ресурсами. RDF являє собою мову для опису таких ресурсів. З огляду на те, що опису семантики документів повинні бути зрозумілі комп'ютерів, необхідно розробити спеціальні програми–агенти, які виробляли б таке читання. Також необхідно забезпечити можливість обміну інформацією між різними програмними агентами. Таким чином, під RDF мається на увазі не тільки сама мова, але також і різні додаткові програмні модулі, необхідні для забезпечення повноцінного читання і обміну інформацією, записаною на цій мові. Цей факт підкреслюється в назві мови RDF.
Головний елемент мови RDF — це трійка, або триплет. Трійка являє собою сукупність трьох сутностей:
- Суб'єкт.
- Об'єкт.
- Предикат.[4]
Предикати ще часто називають властивостями. Трійка має також подання у якості графа виду суб'єкт — предикат — об'єкт, де суб'єкт і об'єкт представлені як вузли, а предикат виступає в ролі ребра, яке ці вузли з'єднує.
Схема RDF (RDF Schema, RDFS) являє собою розширення мови RDF, що дозволяє описувати прості онтології даних, що знаходяться в сховищах RDF. Так само, як схема бази даних описує структуру бази даних у вигляді заголовків таблиць і зв'язків між ними, схема RDF дозволяє описувати структуру RDF–сховища. Структура описує сховище в термінах типів і відносин між ними. Насправді, як в цьому трохи пізніше переконається читач, схема RDF дозволяє описувати тільки класифікації з деякими додатковими відносинами. Щоб описати більш складні види відносин, необхідно залучати більш потужні засоби, такі, як OWL. У RDFS можна задавати класи, які визначаються в дескриптивної логіки як унарні відносини.[17]
OWL — Web Ontology Language, стандарт W3C, мова для семантичних тверджень, розроблений як розширення RDF і RDFS. У основі мови — уявлення дійсності в моделі даних «об'єкт & mdash; властивість». OWL придатний для опису не тільки веб–сторінок, але і будь-яких об'єктів дійсності. Кожному елементу опису в цій мові (в тому числі властивостям, що зв'язує об'єкти) ставиться у відповідність URI.
KIF (англ. Knowledge Interchange Format — формат обміну знаннями) — заснований на S–виразах синтаксису для логіки. KIF схожий на фреймові мови, такі, як KL–One і LOOM, але на відміну від таких мов його основна роль не в якості структури для вираження або використання знань, а для обміну знаннями між системами. Розробники KIF порівнювали його з PostScript. PostScript ні розроблений, в першу чергу як мову для зберігання і обробки документів, а скоріше як формат обміну даними для систем і пристроїв щоб ділитися документами. Таким же чином KIF покликаний полегшити обмін знаннями в різних системах, які використовують різні мови, формалізму, платформ і т.д.
Common Logic (CL) — наступник KIF (стандартизований — ISO / IEC 24707: 2007). Визначення CL дозволяє і стимулює розвиток безліч різних синтаксичних форм, званих діалектами. Діалект може використовувати будь–який бажаний синтаксис, але має бути можливим демонструвати, як саме конкретний синтаксис діалекту відповідає абстрактної семантиці CL, яка заснована на модельної теоретичної інтерпретації. Кожен діалект може бути потім оброблений як формальна мова. Після того, як синтаксична відповідність встановлена, діалект отримує семантику CL безкоштовно, так як вони вказані щодо тільки абстрактного синтаксису, і, отже, успадковуються будь-яким сумісним діалектом. Додатково, всі CL діалекти еквівалентні (тобто можуть бути механічно переведені один до одного), хоча деякі з них можуть бути більш дорогі, ніж інші.
CycL — онтологічна мова, що використовується в проекті Cyc. Заснований на численні предикатів з деякими розширеннями більш високого порядку. CycL використовується для представлення знань, що зберігаються в базі знань Cyc, доступною з Cycorp. Вихідний код, написаний на CycL випущений з системою OpenCyc отримує ліцензію з відкритим вихідним кодом, щоб збільшити свою корисність у справі підтримки Semantic Web.
Для роботи з мовами онтологій існує кілька видів технологій: редактори онтологій (для створення онтологій), СУБД онтологій (для зберігання і звернення до онтології) і сховища онтологій (для роботи з декількома онтологіями).[16]
4.3 Лексические онтологии
Особый тип онтологий — лексические (или лингвистические). Их отличительное свойство — использование в одном ресурсе понятий (слов) вместе с их языковыми свойствами. Основным источником понятий в онтологиях данного типа являются значения языковых единиц. Их также отличает набор отношений, обычно свойственный языковым элементам: синонимия, гипонимия, меронимия и ряд других. К лингвистическим онтологиям относятся:
- WordNet;
- MikroKosmos;
- Sensus;
Круг задач, решаемых такими онтологиями, тесно взаимосвязан с обработкой естественного языка. Главной характеристикой лингвистических онтологий является то, что их единицы связаны со значениями языковых выражений (слов, именных групп и т.п.), что важно, когда речь идет о создании новых онтологий и лексикализации существующих. Существуют отображения большинства известных онтологий (SUMO, OpenCyc и др.) на WordNet.[5]
Для того чтобы применить онтологию для автоматической обработки текстов, в частности, для решения задач информационного поиска, необходимо понятиям онтологии сопоставить набор языковых выражений (слов и словосочетаний), которыми понятия могут выражаться в тексте.[6]
4.4 Электронный словарь WordNet, как пример лексической онтологии
WordNet — это электронный тезаурус/семантическая сеть для английского языка, разработанный в Принстонском университете и выпущенный вместе с сопутствующим программным обеспечением под некопилефтной свободной лицензией.
Словарь состоит из 4 сетей для основных знаменательных частей речи: существительных, глаголов, прилагательных и наречий. Базовой словарной единицей в WordNet является не отдельное слово, а так называемый синонимический ряд («синсеты»), объединяющий слова со схожим значением и по сути своей являющимися узлами сети. Для удобства использования словаря человеком каждый синсет дополнен дефиницией и примерами употребления слов в контексте. Слово или словосочетание может появляться более чем в одном синсете и иметь более одной категории части речи. Каждый синсет содержит список синонимов или синонимичных словосочетаний и указатели, описывающие отношения между ним и другими синсетами. Слова, имеющие несколько значений, включаются в несколько синсетов и могут быть причислены к различным синтаксическим и лексическим классам.
Синсеты в WordNet связаны между собой различными семантическими отношениями:
- гипероним;
- гипоним;
- has–member;
- member–of;
- мероним;
- антоним.
Также, существуют различные другие связи: лексические, антонимические, контекстные (слово «x» имеет отношение к слову «y») и другими. Среди них особую роль играет гипонимия: она позволяет организовывать синсеты в виде семантических сетей. Для разных частей речи родовидовые отношения могут иметь дополнительные характеристики и различаться областью охвата.
WordNet можно свободно использовать в коммерческих и научных целях. Для работы с ним существует несколько программ, множество интерфейсов и API, реализуемых на большинстве возможных языков, так и с помощью протокола DICT, программы GoldenDict и других. Также, пакеты WordNet присутствуют в некоторых репозиториях ПО для GNU и Linux и их дистрибутивов.[18]
Первоначально WordNet создавался как модель человеческой памяти. Многие решения представления описаний слов в WordNet мотивируются психолингвистическими экспериментами.
Однако нужно отметить, что WordNet вызвал значительно больший интерес у компьютерных лингвистов, чем у психолингвистов.
Основные гипотезы, лежащие в основе разработки WordNet, следующим образом:
- гипотеза отделимости: описание лексического компонента естественного языка может быть отделено и может изучаться отдельно;
- гипотеза «образца» (patterning hypothesis): существует такое формальное описание слов, которое может быть применено к большинству слов языка;
- гипотеза о покрытии (comprehensiveness hypothesis): для эффективного использования компьютерного словаря в приложениях автоматической обработки текстов такие словари должны быть очень большой величины.
Основным отношением в WordNet является отношение синонимии. Наборы синонимов — синсеты — основные структурные элементы WordNet.
Понятие синонимии базируется на критерии, что два выражения являются синонимичными, если замена одного из них на другое в предложении не меняет значения истинности этого высказывания.
Понятие синонимии, используемое в WordNet, не требует заменяемости синонимов во всех контекстах — по такому критерию в естественном языке было бы слишком мало синонимов. Используется значительно более слабое утверждение, что синонимы WordNet должны быть взаимозаменимы хотя бы в некотором множестве контекстов. Например, замена plank для слова board редко меняет значение истинности в контексте плотницкого дела, но существуют контексты, где такая замена не может считаться приемлемой.
Именно определение синонимии в терминах заменимости делает необходимым разделение WordNet на отдельные подструктуры по частям речи.
В состав словаря входят лексемы, относящиеся к четырем частям речи: прилагательное, существительное, глагол и наречие. Лексемы различных частей речи хранятся отдельно, и описания, соответствующие каждой части речи, имеют различную структуру.
Синсет может рассматриваться как представление лексикализованного понятия (концепта) английского языка.
Авторы считают, что синсет существительных представляет понятия существительных, глаголы выражают глагольные концепты, прилагательные — концепты прилагательных и т.п.
Кроме того, авторы считают, что такое разделение соответствует психолингвистическим экспериментам, что представление информации о прилагательных, существительных, глаголах и наречиях устроено в человеческой памяти по–разному.
Большинство синсетов снабжены толкованием, подобным толкованиям в традиционных словарях, — это толкование рассматривается как одно для всех синонимов синсета. Если слово имеет несколько значений, то оно входит в несколько различных синсетов.[19]
Выводы
Магистерская работа посвящена актуальной научной задаче создания словаря на основе онтологий В рамках проведенных исследований выполнено:
- Исследованы основные понятия о словарях в целом, аё также об электронных и онлайн–словарях в частности.
- Рассмотрены онтологии в целом, их составляющие части и компоненты.
- Рассмотрены лексические онтологии, как отдельная категория онтологий, использующих слова в качестве ресурсов.
- Проведен анализ нескольких существующих лексических онтологий, чтобы подтвердить возможность их использования для создания электронного словаря. В качестве примера были исследованы такие онтологии, как WordNet и MicroKosmos.
При написании данного реферата магистерская работа еще не завершена. Окончательное завершение: май 2017 года. Полный текст работы и материалы по теме могут быть получены у автора или его руководителя после указанной даты.
Список источников
- Словарь — Википедия [Электронный ресурс] Режим доступа: https://ru.wikipedia.org/wiki/Словарь
- Определение понятия "словарь" [Электронный ресурс] Режим доступа: http://lab314.brsu.by/kmp–lite/kmp2/OTT/tLecture/tDict.htm
- Электронный словарь [Электронный ресурс] https://ru.wikipedia.org/wiki/Электронный_словарь
- Онтологии в компьютерных системах [Электронный ресурс] Режим доступа: https://rsdn.ru/article/philosophy/what–is–onto.xml
- Лексические онтологии WordNet в технологиях Semantic Web [Электронный ресурс] Режим доступа: http://www.interface.ru/home.asp?artId=36209
- Онтологии для обработки текстов на естественном языке. Лексические онтологии [Электронный ресурс] Режим доступа: http://www.intuit.ru/studies/courses/1078/270/lecture/6847?page=3
- Onltology components — Wikipedia [Электронный ресурс] Режим доступа: https://en.wikipedia.org/wiki/Ontology_components
- Новый энциклопедический словарь. М., 2000. — 320 с.
- Даль В. И. Толковый словарь живого великорусского языка.
- Ожегов С. И., Шведова Н. Ю. Толковый словарь русского языка.
- Словарь Академии Российской. СПб., 1806—1822.
- Словарь современного русского литературного языка в 17-ти тт., 1948—1965.
- Толковый словарь русского языка в 4-х тт. под ред. Д. Н. Ушакова.
- Электронные словари и их применимость для традиционного машинного перевода [Электронный ресурс] Режим доступа: http://ref.by/refs/29/39596/1.html
- Онлайн–словарь — Википедия [Электронный ресурс] Режим доступа: https://ru.wikipedia.org/wiki/Онлайн-словарь
- Онтология_(информатика) — Википедия [Электронный ресурс] Режим доступа:https://ru.wikipedia.org/wiki/Онтология_(информатика)
- Что такое онтология [Электронный ресурс] Режим доступа: http://belyaev-sw1m3r2011.narod.ru/index/0-12
- WordNet — Википедия [Электронный ресурс] Режим доступа: https://ru.wikipedia.org/wiki/WordNet
- Лингвистическая онтология WordNet [Электронный ресурс] Режим доступа: http://www.intuit.ru/studies/courses/1078/270/lecture/6859