Українська   English
ДонНТУ   Портал магистров

Реферат по теме выпускной работы

Анимация

Содержание

Введение

Универсального и общепринятого определения понятия «словарь» в настоящее время не существует.

Причин для это несколько:

Поэтому разные источники по–разному определяют понятие «словарь»:

С развитием компьютерной техники всё большее и большее распространение получают электронные словари и онлайн–словари.

1. Актуальность темы

Словари нужны всем — от начинающих лингвистов до профессиональных переводчиков. Вообще–то любой словарь заслуживает право на жизнь. А так как в настоящее время компьютеры занимают все более значительное место не только среди программистов и инженеров, но и в среде самых разнообразных пользователей, включая лингвистов, переводчиков и специалистов, нуждающихся в оперативном переводе иноязычной информации, то компьютерные словари стали очень удобным подручным средством в целях экономии времени и оптимизации процесса понимания иноязычной информации. Кроме того, сейчас имеются программы–переводчики, которые могут производить более или менее адекватный перевод иноязычных текстов и могут являться подспорьем в работе специалистов различных профилей. [14]

Данная работа посвящается изучению указанных проблем, а также анализу некоторых лингвистических программных продуктов, направленных на автоматизацию процесса перевода.

2. Цель и задачи исследования, планируемые результаты

Целью данной работы является создание электронного словаря с помощью онтологий.

Основные задачи работы:

  1. Анализ актуальности словарей в наше время.
  2. Сравнение бумажных и электронных словарей.
  3. Анализ возможности использования онтологий для создания онлайн–словаря.
  4. Исследование существующих аналогов на примере WordNet
  5. Разработка онлайн–словаря.

3. Понятие и виды словарей

Основная функция словаря заключается в том, что он сообщает главным образом информацию, актуальную с точки зрения интерпретации, употребления или замены знаков, содержащихся в левой части. Квантитативный определитель "главным образом" вводится для того, чтобы обеспечить плавный переход от «безусловных» словарей к промежуточным типам, а также для того, чтобы предоставить составителям словаря определенную свободу действий в отношении факультативной информации

Видовые признаки словаря:

3.1. Типология словарей

Словари принято делить на два основных типа: энциклопедические и лингвистические.

Объект описания лингвистических (языковых) словарей — языковые единицы (слова, словоформы, морфемы).

В таком словаре слово (словоформа, морфема) может быть охарактеризовано с разных сторон (многоаспектно):

В зависимости от того, сколько признаков слова описаны в словаре, различают словари одноаспектные и многоаспектные.

Синхронические лингвистические словари отражают срез языка какого–то определённого времени (например, языка XVIII века, современного языка).

Диахронические (например, этимологические) — отражают развитие языка с течением времени.

Энциклопедические — словари содержат экстралингвистическую информацию об описываемых языковых единицах; эти словари содержат сведения о научных понятиях, терминах, исторических событиях, персоналиях, географии и т. п. В энциклопедическом словаре нет грамматических сведений о слове, а даётся информация о предмете, обозначаемом словом.

Терминологический словарь содержит термины какой–либо области знания или темы и их толкования.

Особого внимания заслуживает разграничение лингвистических (прежде всего толковых) и энциклопедических словарей, которое, в первую очередь, заключается в том, что в энциклопедических словарях описываются понятия (в зависимости от объёма и адресата словаря даётся более или менее развёрнутая научная информация), в толковых — лингвистических значения.

В энциклопедических словарях много словарных статей, в которых заголовочным словом являются имена собственные.

Энциклопедии, справочники и словари, а также научные материалы используются в повседневной жизни для получения информации по самым различным вопросам. [1]

3.2. Основные составляющие словаря

Перед созданием словаря должны быть созданы следующие компоненты, без которых словарь не может существовать.

1. Словник — перечень слов, составляемый в процессе работы над словарём.

Словник в энциклопедических изданиях — полный перечень названий статей (терминов), как правило с краткой аннотацией и указанием размеров статей (в печатных знаках).

Словник в лингвистических словарях — алфавитный перечень (реестр) словарных единиц (слов, фразеологизмов и т. п.), подлежащих толкованию или переводу.

Издание энциклопедии обычно начинается с составления тематических словников по разным отраслям знаний, имеющих рубрикацию от общих понятий до частных терминов. На основе сводного тематического словника составляется общий алфавитный словник всего издания.

Словник энциклопедии представляет собой оглавление издания, отражающее его структуру и профиль.

При составлении словника:

С работой над словником тесно связано планирование помещения библиографии, иллюстраций, карт и другого дополнительного материала.

2. Глоссарий — словарь узкоспециализированных терминов в какой–либо отрасли знаний с толкованием, иногда переводом на другой язык, комментариями и примерами.

Собрание глосс и собственно глоссарии стали предшественниками словаря.

Глосса — иноязычное или непонятное слово в тексте книги с толкованием, помещённым либо над самим словом, либо под ним, либо рядом на полях.

Первоначально глоссой называли само непонятное слово или выражение.

Глоссарий — это также список часто используемых выражений.

3. Азбуковник — список непонятных слов с их кратким объяснением (обычно глосс к текстам). Азбуковники составлялись в XVII веке в Беларуси, в России, в Украине.

Статьи располагались в алфавитном (азбучном) порядке (обычно учитывались лишь первые буквы), отсюда и пошло название

4. Тезаурус — собрание сведений (корпус, свод) охватывающее с максимальной полнотой понятия, определения и термины специальной области знаний или сферы деятельности, с примерами их употребления в текстах.

Тезаурус (в современной лингвистике) — особая разновидность словарей общей или специальной лексики, в которых указаны семантические отношения (синонимы, антонимы, паронимы, гипонимы, гиперонимы и т. п.) между лексическими единицами.

Основные структурные элементы проектировании словаря:

3.3. Электронноые словари и онлайн–словари

В настоящее время компьютеры занимают все более значительное место не только среди программистов и инженеров, но и в среде самых разнообразных пользователей, включая лингвистов, переводчиков и специалистов, нуждающихся в оперативном переводе иноязычной информации. В этой связи компьютерные словари являются очень удобным подручным средством в целях экономии времени и оптимизации процесса понимания иноязычной информации. Кроме того, сейчас имеются программы–переводчики, которые могут производить более или менее адекватный перевод иноязычных текстов и могут являться подспорьем в работе специалистов различных профилей. Данная работа посвящается изучению указанных проблем, а также анализу некоторых лингвистических программных продуктов, направленных на автоматизацию процесса перевода.[14]

Электронный словарь — словарь в компьютере или другом электронном устройстве. Он позволяет быстро найти нужное слово, часто с учётом морфологии и возможностью поиска словосочетаний (примеров употребления), а также с возможностью изменения направления перевода (например, англо–русский или русско–английский).Внутренне электронный словарь устроен, как база данных со словарными статьями.

Электронные словари не стоит путать с компьютерными словарями, предназначенными не для пользователей, а для компьютерных программ, работающих с текстами на естественных языках.[3]

Именно сейчас электронные словари вышли из тени бумажных и становятся самостоятельными игроками на языковой площадке, причем игроками, которые, похоже, в ближайшее время сделают остальных действующих лиц экспонатами Музея книги. Ведь электронные словари обладают рядом очевидных и существенных преимуществ по сравнению со словарями традиционными. Единственным же их недостатком является привязанность к персональному компьютеру и, следовательно, ограниченная доступность. Однако этот недостаток будет достаточно скоро устранен, если не полностью, то, по крайней мере, в большей степени, в следствие все возрастающих темпов компьютеризации, в том числе и растущей доступностью переносных компьютеров типа Laptop.[14]

Популярные электронные словари:

Сегодня электронные словари актуальны, как никогда.

Ведь фундаментальные лучшие бумажные словари — неизбежно словари устаревшие.

Особенно это характерно для разговорной лексики, в частности, ненормативной. В этой области отечественные классические словари предстают не только устаревшими, но и попросту ханжескими.

Функции фиксации текущего состояния языка берут на себя растущие, как грибы после дождя, небольшие словарики, обычно весьма конъюнктурные и поверхностные. Новые значения в них оторваны от своих языковых корней, плохо или произвольно объяснены.

Для массовых программных продуктов, каковыми являются электронные словари, характерны частая смена версий и наличие постоянной обратной связи с тысячами пользователями. Поэтому компьютерная лексикография — это неизбежно актуальная лексикография.

Жизнь электронного словаря должна быть похожа на нелегкую жизнь других программных систем: с маниакальным стремлением особо вредных пользователей обнаружить очередную ошибку или лакуну, и, с другой стороны, с возможностью и необходимостью поправить дело сейчас, а не через десятилетия.[14]

Онлайн–словарь — электронный словарь, размещённый в Интернете. Онлайн–словари в наше время быстро набирают популярность. Их размещают у себя многие поисковые порталы.

Есть 3 варианта онлайн–словарей:

Известные примеры онлайн–словарей:

4. Онтологии

Онтология в информатике — это попытка всеобъемлющей и подробной формализации некоторой области знаний с помощью концептуальной схемы. Обычно такая схема состоит из структуры данных, содержащей все релевантные классы объектов, их связи и правила (теоремы, ограничения), принятые в этой области. [16]

4.1. Понятие онтологий

Онтологии используются в процессе программирования как форма представления знаний о реальном мире или его части. Основные сферы применения — моделирование бизнес–процессов, семантическая паутина (англ. Semantic Web), искусственный интеллект.

Современные онтологии строятся по большей части одинаково, независимо от языка написания. Обычно они состоят из экземпляров, понятий, атрибутов и отношений.

Экземпляры (англ. instances) или индивиды (англ. individuals) — это основные, нижнеуровневые компоненты онтологии. Экземпляры могут представлять собой как физические объекты (люди, дома, планеты), так и абстрактные (числа, слова).

Строго говоря, онтология может обойтись и без конкретных объектов. Однако, одной из главных целей онтологии является классификация таких объектов, поэтому они также включаются.

Понятия (англ. concepts) или классы (англ. classes) — абстрактные группы, коллекции или наборы объектов. Они могут включать в себя экземпляры, другие классы, либо же сочетания и того, и другого. Пример:

Понятие «люди», вложенное понятие «человек». Чем является «человек» — вложенным понятием, или экземпляром (индивидом) — зависит от онтологии.

Понятие «индивиды», экземпляр «индивид».

Классы онтологии составляют таксономию — иерархию понятий по отношению вложения.

Объекты в онтологии могут иметь атрибуты. Каждый атрибут имеет по крайней мере имя и значение и используется для хранения информации, которая специфична для объекта и привязана к нему. Значение атрибута может быть сложным типом данных. Важная роль атрибутов заключается в том, чтобы определять отношения (зависимости) между объектами онтологии. Обычно отношением является атрибут, значением которого является другой объект.

Онтологии бывают общие и специализированные. Общие онтологии используются для представления понятий, общих для большого числа областей. Такие онтологии содержат базовый набор терминов, глоссарий или тезаурус, используемый для описания терминов предметных областей. Специализированные (предметно–ориентированные) онтологии — это представление какой–либо области знаний или части реального мира. В такой онтологии содержатся специальные для этой области значения терминов. Если использующая специализированные онтологии система развивается, то может потребоваться их объединение. Подзадачей объединения онтологий является задача отображения онтологий. И для инженера по онтологиям это серьёзные задачи. Онтологии даже близких областей могут быть несовместимы друг с другом. Разница может появляться из–за особенностей местной культуры, идеологии или вследствие использования другого языка описания. Объединение онтологий выполняют как вручную, так и в полуавтоматическом режиме. В целом это — трудоёмкий, медленный и дорогостоящий процесс. Использование базисной онтологии — единого глоссария — несколько упрощает эту работу. Есть научные работы по технологиям объединения, но они по большей части теоретические.

В последние годы разработка онтологий — формальных явных описаний терминов предметной области и отношений между ними — переходит из мира лабораторий по искусственному интеллекту на рабочие столы экспертов по предметным областям. Во всемирной паутине онтологии стали обычным явлением. Онтология определяет общий словарь для ученых, которым нужно совместно использовать информацию в предметной области. Она включает машинно–интерпретируемые формулировки основных понятий предметной области и отношения между ними.

Онтологии содержимого Web–страниц необходимы поисковым программам для улучшения качества поиска по Web. Идея построения спецификаций концептуализаций содержания Web–страниц находится в основании концепции так называемого Умного Web или Semantic Web.

Формальная спецификация содержимого Web–документа дает возможность поисковой программе делать выводы о соответствии поискового запроса данному Web–документу не только на основе синтаксической информации, получаемой из текста этого документа, но и основываясь на семантике содержания данного документа. Это может кардинально улучшить качество Web–поиска, так как описание мира Web–страницы, понятное поисковой программе, дает последней гораздо больше информации, чем она может получить из неструктурированного текста.[16]

4.2. Языки описания онтологий

Язык описания онтологий — формальный язык, используемый для кодирования онтологии. Существует несколько подобных языков:[16]

Язык Resource Description Framework (RDF) — система описания ресурсов Web. Разработан для того, чтобы описывать содержимое Web. В Semantic Web, когда говорят о каких–то сущностях Web, называют эти сущности ресурсами. RDF представляет собой язык для описания таких ресурсов. Ввиду того что описания семантики документов должны быть понятны компьютерам, необходимо разработать специальные программы–агенты, которые производили бы такое чтение. Также необходимо обеспечить возможность обмена информацией между различными программными агентами. Таким образом, под RDF подразумевается не только сам язык, но также и различные дополнительные программные модули, необходимые для обеспечения полноценного чтения и обмена информацией, записанной на этом языке. Этот факт подчеркивается в названии языка RDF.

Главный элемент языка RDF — это тройка, или триплет. Тройка представляет собой совокупность трех сущностей:

  1. Субъект.
  2. Объект.
  3. Предикат.[4]

Предикаты еще часто называют свойствами. Тройка имеет также представление в виде графа вида субъект — предикат — объект, где субъект и объект представлены как узлы, а предикат выступает в роли ребра, которое эти узлы соединяет.

Схема RDF (RDF Schema, RDFS) представляет собой расширение языка RDF, позволяющее описывать простые онтологии данных, находящихся в хранилищах RDF. Так же, как схема базы данных описывает структуру базы данных в виде заголовков таблиц и связей между ними, схема RDF позволяет описывать структуру RDF–хранилища. Структура описывает хранилище в терминах типов и отношений между ними. На самом деле, как в этом чуть позже убедится читатель, схема RDF позволяет описывать только классификации с некоторыми дополнительными отношениями. Чтобы описать более сложные виды отношений, необходимо привлекать более мощные средства, такие, как OWL. В RDFS можно задавать классы, которые определяются в дескриптивной логике как унарные отношения. [17]

OWL — Web Ontology Language, стандарт W3C, язык для семантических утверждений, разработанный как расширение RDF и RDFS. В основе языка — представление действительности в модели данных «объект — свойство». OWL пригоден для описания не только веб–страниц, но и любых объектов действительности. Каждому элементу описания в этом языке (в том числе свойствам, связывающим объекты) ставится в соответствие URI.

KIF (англ. Knowledge Interchange Format — формат обмена знаниями) — основанный на S–выражениях синтаксис для логики. KIF похож на фреймовые языки, такие, как KL–One и LOOM, но в отличие от таких языков его основная роль не в качестве структуры для выражения или использования знаний, а для обмена знаниями между системами. Разработчики KIF сравнивали его с PostScript. PostScript не был разработан, в первую очередь как язык для хранения и обработки документов, а скорее как формат обмена данными для систем и устройств чтобы делиться документами. Таким же образом KIF призван облегчить обмен знаниями в различных системах, которые используют различные языки, формализма, платформ и т.д.

Common Logic (CL) — преемник KIF (стандартизован — ISO/IEC 24707:2007). Определение CL разрешает и стимулирует развитие множества различных синтаксических форм, называемых диалектами. Диалект может использовать любой желаемый синтаксис, но должно быть возможным демонстрировать, как именно конкретный синтаксис диалекта соответствует абстрактной семантике CL, которая основана на модельной теоретической интерпретации. Каждый диалект может быть затем обработан в качестве формального языка. После того, как синтаксическое соответствие установлено, диалект получает семантику CL бесплатно, так как они указаны относительно только абстрактного синтаксиса, и, следовательно, наследуются любым совместимым диалектом. Дополнительно, все CL диалекты эквивалентны (т.е. могут быть механически переведены друг к другу), хотя некоторые из них могут быть более дорогик, чем другие.

CycL — онтологический язык, использующийся в проекте Cyc. Основан на исчислении предикатов с некоторыми расширениями более высокого порядка. CycL используется для представления знаний, хранящихся в базе знаний Cyc, доступной из Cycorp. Исходный код, написанный на CycL выпущенный с системой OpenCyc получает лицензию с открытым исходным кодом, чтобы увеличить свою полезность в деле поддержки Semantic Web.

Для работы с языками онтологий существует несколько видов технологий: редакторы онтологий (для создания онтологий), СУБД онтологий (для хранения и обращения к онтологии) и хранилища онтологий (для работы с несколькими онтологиями).[16]

4.3. Лексические онтологии

Особый тип онтологий — лексические (или лингвистические). Их отличительное свойство — использование в одном ресурсе понятий (слов) вместе с их языковыми свойствами. Основным источником понятий в онтологиях данного типа являются значения языковых единиц. Их также отличает набор отношений, обычно свойственный языковым элементам: синонимия, гипонимия, меронимия и ряд других. К лингвистическим онтологиям относятся:

Круг задач, решаемых такими онтологиями, тесно взаимосвязан с обработкой естественного языка. Главной характеристикой лингвистических онтологий является то, что их единицы связаны со значениями языковых выражений (слов, именных групп и т.п.), что важно, когда речь идет о создании новых онтологий и лексикализации существующих. Существуют отображения большинства известных онтологий (SUMO, OpenCyc и др.) на WordNet.[5]

Для того чтобы применить онтологию для автоматической обработки текстов, в частности, для решения задач информационного поиска, необходимо понятиям онтологии сопоставить набор языковых выражений (слов и словосочетаний), которыми понятия могут выражаться в тексте.[6]

4.4. Электронный словарь WordNet, как пример лексической онтологии

WordNet — это электронный тезаурус/семантическая сеть для английского языка, разработанный в Принстонском университете и выпущенный вместе с сопутствующим программным обеспечением под некопилефтной свободной лицензией.

Словарь состоит из 4 сетей для основных знаменательных частей речи: существительных, глаголов, прилагательных и наречий. Базовой словарной единицей в WordNet является не отдельное слово, а так называемый синонимический ряд («синсеты»), объединяющий слова со схожим значением и по сути своей являющимися узлами сети. Для удобства использования словаря человеком каждый синсет дополнен дефиницией и примерами употребления слов в контексте. Слово или словосочетание может появляться более чем в одном синсете и иметь более одной категории части речи. Каждый синсет содержит список синонимов или синонимичных словосочетаний и указатели, описывающие отношения между ним и другими синсетами. Слова, имеющие несколько значений, включаются в несколько синсетов и могут быть причислены к различным синтаксическим и лексическим классам.

Синсеты в WordNet связаны между собой различными семантическими отношениями:

Также, существуют различные другие связи: лексические, антонимические, контекстные (слово «x» имеет отношение к слову «y») и другими. Среди них особую роль играет гипонимия: она позволяет организовывать синсеты в виде семантических сетей. Для разных частей речи родовидовые отношения могут иметь дополнительные характеристики и различаться областью охвата.

WordNet можно свободно использовать в коммерческих и научных целях. Для работы с ним существует несколько программ, множество интерфейсов и API, реализуемых на большинстве возможных языков, так и с помощью протокола DICT, программы GoldenDict и других. Также, пакеты WordNet присутствуют в некоторых репозиториях ПО для GNU и Linux и их дистрибутивов.[18]

Первоначально WordNet создавался как модель человеческой памяти. Многие решения представления описаний слов в WordNet мотивируются психолингвистическими экспериментами.

Однако нужно отметить, что WordNet вызвал значительно больший интерес у компьютерных лингвистов, чем у психолингвистов.

Основные гипотезы, лежащие в основе разработки WordNet, следующим образом:

Основным отношением в WordNet является отношение синонимии. Наборы синонимов — синсеты — основные структурные элементы WordNet.

Понятие синонимии базируется на критерии, что два выражения являются синонимичными, если замена одного из них на другое в предложении не меняет значения истинности этого высказывания.

Понятие синонимии, используемое в WordNet, не требует заменяемости синонимов во всех контекстах — по такому критерию в естественном языке было бы слишком мало синонимов. Используется значительно более слабое утверждение, что синонимы WordNet должны быть взаимозаменимы хотя бы в некотором множестве контекстов. Например, замена plank для слова board редко меняет значение истинности в контексте плотницкого дела, но существуют контексты, где такая замена не может считаться приемлемой.

Именно определение синонимии в терминах заменимости делает необходимым разделение WordNet на отдельные подструктуры по частям речи.

В состав словаря входят лексемы, относящиеся к четырем частям речи: прилагательное, существительное, глагол и наречие. Лексемы различных частей речи хранятся отдельно, и описания, соответствующие каждой части речи, имеют различную структуру.

Синсет может рассматриваться как представление лексикализованного понятия (концепта) английского языка.

Авторы считают, что синсет существительных представляет понятия существительных, глаголы выражают глагольные концепты, прилагательные — концепты прилагательных и т.п.

Кроме того, авторы считают, что такое разделение соответствует психолингвистическим экспериментам, что представление информации о прилагательных, существительных, глаголах и наречиях устроено в человеческой памяти по–разному.

Большинство синсетов снабжены толкованием, подобным толкованиям в традиционных словарях, — это толкование рассматривается как одно для всех синонимов синсета. Если слово имеет несколько значений, то оно входит в несколько различных синсетов.[19]

Выводы

Магистерская работа посвящена актуальной научной задаче создания словаря на основе онтологий В рамках проведенных исследований выполнено:

  1. Исследованы основные понятия о словарях в целом, аё также об электронных и онлайн–словарях в частности.
  2. Рассмотрены онтологии в целом, их составляющие части и компоненты.
  3. Рассмотрены лексические онтологии, как отдельная категория онтологий, использующих слова в качестве ресурсов.
  4. Проведен анализ нескольких существующих лексических онтологий, чтобы подтвердить возможность их использования для создания электронного словаря. В качестве примера были исследованы такие онтологии, как WordNet и MicroKosmos.

При написании данного реферата магистерская работа еще не завершена. Окончательное завершение: май 2017 года. Полный текст работы и материалы по теме могут быть получены у автора или его руководителя после указанной даты.

Список источников

  1. Словарь — Википедия [Электронный ресурс] Режим доступа: https://ru.wikipedia.org/wiki/Словарь
  2. Определение понятия "словарь" [Электронный ресурс] Режим доступа: http://lab314.brsu.by/kmp–lite/kmp2/OTT/tLecture/tDict.htm
  3. Электронный словарь [Электронный ресурс] https://ru.wikipedia.org/wiki/Электронный_словарь
  4. Онтологии в компьютерных системах [Электронный ресурс] Режим доступа: https://rsdn.ru/article/philosophy/what–is–onto.xml
  5. Лексические онтологии WordNet в технологиях Semantic Web [Электронный ресурс] Режим доступа: http://www.interface.ru/home.asp?artId=36209
  6. Онтологии для обработки текстов на естественном языке. Лексические онтологии [Электронный ресурс] Режим доступа: http://www.intuit.ru/studies/courses/1078/270/lecture/6847?page=3
  7. Onltology components — Wikipedia [Электронный ресурс] Режим доступа: https://en.wikipedia.org/wiki/Ontology_components
  8. Новый энциклопедический словарь. М., 2000. — 320 с.
  9. Даль В. И. Толковый словарь живого великорусского языка.
  10. Ожегов С. И., Шведова Н. Ю. Толковый словарь русского языка.
  11. Словарь Академии Российской. СПб., 1806—1822.
  12. Словарь современного русского литературного языка в 17-ти тт., 1948—1965.
  13. Толковый словарь русского языка в 4-х тт. под ред. Д. Н. Ушакова.
  14. Электронные словари и их применимость для традиционного машинного перевода [Электронный ресурс] Режим доступа: http://ref.by/refs/29/39596/1.html
  15. Онлайн–словарь — Википедия [Электронный ресурс] Режим доступа: https://ru.wikipedia.org/wiki/Онлайн-словарь
  16. Онтология_(информатика) — Википедия [Электронный ресурс] Режим доступа:https://ru.wikipedia.org/wiki/Онтология_(информатика)
  17. Что такое онтология [Электронный ресурс] Режим доступа: http://belyaev-sw1m3r2011.narod.ru/index/0-12
  18. WordNet — Википедия [Электронный ресурс] Режим доступа: https://ru.wikipedia.org/wiki/WordNet
  19. Лингвистическая онтология WordNet [Электронный ресурс] Режим доступа: http://www.intuit.ru/studies/courses/1078/270/lecture/6859