В библиотеку

Источник

Гендина Н.И.,

доктор пед. наук, профессор

кафедры ТАОИ КемГУКИ

 

 

Информационно-поисковые тезаурусы: основные виды 

 и области применения

 

План

1.                  Виды информационно-поисковых тезаурусов.

2.                  ИПТ: эволюция взглядов в эпоху Интернет

3.                  Области применения  ИПТ

3.1.            Области применения  ИПТ   в информационной технологии

3.2.            ИПТ как лингвистическое средство для решения прикладных задач  в различных областях знания и деятельности

 

1. Виды информационно-поисковых тезаурусов

В настоящее время существует значительное число информационно-поисковых тезаурусов, разработанных как у нас в стране, так и за рубежом. В 70-90-ые годы ХХ в. в нашей стране было разработано большое количество ИПТ – свыше 200. В рамках программы кооперации между странами Евросоюза в области научной и технической информации была создана база данных (БД) Thesaurus Guide, содержащая сведения  о тезаурусах западноевропейских государств, а также США, Канады, Южной Америки, ЮАР и Австралии. По данным (8, с.23) эта  БД содержит сведения о 654 тезаурусах, действовавших в 1985 г. и доступных  на одном из официальных  языков Европейского сообщества. Несмотря на некоторое снижение  интереса к ИПТ в 90-е годы ХХ в., в настоящее время наблюдается  активизация исследований и разработок в сфере ИПТ, расширяются области их применения.  Поэтому важно знать о том, какие виды отечественных и зарубежных  ИПТ существуют.

Все многообразие ИПТ можно проанализировать, воспользовавшись такими их параметрами, как широта тематического охвата, назначение в АИС, системность построения, особенности состава лексики и внутриструктурного построения, количество естественных языков, форма представления и знаковая природа информации. В соответствии с выбранными основаниями деления выделяются следующие виды  ИПТ:

1.По широте тематического охвата:

1.1. Политематические (многоотраслевые). Примером одного из первых отечественных политематических тезаурусов может служить «Тезаурус научно-технических терминов», подготовленный и изданный в 1972 г. под руководством доктора технических наук Ю. И. Шемакина. Этот ИПТ содержал 19000 терминов по прикладным областям знания и был предназначен для использования в автоматизированных системах управления и обработки информации. В настоящее время крупнейшим  русскоязычным политематическим тезаурусом является информационно-поисковый тезаурус по общественно-политической тематике для автоматического индексирования в Университетской информационной системе «РОССИЯ» (УИС «Россия»). Он был разработан в 1995 г. Научно-исследовательским вычислительным центром МГУ им. М. В. Ломоносова (http://www.cir.ru»). Содержит терминологию, используемую в общественно-политической области, включая экономическую, политическую, военную, законодательную, социальную, международные отношения и другие сферы. Тезаурус включает 62 тысячи терминов, более 26 тысяч понятий, отражает около 100 тысяч отношений между понятиями.

1.2. Отраслевые, составляющие наиболее многочисленную группу тезаурусов, например, ИПТ по информатике, подготовленный ВИНИТИ, серия отраслевых ИПТ, разработанных в 80-ые годы Кемеровским  ЦНТИ (по технологии машиностроения,  сельскому хозяйству, горному делу и др.). Среди масштабных отраслевых  ИПТ, разработанных в последние годы, следует назвать информационно-поисковые тезаурусы ИНИОН по философии, экономике и демографии, правоведению, социологии, политологии.

1.3. Узкоотраслевые или проблемные тезаурусы, предна­значенные для поиска информации по отдельному внутриотраслевому направлению, например «Тезаурус по минералам», подготовленный ВИНИТИ, «Тезаурус по сталям», изданный кафедрой математической лингвистики ЛГУ, «Тезаурус терминологии гендерных исследований», разработанный А.А.Денисовой (http://www.owl.ru/gender/thesaurus.htm), «Тезаурус по безопасности инженерных систем»  др.

2. По назначению различают:

2.1. Базисные (базовые) ИПТ, представляющие собой политематические ИПТ, включающие основные понятия и их взаимосвязи, общие для нескольких тематических (отраслевых) подмассивов. В него включается лексика, обозначающая основные понятия комплекса наук: названия разделов наук, важнейшие научные категории, основные научные направления, понятия обобщенного, собирательного характера, лексика верхних уровней терминологической иерархии, лексико-семантические пересечения отраслевых ИПТ. Базисные ИПТ предназначены для использования в качестве лексико-семантической основы при построении, узкотематических рабочих тезаурусов. Таким образом достигается унификация рабочих тезаурусов и облегчается трудоемкий процесс их построения.

Базисные тезаурусы служат для выполнения следующих целей:

- для совместного использования с отраслевыми тезаурусами при глубоком индексировании документов и обеспечения достаточно полного покрытия смежной тематики, что позволяет при создании отраслевых тезаурусов несколько сузить их тематический охват, ограничиваясь лишь специфическими для отрасли понятиями;

- для самостоятельного использования при индексировании документов непрофильной и межотраслевой тематики;

- для осуществления нормативной функции: базисный тезаурус выступает как средство координации всех функционирующих в информационной системе ИПТ.

Базисные тезаурусы иногда называют макротезаурусами, подчеркивая тем самым то, что они включают лексические единицы высокой степени общности и покрывающие широкую область знаний.

2.2. Рабочие ИПТ, используемые в реальных АИС. В качестве рабочих тезаурусов могут выступать отраслевые, узкоотраслевые или проблемные ИПТ, построенные на основе базисного тезауруса. Если базисные тезаурусы, выступающие в качестве нормативных пособий, включают только основную лексику той или иной отрасли, совокупности отраслей, и наиболее очевидные парадигма­тические отношения, то рабочие тезаурусы отличаются большим лексическим богатством и развитой парадигматикой. Следователь­но, семантическая сила рабочих ИПТ должна превосходить семантическую силу базисных тезаурусов. Особенностью рабочих тезаурусов является большое количество прагматических решений, имеющих силу только в рамках данной внутриотраслевой тема­тики. Рабочие ИПТ в специальной литературе фигурируют также под именем «микротезаурусы», что отражает как их небольшой объем, так и то, что они составляются на основе развития  выборки из более общего ИПТ и дополнительно включают конкретные узкие понятия определенной области знания.

3. По системности построения различают:

3.1. Комплексы ИПТ. Комплекс ИПТ это система тезаурусов по одной или нескольким отраслям знания, создаваемая в одной организации по единой методике. Можно выделить комплексы тезаурусов, подготов­ленных всесоюзными органами информации, такими, как ВИНИТИ, ВНТИЦентр, ИНИОН. Комплексы ИПТ  разрабатывались  в советский период  также и центральными отраслевыми органами информации: ЦНИИТЭИПриборостроения, ЦНИИ «Румб», ЦНИИТЭИ «Союзсельхозтехника», ЦНИИТЭИЧермет, ЦНИИТЭИПищепром и др. Вели разработку комплексов ИПТ и  территориальные информационные центры.  Например, в 80-е годы ХХ в. был разработан комплекс тезаурусов Кемеровского межотраслевого ЦНТИ. Он включал ИПТ по одиннадцати отраслям народного хозяйства: горное дело, технология машиностроения, сельское хозяйство, черная металлургия, общие вопросы химической технологии, электротехника, лесное хозяйство, молочная промышленность, швейная, хлебопекарная промышленность.

В постсоветский период в ИНИОН была осуществлена разработка серии тезаурусов по социальным и гуманитарным наукам: «Экономика и демография», «Философия», «Правоведение», «Социология», «Политология», «Гендерные исследования», «Тезаурус по религиоведению».

Среди зарубежных разработок следует назвать комплекс тезаурусов  Фонда Гетти (США). Основателем фонда и самого крупного художественного музея  в Калифорнии – музея Гетти ( J. Paul Getty Museum) является американский нефтяной магнат, миллиардер Дж. Пол Гетти

 (1892—1976 гг. ). Оставленное им на нужды музея и фонда многомиллиардное состояние сделало музей Гетти самым состоятельным приобретателем произведений «старых мастеров» и античной скульптуры на самых престижных мировых аукционах, а также позволило Фонду и Гетти финансировать создание комплекса лингвистических средств, в состав которых входят следующие словари-тезаурусы:

- тезаурус по искусству и архитектуре  (The Art and Architecture Thesaurus - AAT).  В настоящее время тезаурус AAT содержит около 30 тысяч дескрипторов и более 130 тысяч англоязычных терминов. Терминология тезауруса охватывает искусство, архитектуру, декоративное искусство, материальную культуру, архивные материалы с античности до наших дней;

- словарь имен авторов (The Union List of Artist Names - ULAN),   включающий  375000 имен, биографическую и библиографическую информацию о художниках и архитекторах, содержащий   варианты имен, псевдонимов и вариантов написания имен на разных языках (http://www.getty.edu/research/conducting_research/vocabularies/ulan/);

- тезаурус географических названий (The Getty Thesaurus of Geographic Names - TGN),  включающий около 1115000 названий, типов местностей, координат, описательных заметок, фокусирующихся на местах, важных для изучения искусства и архитектуры.

3.2.Отдельные ИПТ. Они отражают единичные попытки информационных служб и организаций, а также частных лиц создать ИПТ отраслевого или проблемного характера. Примерами таких  ИПТ могут служить  «Тезаурус по теоретической и прикладной лингвистике», разработанный С.Е. Никитиной, «Тезаурус терминологии гендерных исследований», созданный А.А.Денисовой  и др.

4. По особенностям состава лексики  и  внутриструктурного построения ИПТ:

4.1.ИПТ, включающие в свой состав в качестве  лексических единиц  как дескрипторы, так и аскрипторы.

4.2. ИПТ, включающие в свой состав в качестве  лексических единиц только дескрипторы.

4.3. Фасетизированные ИПТ - ИПТ, созданные на базе фасетного анализа лексики. Использование идей Ш. Ранганатана применительно к задачам оптимизации структуры ИПТ плодотворно использовалось школой ленинградских исследователей под руководством профессора А. В. Соколова, предложившего фасетно-блочный метод построе­ния тезаурусов. Реализация данного метода была осуществлена  в 80-е годы ХХ в. в комплексе ИПТ, созданных в научно-исследовательском секторе ЛГИК им. Н. К. Крупской. К ним относятся ИПТ по культурному строительству, библиотечному делу и библиографии, культурно-просветительной работе, музей­ному делу; тезаурус по целлюлозно-бумажной промышленности для АСНТИ «Папирус», ИПТ «Судоходство», «Морские порты» и др.

Фасетный принцип использовался также  при создании нефтегазового ИПТ, описанного в (13). В этом отраслевом тезаурусе терминология по нефти и газу была сгруппирована по пяти фасетам: «Вещества», «Объекты», «Процесс», «Характеристики», «Идентификаторы (Имена собственные)» 

Фасетный принцип построения был использован  при разработке Тезауруса по архитектуре и искусству – The Art and Architecture Thesaurus (AAT), развиваемого фондом П. Гетти для описания предметов материальной культуры. Дескрипторы тезауруса (около 30 тысяч) подразделяются на 7 фасетов: Ассоциированные понятия, физические свойства, Стили и периоды, Агенты (люди и организации), Деятельность, материалы, объекты,

Реализация фасетно-блочного принципа построения ИПТ направлена на решение проблемы совместимости тезаурусов как внутри одной отрасли, так и в родственных отраслях, давая возможность обмениваться как отдельными лексическими единицами, так и их блоками, вплоть до объединения ИПТ в сводный тезаурус.

5. По количеству естественных языков, перевод с которых на дескрипторный ИПЯ обеспечивает ИПТ:

5.1. Одноязычные ИПТ.  Как следует  из их названия, такие ИПТ отражают  лексику только на одном из естественных языков: либо русском, либо английском,  испанском и т.д.. Разработка   отечественных одноязычных ИПТ регламентируется ГОСТ 7.25-2001 «Тезаурус информационно-поисковый одноязычный. Правила разработки, структура, состав и форма представления».

5.2. Многоязычные ИПТ. Они содержат лексические единицы, взятые из нескольких естественных языков и представляющие эквивалентные по смыслу понятия на каждом из этих языков. Их основное назначение – обеспечение языковой совместимости национальных информационных систем в рамках международного информационного сотрудничества. Представление многоязычных ИПТ должно соответствовать требованиям оформления, установленным ГОСТ 7.24-2007 «Тезаурус информационно-поисковый многоязычный. Состав, структура и основные требования к построению».

Примером многоязычного ИПТ может служить трехязычный «Тезаурус по социальным наукам», разработанный в результате совместного проекта Информационного центра по социальным наукам в Бонне (Германия) и Института научной информации по общественным наукам (ИНИОН РАН) в России. Целью проекта было преодоление языкового барьера при поиске информации в немецких и русских банках данных. Тезаурус отражает широкий диапазон политематической терминологии (социология, политическая наука, социальная психология, экономика и право, этнология, социальная история, демография и др.) на немецком,  английском и русском языках

. Необходимость разработки и использования многоязычных ИПТ обусловлена следующими факторами:

- увеличением  числа иноязычных документов в АИС.  В этом случае создание многоязычных ИПТ   обеспечивает их поиск  без предварительного перевода;

-изменением состава потребителей,  при котором в АИС  начинают поступать иноязычные запросы;

- международным кооперированием двух или нескольких национальных  информационных центров разных стран. В этом случае наличии единого многоязычного тезауруса  обеспечивает возможность индексирования  документов  по одной тематике;

- созданием международных центров обмена информацией.

Следует отметить, что создание многоязычных ИПТ чаще всего связано с деятельностью международных организаций. Например:

- Тезаурус ООН или – тезаурус  ЮНБИС ( UNBIS Thesaurus) – содержит терминологию на всех официальных языках Организации Объединенных Наций (арабском, китайском, английском, французском, русском и испанском), используемую в качестве дескрипторов при анализе и поиске документов ООН. Тезаурус отражает широкий круг вопросов, которыми занимается ООН и предназначен для точного и, четкого обозначения объектов поиска информации с учетом специфики предмета;

- тезаурус ЮНЕСКО по образованию (UNESCO: IBE education thesaurus), содержащий термины  на английском, французском и  испанском языках;  

- тезаурус Европейского Сообщества – тезаурус EUROVOC, содержащий лексику на девяти языках;

- сельскохозяйственный тезаурус AGROVOC, разработанный международной Продовольственной и сельскохозяйственной организацией ООН – ФАО (от англ. Food and Agriculture Organization, FAO) и Европейским сообществом ЕС, содержит лексику на английском, французском и испанском языках. Он доступен пользователю в FAO, варианты на других языках (чешский, немецкий, итальянский и португальский) существуют в соответствующих центрах AGRIS (Agricultural Research Information System - Международная информационная система по сельскому хозяйству и смежным с ним отраслям).

- Тезаурус Организации сотрудничества железных дорог – «Информационно-поисковый тезаурус «Транспорт»», отражающий терминологию  на русском, немецком и  китайском языках.

Таким образом, многоязычные ИПЯ являются средствами преодоления языкового барьера и обеспечивают возможность кооперации информационных центров  и АИС различных стран.

6. По форме представления:

6.1. ИПТ в печатном виде. Представление ИПТ в печатном виде должно соответствовать требованиям оформления, установленным ГОСТ 7.25-2001 «Тезаурус информационно-поисковый одноязычный. Правила разработки, структура, состав и форма представления».

6.2. ИПТ на машиночитаемых носителях, представленные на микрофишах, компакт-дисках, в форме электронных сетевых  версий и др..

При представлении ИПТ на машиночитаемых носителях формат записи должен соответствовать ГОСТ Р 7.0.47-2008. (ИУС 5-2008) «Формат для представления на машиночитаемых носителях словарей информационных языков и терминологических данных. Содержание записи». Представление ИПТ на видеотерминалах должно соответствовать основным требованиям оформления, установленным ГОСТ 7.25-2001 «Тезаурус информационно-поисковый одноязычный. Правила разработки, структура, состав и форма представления».

Наибольшее распространение нашли ИПТ, реализованные одновременно как на традиционных, так и на машиночитаемых носителях информации

Следует подчеркнуть, что компьютерная реализация ИПТ  повлекла за собой не только изменение формы их представления. Она  обеспечила оперативность, а также удобство навигации и поиска информации. Так, например, гипертекстовая технология реализации тезауруса позволяет легко и быстро «передвигаться» по ИПТ, переходя от термина к его синониму, вышестоящим, нижестоящим и ассоциативным понятиям. Использование средств мультимедиа позволяет отражать в тезаурусе не только словесную (вербальную), но и звуковую и видеоинформацию (формульную, графическую, иллюстративную и др.), расширяя тем самым возможности ИПТ.

7. По знаковой природе информации

7.1. Текстовые ИПТ - ИПТ, большую часть объема которых занимает словесный текст. Это наиболее распространенная и многочисленная группа тезаурусов.

7.2. Визуальные ИПТ- ИПТ, значительную часть которых занимают изображения (  формулы, карты, схемы, чертежи,  диаграммы, пиктограммы, иллюстрации и т.п.). Разработка таких тезаурусов находится в стадии становления. Особо перспективны они для использования в АИС,  в которых  визуальная информация является семантически не менее (а иногда - и более) важной, чем вербальные, словесные компоненты документов. Наиболее яркими примерами являются АИС в области химии, где требуется вести поиск по структурам химических соединений и структурным формулам, в геоинформационных системах, требующих поиска картографической информации. Особую актуальность создание визуальных ИПТ приобретает в сфере  лингвистического обеспечения музейных АИС для  описания музейных коллекций.

7.3. Смешанные ИПТ, сочетающие текст и изображение.

В обобщенном виде   основные виды  ИПТ отражает табл.1.

Таблица 1. Многоаспектная классификация ИПТ

№№

Основание деления

Вид ИПТ

1.

   Широта тематического охвата

 

1.1.                   Политематические (многоотраслевые)

1.2.                   Отраслевые

1.3.                   Узкоотраслевые (проблемные)

2.

  Назначение

 

2.1. Базисные  (базовые) 

2.2. Рабочие ИПТ

3.

  Системность построения:

 

3.1. Комплексы ИПТ.

3..2.Отдельные ИПТ

4.

 Особенности состава лексики и внутриструктурного построения

   4.1.ИПТ, включающие  дескрипторы и аскрипторы

4.2. ИПТ, включающие  только дескрипторы

4.3. Фасетизированные ИПТ

5.

 Количество естественных языков

5.1. Одноязычные ИПТ

5.2. Многоязычные ИПТ

6.

Форма представления

6.1. ИПТ в печатном виде

6.2 .ИПТ  на ма­шиночитаемых носителях

7.

Знаковая природа информации

7.1. Текстовые ИПТ

 7.2. Визуальные ИПТ

 

Завершая рассмотрение основных видов ИПТ, следует отметить, что в 70-90-ые годы ХХ в. в нашей стране было разработано большое количество (свыше 200), ИПТ созданием которых занимались как всесоюзные, центральные отраслевые, так и территориальные (региональные) информационные органы. В целях устранения дублирования и непроизводительных затрат на подготовку ИПТ во ВНИИКИИ была создана автоматизированная система веде­ния информационных языков (АСВИЯ), призванная осуществлять учет, контроль и информирование о всех ИПЯ, которые эксплуа­тируются в отечественных АСНТИ. В рамках АСВИЯ был создан фонд ИПТ, на базе которого эта служба вела справочно-информационное обслуживание всех заинтересованных учреждений и органи­заций. Однако после распада СССР АСВИЯ прекратила свое существование. В настоящее время   вся полнота информации об отечественных ИПТ сосредоточена в Национальном  депозитарном  фонде ИПТ на русском языке, который  находится в  Москве,  в ВИНИТИ.  

 

2. ИПТ: эволюция взглядов в эпоху Интернет

В течение более тридцати лет – с 1960-х по 1980-е гг. одним из основных способов поиска в информационно-поисковых системах был поиск с использованием ИПТ. К достоинствам использования тезаурусов при индексировании и поиске документов по праву были отнесены возможности уточнения запроса пользователем и автоматического расширения запроса на основе тезаурусных связей.

Однако стремительное внедрение  информационно-коммуникационных технологий, массовый переход  к персональным компьютерам, появление полнотекстовых баз данных и развитие сети Интернет, смена поколения разработчиков АИС, как ни парадоксально, негативным образом  сказалось на использовании ИПТ (3, 11). Оно привело к ситуации, когда использование тезаурусов в информационных системах стало скорее ис­ключением, чем правилом. Причиной этому явились следующие ошибочные, не оправдавшие себя на практике представления:

1)                 быстродействие и значительные объемы памяти  современных компьютеров позволят обеспечить приемлемое качество информационного поиска за счет использования естественного языка (ключевых  слов), следовательно, можно отказаться от ИПТ, т.е. обойтись без ИПЯ с контролируемой лексикой.

2)                 Разработка и ведение ИПТ в  эпоху  Интернета и полнотекстовых баз данных является излишним, дорогостоящим и не оправдывающим себя процессом с точки зрения эффективности информационного поиска.

На основании этого делался ложный вывод о том, что совершенствование работы современных АИС можно обеспечить за  счет  мощи и быстродействия  компьютеров, не прибегая к разработке  лингвистических средств, включая ИПТ.

Практика современного информационного поиска полностью опровергла эти неверные суждения, разрушила иллюзорные представления о том, что развитие информационно-коммуникационных технологий и сети Интернет обеспечит простое и легкое разыскание нужной информации исключительно за счет быстродействия поисковых машин. Несмотря на то, что в распоряжении современного пользователя полнотекстовых информационных систем имеются многомиллионные массивы документов, результаты поиска информации зачастую неудовлетворительны. Теоретически это было предсказано информационной наукой довольно давно. Еще в 60-е годы ХХ в. было показало, что когда в ИПС достигнуто оптимальное соотношение полноты и точности поиска, то дальнейшее увеличение полноты возможно только за счет уменьшения точности и наоборот

Как отмечают многие исследователи, точность словарного информационного поиска в Интернете составляет в среднем всего лишь 10%, причем ни одна из известных поисковых машин не обеспечивает полноту поиска. Оказалось, что и в классификационных системах (Yahoo!), и в поисковых машинах словарного ти­па (AltaVista) поиск научно-технической информа­ции в ресурсах Интернет по ключевым словам, да­же с применением встроенных рубрикаторов, без выявления и использования парадигматических (иерархических и синонимических) отношений между терминами дает в 3,3 раза меньше пертинентных результатов, чем информационный поиск в тех же ресурсах с использованием парадигматических  отношений (7).

Выводы российских исследователей согласуются с данными зарубежных специалистов. Еще в 2000 г. World Wide Web насчитывала около 1,2 млрд. вебстраниц, причем, ежегодно это число удваивается. В этих условиях  объем выдач на запрос в Интернет подчас составляет 10-20 тыс. документов, из которых реально пользователь просматривает только три-четыре эшелона. При этом современные средства поиска не обеспечивают ни его приемлемой точности, ни полноты. Следует подчеркнуть, что при поиске в базах данных объемом в миллионы документов именно проблема точности выходит на первый план.

Таким образом, рост объема баз данных, громадная выдача в ответ на запрос в Интернете явно показывают, что главной информационной проблемой XXI века становится улучшение точности поиска. Современные методы автоматического индексирования приводят к потере значительного количества релевантных документов. Устранение неоднозначности терминов для того, чтобы сделать более точными их значения – это наиболее эффективный  способ оптимизации информационного поиска. Как известно, основная масса пользователей формулирует свои запросы слишком широко, поэтому не получает высокорелевантной выдачи. Вот почему использование тезауруса как части информационно-поисковой системы получает все большую актуальность.

Проведенные эксперименты при поиске в Интернет свидетельствуют, что применение ИПТ, обеспечивающих использование парадигматических  (иерархических и синонимических) отношений между лексическими единицами при формулировании поискового предписания  позволило увеличить точность информационного поиска в  3,3 раза (9) .

Таким образом, следует согласиться с выводом о том, что «идея употребления «естественного языка» в качестве поискового средства является обманом со стороны разработчика системы и наивной иллюзией со стороны ее пользователя» (8, с.26). Проблему точности информационного поиска может решить только тезаурус. Следовательно,   целесообразно не противопоставлять, а развивать идеи ИПТ, используя для этого возросшие возможности современной компьютерной техники и ИКТ.  Необходимо рассматривать ИПТ как лингвистическое средство, которое может повысить и полноту, и точность поиска в условиях Интернет.

Изменение состава, структуры  и функций ИПТ в эпоху Интернет Развитие  ИКТ  и Интернета обусловило ряд новых особенностей, отличающих современные ИПТ от ИПТ «доинтернетовской» эпохи. Традиционные ИПТ разрабатывались для ручного индексирования человеком-индексатором, а объем потоков информации в настоящее время значительно превосходит возможности индексаторов по их тематической обработке. 

Состав  лексики и характер парадигматических отношений в современных автоматизированных тезаурусах, по сравнению с тезаурусами, разработанными для ручного индексирования, характеризуются следующими отличительными  чертам (11):

- расширяется и детализируется система понятий, необходимых для описания предметной области, в силу того, что индексирование и поиск документов осуществляется без участия человека с его знаниями и представлениями. В частности, синонимические ряды понятий должны быть значительно богаче, чем совокуп­ности вариантов дескриптора в тезаурусе для ручного индексирования, поскольку синонимы опи­сывают различные способы выражения данного понятия в тексте. Ряды синонимов включают в себя не только существительные и именные группы, а также прилагательные, глаголы, глагольные группы. Особое место отводится  многословным синонимам. В тезаурусах для ручного индексирования большинство таких вариантов рассматривались как избыточные, поскольку индексаторы могли узнать такие синонимы в тексте благодаря сво­им знаниям языка.

- конкретизируются и детализируются система парадигматических отношений между дескрипторами.

Изменяется и структура современного тезауруса: в нем могут не выделяться дескрипторы, и все лексические единицы ИПТ считаются де­скрипторами. Это новое качество информационно-поисковых тезаурусов нашло отражение в ГОСТ 7.25.2001: «По своему построению ИПТ подразделяются на два типа:

тезаурусы, выделяющие из своих лексических единиц дескрипторы.

тезаурусы, все лексические единицы которых являются дескрипторами» (1, п. 4.1).

ИПТ может способствовать увеличению точности информационного поиска в Интернет ввиду своей особой функции – быть пособием, которое бы помогало ищущему информацию находить пра­вильные дескрипторы для выражения его инфор­мационной потребности (8). В современ­ной ситуации именно точное выражение информа­ционной потребности, наряду с точным отнесением документа к той или иной директории базы данных с помощью тезауруса, могут послужить основой по­вышения точности информационного поиска.

 

3.Области применения  ИПТ

3.1. Области применения  ИПТ   в информационной технологии

Среди областей применения  ИПТ  в информационной технологии как в «доинтернетовскую» эпоху, так и в настоящее время,  можно выделить следующие: 

- терминологический контроль и нормализация лексики конкретной отрасли знания, обеспечение единого и формализованного  представления информации в ИПС;

- явное выражение парадигматических отношений, существующих между лексическими единицами какой-либо отрасли науки или техники;

- автоматизированное индексирование документов и запросов;

- повышение  полноты и точности информационного поиска в полнотекстовых БД на естественном языке;

- уточнение информационных запросов,  составление и оптимизация поисковых предписаний  в Интернете и др. сетях;

-реферирование и аннотирование текстов;

-  редактирование текстов;

- анализ терминологического состава той или иной отрасли знания;

- установление гипертекстовых связей между похожими документами или фрагментами документов, что дает возможность пользователю, найдя один релевантный документ, запросить похожие на него документы;

- автоматическое выделение из текстов документов наиболее содержательных фрагментов, обеспечивающее пользователю возможность  быстро просматривать массивы документов больших объемов.

 

3.2. ИПТ  как лингвистическое средство для решения прикладных задач 

в различных областях знания и деятельности

ИПТ широко используются  для решения прикладных задач целом ряде  областей знания  и практической деятельности. Дадим краткую характеристику  лишь  некоторых из этих областей применения.

Журналистика, издательское дело, образование. Среди  средств проверки правописания, которыми предоставляют  пользователю   современные персональные компьютеры,  широко известны «тезаурусы» – простейшие средства  синтаксической проверки текстов. Причем тезаурусы обычно сведены к  словарям синонимов. Однако многим пользователям, особенно людям,  профессионально занятым подготовкой текстов (журналистам, редакторам, издательским работникам и др.) требуются сведения  не только о синонимах. Часто  пользователю требуется  узнать: как еще можно передать этот смысл другими словами? Какие слова могут сочетаться, а какие – нет?

В институте русского языка АН России предложена идея тезауруса с  расширенным набором функций для системы подготовки текстов (4).  Информационные услуги, предоставляемые тезаурусом:

1.                  Подобрать синоним ( «мозговой штурм- брейншторминг»).

2.                  Найти или проверить антоним («импорт-экспорт»)

3.                  Найти гипероним – слово с более широким значением, выражающее общее, родовое понятие, название класса (множества) предметов (свойств, признаков). Например, слово «дерево» является гиперонимом по отношению к словам  «дуб, ясень, береза».

4.                  Найти  гипонимы – слова, выражающие видовые, нижестоящие понятия. Например, слово «бульдог» - гипоним по отношению к слову  «собака».

5.                   Найти холоним, то есть слово, обозначающее объект, который включает в себя другое. Например, у лестницы есть ступеньки. «Лестница» – холоним для слова «ступенька» Холонимы отражают отношение  «множество – часть множества»: «волк- стая волков», «корова- стадо коров», но «лев – семейство, полчища, прайд».

6.                  Найти мероним – слово, обозначающие объект, являющийся частью для другого Например, слово «монитор» – это мероним для слова «компьютер».

7.                  Найти типовые определения для данного существительного, глагола, прилагательного или наречия, то есть любые устойчиво сочетающиеся слова. 

8.                  Найти типовые определяемые слова для данного определения в виде прилагательного, наречия или  словосочетания.

Всего планируется  предусмотреть в тезаурусе  16 функций.

Назначение такого тезауруса заключается в следующем:

1. В русскоязычной среде:

1.1. для деловых людей, которые составляют контракты, отчеты, письма и желают строго выдерживать  деловой стиль;

1.2. для научно-технических специалистов, которые компонуют, создают или редактируют отчеты, статьи, пособия или книги и желают избежать «суконного» технического языка;

1.3. для начинающих журналистов, желающих освоить богатство русского языка в своих публикациях и проверить нормативность собственного языка  и языка своих коллег;

1.4. для учащихся и студентов, особенно если русский язык  для них не является родным.

2. В иноязычной среде:

2.1. для студентов университетов с русским или славянским отделением;

2.2. для профессиональных переводчиков и учителей русского языка;

2.3. для деловых людей в «ближнем зарубежье», желающих сохранить достаточно высокий уровень грамотности своей русскоязычной переписки.

Психология и психодиагностика.  В   МГУ  им. М.В.Ломоносова для использования в психодиагностике разработан «Тезаурус личностных черт» (12). Тезаурус содержит 350 словарных  статей, построенных по принципу сходства и контраста для 350.Слова  расположены не в алфавитном порядке, а в порядке семантической близости. 

Области применения тезауруса личностных черт:

1)                 в деятельности психологов, педагогов – для создания  психологических портретов не только отдельных профессий, но и социально-типических форм поведения (обобщенный портрет бюрократа,  кинозвезды, энтузиаста и т.п.);

2)                 в деятельности кадровых служб – для подготовки  характеристик сотрудников.

Терминоведение и описание систем знаний. Политематические, отраслевые и проблемные тезаурусы могут быть использованы следующим образом (5-6):  

- как средство описания – инвентаризации существующего уровня знаний в той или отрасли наук, поскольку  каждый термин представляет собой «сгусток знаний», ибо может быть развернут в определение (дефиницию);

- как средство систематизации терминологии, а следовательно, и знаний в определенной отрасли науки. Это обусловлено тем, что первым элементом большинства научных дефиниций терминов является указание на непосредственно вышестоящее понятие. Следовательно, и в тезаурусе, где система  понятий эксплицитна, т.е. явно выражена, иерархия понятий всегда  представлена наглядно;

- как средство стимулирования развития знаний. Тезаурусное представление терминологии, кроме установления единообразного понимания основных понятий, позволяет выявить пробелы (пропуски, лакуны), малоизученные понятия и «точки сгущения» в терминологических и понятийных системах. Это может служить ориентиром в последующих исследованиях, позволяет выявить аналогии подсистем понятий, а также определить тенденции выделения подсистем понятий и рубежи знаний, от которых возможно дальнейшее развитие данной области;

- как средство описания  истории развития спе­циальных знаний в определенной предметной области. Тезаурусное представление терминологии позволяет проводить исследования особенностей развития отраслевых зна­ний, включая количественное исследование вклада отдельных ученых и научных школ в развитие общей теории с учетом как количества, так и новизны (в зависимости от статуса вводимого термина – основной термин или синоним уже существующего наименования по­нятия) и иерархического статуса понятий, вводимых соответствующим термином.

Завершая рассмотрении эволюции  и областей применения ИПТ, следует отметить, что, несмотря на временное снижение интереса разработчиков АИС к ИПТ, в настоящее время, с появлением полнотекстовых баз данных на естественном языке и, в особенности, с развитием сети Интернет, появилась тенденция к новому осмыслению логико-семантической функции тезаурусов в современных АИС, расширению областей применения ИПТ. Опыт показал, что необходим «возврат» к идее использования ИПЯ с контролируемой лексикой, в т.ч. ИПТ, для обеспечения поиска информации, прежде всего, в контролируемой части Интернета – в электронных библиотеках.

 

Список литературы

1.                  ГОСТ 7.25-2001. Тезаурус информационно-поисковый одноязычный. Правила разработки, структура, состав и форма представления. – Взамен ГОСТ 7.25-80; введ. 2002-07-01 / Межгосударственный совет по стандартизации, метрологии и сертификации. – Минск, 2002. – 16 с. МТК 191.

2.                  ГОСТ 7.24-2007 Тезаурус информационно-поисковый многоязычный. Состав, структура и основные требования к построению. – Взамен ГОСТ 7.24-90; введ. 2008-07-01 / Межгосударственный совет по стандартизации, метрологии и сертификации. – М.: Стандартинформ, 2008. – 7 с. (Система стандартов по информации, библиотечному и издательскому делу)

3.                  Белоозеров, В. Н. Опыт разработки словаря с разветвленной системой тезаурусных связей [Текст] / В. Н. Белоозеров, Ю. П. Косарская // НТИ. Сер.2. Информационные процессы и системы – 2001. – №8. – С. 28 – 31.

4.                  Большаков, И.А. Многофункциональный словарь-тезаурус для автоматизированной подготовки русских текстов [Текст] / И. А. Большаков // НТИ. Сер.2. Информационные процессы и системы – 1994. – №1 – С. 11 – 23

5.                  Браславский, П. И. Тезаурус как средство описания систем знаний [Текст] / П. И. Браславский // НТИ. Сер.2. Информационные процессы и системы – 1997. – №11 – С. 16 – 22.

6.                  Гринев, С. В. Некоторые аспекты тезаурусного представления знаний [Текст] / С. В. Гринев, В. М. Лейчик // НТИ. Сер.2. Информационные процессы и системы – 1993. – №10. – С. 1 – 8.

7.                  Жмайло, С. В. К вопросу об определении тезауруса [Текст] / С. В. Жмайло // НТИ. Сер. 1 Организация и методика информационной работы. – 2003. – №12. – С.20 – 25.

8.                  Жмайло, С. В. К разработке современных информационно-поисковых тезаурусов  [Текст] / С. В. Жмайло // НТИ. Сер. 1 Организация и методика информационной работы. –2004. – №1. – С.23 – 31.

9.                  Жмайло, С. В. Об исследовании эффективности поиска научно-технической информации в сети Интернет [Текст] / С. В. Жмайло // НТИ. Сер.2. Информационные процессы и системы – 2006. – №7. – С.21 – 27.

10.              Лукашевич, Н. В. Модификаторы концептуальных отношений в тезаурусе для автоматического индексирования [Текст] / Н.В. Лукашевич, Б. В. Добров // НТИ. Сер.2. Информационные процессы и системы – 2001. – №4. – С. 21 – 28.

11.              Пробст, М. А. Тезаурус и информационный поиск [Текст] / М. А. Пробст // НТИ. Сер. 2. Информационные процессы и системы – 1979. – №9. – С. 14 – 20.

12.              Шмелев, А. Г. Практикум по экспериментальной психосемантике (Тезаурус личностных черт) [Текст] / А. Г. Шмелев. – М.: Изд-во МГУ, 1988. – 208 с.

13.              Якушев, В. П.. ИПТ отраслевой ИПС (методика и технология построения) [Текст] / В. П. Якушев // НТИ. Сер.2. Информационные процессы и системы – 1977. – №7. – С. 9 – 14.