Сайт ДонНТУ          Портал магистров          Факультет ВТИ          Кафедра КСМ
Рубрикация словосочетаний в базах данных по элементам толкования сочетаемых слов
       И. А. Большаков

                                                                                            http://www.viniti.ru

Предложен метод классификации и рубрикации определительных словосочетаний в больших лингвистических базах данных. Рубрикация основана на элементах толкования слов, входящих в словосочетания. Показана связь возникающих рубрик с тезаурусам типа Роже. Продемонстрирована универсальность возникающих рубрик, как внутри одного языка, так и между разными языками.


ВВЕДЕНИЕ


В последние годы все больше внимания привлекают базы данных по словосочетаниям в естественных языках. Такие базы и печатные словари создавались, по меньшей мере, для английского [1], итальянского [2] и русского [3] языков. Эти БД могут иметь два важных приложения: 1) как справочное средство для авторов, готовящих тексты за компьютером, 2) как средство фильтрации вариантов анализа и синтеза в системах автоматической обработки текстов на естественном языке. Такое понимание задач использования словосочетаний уже сложилось, и для их характеризации даже появился английский термин word attraction (притяжение слов).

Нам пока известна лишь одна экспериментальная справочная система для подготовки текстов, опирающаяся на БД словосочетаний. Эта система под названием КроссЛексика создана авторами настоящей статьи [3, 4]. Ее БД и используется в качестве базового корпуса для целей данной работы.

Система КроссЛексика делится на подсистемы, описывающие разные классы взаимосвязей между словами. Подсистема под названием Имеет_Атрибутами при запросе в виде ключевого слова любой части речи выдает те словосочетания, в которых ключевое слово снабжено синтаксически подчиненным словом или неразрывным словосочетанием. При ключевом слове – существительном – соотносительные слова являются определяющими прилагательными или атрибутивными конструкциями, например, для ключа человек выдается: агрессивный, аккуратный, беззаботный, безалаберный, неприятный, румяный, с большой буквы, с вывихом, приятный, яркий, ...). При адъективном, глагольном или наречном ключе соотносительные слова являются наречиями или наречными оборотами. В данной работе мы интересуемся лишь ключами – существительными, которых в этой подсистеме большинство.

Все последние годы БД рассматриваемой системы неуклонно росла. Для ее пополнения использовались многочисленные и постоянно новые источники – печатные справочники, газетные статьи, научно-популярные тексты, научные и технические публикации по разным отраслям, реклама и пр. Число охарактеризованных существительных постоянно увеличивалось, как и среднее число определений при каждом из них (на ноябрь 1999 г. это среднее близко к 11). Будем называть ниже количественную меру способности отдельных слов образовывать словосочетания данного типа их продуктивностью.

Заметна существенная неравномерность продуктивности отдельных существительных. Неравномерность многих лингвистических распределений давно известна и поэтому не явилась неожиданностью на данном материале. Наиболее продуктивные существительные характеризуются несколькими сотнями определений, в то время как при многих иных определения оказались малочисленными. В итоге словосочетания для существительных, образующих первую сотню по продуктивности, содержат не менее 95 единиц, первые две сотни – не менее 72, первые три сотни – не менее 60. Список определений для отдельного ключа подчас не умещается на экране. Подоирать в нем

нужные определения по смыслу стоит все большего труда, и назрела необходимость облегчить такой подбор автоматическими средствами.

В настоящей работе выдвигается и обосновывается идея членить и рубрицировать списки определительных словосочетаний на разделы, привязанные к элементам толкования определяющих слов. Рубрикация совершается для каждого ключевого слова независимо. В первую очередь она необходима для высокопродуктивных существительных, но, в принципе, была бы полезна и для всех прочих (сейчас в системе 12,1 тыс. существительных, снабженных определениями).

Возникающая внутри списков рубрикация подобна той, которая характерна для идеографических словарей – тезаурусов [5]. Однако в тезаурусах тематические рубрики можно называть, пользуясь научными терминами и не встречающимися в обычной речи, научными конструктами. Мы же, по мере возможности, стремимся подбирать заголовки разделов в виде обычных слов или словосочетаний и из таких заголовков образовывать небольшие и естественные иерархии. Наше намерение – свести к минимуму число разных элементов этих иерархий и сохранить непротиворечивость и понятность вводимых рубрик для образованного пол ьзовател я-нел и н гвиста.

Далее изложение строится индуктивно. Берется несколько существительных из числа наиболее продуктивных, и выясняется, в каких конкретно рубриках нуждаются их определительные словосочетания. Рассматриваются отдаленные по семантике существительные, чтобы выяснить максимальное количество типов нужных подзаголовков и построенных из них иерархических рубрикаций. При этом данная статья не претендует на глубокое семантическое исследование рассматриваемых слов. Важно, что сам корпус словосочетаний подсказывает конкретные классификационные решения.

На основе опыта создания рубрикаций делается предварительный вывод, сопровождаемый многими оговорками. Конкретно, выдвигаемая концепция рубрикации признается осуществимой и полезной, но она весьма трудоемка и имеет существенные ограничения, похоже, принципиально не устранимые. Показывается также, что выбираемые для определений рубрики оказываются хорошим средством портретирования определяемых существительных. Под портретированием понимается выявление ситуаций, которые для этих существительных являются типовыми, а также типовых ролей в ситуациях и отдельных свойств этих ролей.

Переходя к конкретным высокопродуктивным существительным, заметим, что их единственное и множественное число рассматриваются в нашей БД раздельно. Это объясняется тем, что разные числа могут иметь разный набор определений [б], в результате чего и показатели продуктивности у них могут быть различны.

КЛЮЧ человек

Ключ человек, получивший в нашей БД ранг 1 по продуктивности (около 800 определительных словосочетаний), в семантическом отношении представляет собой аргумент большого количества разнообразных предикатов, обычно оценочных. Безошибочно классифицировать эти предикаты едва ли возможно, и ниже предлагается лишь некое приближение, недостатки которого остаются заметными, несмотря на все наши усилия по их устранению.

На верхнем уровне рубрикации все определения были разделены на общественные черты, черты поведения, нравственные, умственные и внешние (физические) черты человека. Каждая из перечисленных групп разделена на более дробные рубрики, в определенной мере пересекающиеся. Результаты вместе с примерами приводятся ниже.

Общественные черты:

• Важность (социальная значимость): бесполезный, большой, великий, влиятельный, дорогой,замечательный, крупный, лишний, любимый,маленький, незаметный, никудышный, ничтожный, нужный, полезный, простой, пустой, родной, с большой буквы, средний, уважаемый, ...

• Известность: близкий, знакомый, знаменитый,известный, незнакомый, новый, свой, таинственный, ...

• Исключительность: выдающийся, замечательный, интересный, исключительный, любопытный, неинтересный, необыкновенный,необычный, нормальный, обычный, особенный,своеобразный, средний, ...

• Обеспеченность: бедный, богатый, зажиточный, из среднего класса, небогатый, нищий, обеспеченный, сверхбогатый, состоятельный, ...

• Семейность: вдовый, одинокий, разведенный,семейный, холостой, ...

• Социальный класс: военный, городской, гражданский, рабочий, сельский, ...

Черты поведения:

• Общительность: болтливый, занудный, приветливый, разговорчивый, нахальный, откровенный, открытый, шумный, замкнутый, застенчивый, молчаливый, робкий, сдержанный, ...

• Воспитанность: бестактный, вежливый, внимательный, грубый, дерзкий, дикий, культурный, любезный, невежливый, невоспитанный,некультурный, тактичный, ...

• Инициативность: активный, безынициативный, изобретательный, инициативный, пассивный, предприимчивый, творческий, ...

• Практичность: деловой, беспомощный, бывалый, опытный, практический, практичный,расчетливый, трезвый, хозяйственный, экономный, непрактичный, расточительный, ...

• Темперамент: активный, беспокойный, бесстрастный, бесчувственный, бодрый, бойкий,влюбчивый, восторженный, впечатлительный,вспыльчивый, выдержанный, горячий, деятельный, живой, задумчивый, инертный, истеричный, капризный, медлительный, ...

• Характер: безвольный, бесстрашный, властный, властолюбивый, волевой, высокомерный, гордый, деспотичный, демократичный, доверчивый, железный, заносчивый, ленивый, легкий, легкоранимый, мечтательный, ...

Нравственные черты:

• Добросовестность: аккуратный, беззаботный, безответственный, беспечный, добросовестный, исполнительный, неаккуратный, небрежный, недобросовестный, необязательный, несерьезный, обязательный, сознательный, ...

• Доброта: агрессивный, безжалостный, бескорыстный, беспощадный, бессердечный, гостеприимный, добродушный, доброжелательный, добрый, дружелюбный, жадный, жесткий, жестокий, заботливый, золотой, миролюбивый, ...

• Нравственность: безнравственный, безыдейный, беспринципный, бесстыдный, благородный, великодушный, грязный, идейный, искренний, испорченный, коварный, лживый, лукавый,мелкий, мелочный, мстительный, непорядочный, ...

Умственные черты:

• Образованность: грамотный, интеллигентный, компетентный, невежественный, мегра-исоткый, отсталый, передовой, прогрессивный,развитой, темный, ...

Одаренность: гениальный, даровитый, одаренный, способный, бездарный, бесталанный, ...

• Удачливость: несчастный, неудачливый,счастливый, удачливый, ...

• Ум в целом: беспристрастный, благоразумный,вдумчивый, памятливый, здравомыслящий, мудрый, любознательный, наблюдательный, неглупый, остроумный, пошлый, разумный, сообразительный, толковый, умный, хитрый, ...

• Умение: ловкий, неловкий, неумелый, умелый,сноровистый, ...

Внешние черты:

• Возраст: в годах, в цветущем возрасте, взрослый, молодой, немолодой, пожилой, среднеговозраста, старый, ...

• Волосы: бородатый, волосатый, кудрявый,лысый, плешивый, русоволосый, светловолосый, седой, темноволосый, усатый, черноволосый, ...

• Глаза: глазастый, голубоглазый, кареглазый,сероглазый, синеглазый, темноглазый, черноглазый, ...

• Здоровье: болезненный, больной, здоровый, цветущего вида, хилый, ...

• Кожа: бледный, загорелый, краснолицый, розовощекий, румяный, смуглый, ...

• Настроение: веселый, довольный, радостный,грустный, печальный, недовольный, разгневанный, расстроенный, сумрачный, мрачный, невеселый, угрюмый, хмурый, ...

• Одежда: бедно одетый, голый, легко одетый,плохо одетый, разодетый, хорошо одетый, ...

• Внешняя привлекательность: интересный,красивый, милый, некрасивый, неинтересный, обаятельный, отталкивающий, приятный, противный, симпатичный, славный, ...

• Размер: крупный, мелкий, широкоплечий, узкоплечий, ...

• Рост: высокий, высокого роста, коренастый,невысокий, низенький, низкого роста, приземистый, рослый, среднего роста, ...

• Сила: крепкий, могучий, мускулистый, сильный, слабый, хилый, ■ ■ ■

• Сложение: атлетически сложенный, длинноногий, длинношеий, коротконогий, кривоногий,статный, стройный, сутулый, хорошо сложенный, хрупкий, ...

• Упитанность: дородный, жирный, корпулентный, костлявый, плотный, полный, средней упитанности, сухопарый, сытый, толстый, тощий, тучный, упитанный, худой, ...

• Физический недостаток: близорукий, глухой,косой, немой, раненый, слепой, смешной, хромой, ...

Приведенные рубрики покрывают более 95% определительных словосочетаний для человек, но не все. Из непокрытых можно указать:

• определения времени и места (локально-временных рамок) существования определяемого объекта: древний, советский, современный,средневековый, ...

• определения кванторного, детерминирующего и указательного типа: всякий, другой,каждый, конкретный, любой, отдельный, указанный, этот, первый, второй, ... Этот наборневелик и замкнут. Он характеризует средствавыделения ключевого слова в речи. Придуматьдля этой группы обыденное название не удается.

• определения, формирующие фраземы типа снежный человек. Их смысл не сводится к сочетанию смыслов сочетающихся слов. В данном случае фразема задает не человека, а мифическую обезьяну. При других ключах фразем может быть заметно больше. Наконец, остается неясным, куда в рамках даже расширенной рубрикации поместить мертвый, полуживой, свободный, крепостной, ... Отведение под каждую малую группу определений отдельной рубрики делает рубрикацию слишком неравномерной и потому приходится относить "шлейф" к единой рубрике Разное, что эквивалентно введению некоторой "свалки" для всего нестандартного.

КЛЮЧИ покрытие и покрытия

Ключи покрытие и покрытия получили в нашей базе соответственно ранги 2 и 3. При принятом упрощенном делении словоформ покрытие включает смысл как результата, так и процесса. Второй смысл в части определений мало продуктивен, но именно из-за него словоформа единственного числа опередила по рангу форму множественного числа, у которой процессное толкование достаточно редко ("... в результате нескольких покрытий..."). Мы исключаем также из рассмотрения покрытие в финансовом смысле (рублевое покрытие).

С точки зрения лексической семантики [7], покрытие как результат является значением лексической функции Sres от предиката покрывать. У этого предиката четыре аргумента: субъект, объект, средство и инструмент. В нашей БД релевантные словосочетания оказались представленными столь богато из-за широкого применения этого термина в технике. Он является не только термином сам по себе, но с помощью определений способен порождать более узкие термины.

В техническом применении термина покрытие набор обычных актантов оказался сокращенным за счет субъекта, но получил дополнительные элементы за счет сирконстантов. Добавились цель (предназначение) покрытия и набор некоторых сопутствующих качеств покрытого изделия. Последние неспециалисту иногда трудно отличить от целевых качеств.

Итак, набор атрибутов у покрытие эмпирически поделен на следующие группы: Объект покрытия (что покрывают?): автомобильное, аэродромное, дорожное, мостовое, напольное, палубное, чердачное, ... Материал покрытия (чем покрывают?): алмазное, алюминиевое, асфальтовое, битумное, водное, ворсистое, гравийное, графитовое, золотое, каучуковое, керамическое, ...

Способ покрытия (каким способом покрывают?): анодированное, быстросохнущее, вакуумное, обжиговое, напыленное, ...

Цель покрытия (зачем покрывают?): антиадгезивное, антибактериальное, антибликовое, антигрибковое, армирующее, атмосферостойкое, взрывобезопасное, герметизирующее, декоративное, защитное, защитно-декоративное, специальное, ...

Внешнее или конструктивное свойство покрытия (какое свойство сопутствует покрытию?): бесшовное, влагочувствителъное, блестящее, временное, водонерастворимое, вспучивающееся, гибкое, гладкое, гофрированное, неровное, нестойкое, постоянное, прочное, сплошное, стандартное, стойкое, съемное, унифицированное, устойчивое, эффективное, яркое ...

Особняком опять остались кванторные, детерминирующие и указательные определения: любое, любые, каждое, все, отдельные, другое, указанное, это, ...

КЛЮЧ средах

Ключ средах 'окружение' получил ранг 4. Эта лексема используется, во-первых, в качестве обычного слова, характеризуя окружение человека, созданное другими людьми. Во-вторых, она является высокоупотребительным и продуктивным научно-техническим термином для окружения из неживых объектов, и в этом качестве его легко рубрициро-вать более дробно. В соответствии с этим имеем следующие группы определений для средах ■ Живые существа: артистическая, архитектурная, военная, враждебная, высокообразованная, гнилая, городская, затхлая, интеллигентная, культурная, мещанская, научная, рабочая, языковая, ...

Неживые объекты:

• Состав: аммиачная, аргоновая, атмосферная,атомная, аэрозольная, бактериологическая,безводная, безмасляная, белковая, бинарная,биологическая, водная, водно-органическая,водно-спиртовая, водяная, воздушная, воздушно-водяная, кислая, щелочная, ...

• Основное свойство: абразивная, агрессивная, активная, взрыв о без опасная, взрывоопасная, влажная, высококонцентрированная, ...

• Структура: аморфная, анизотропная, гетерогенная, гетерофазная, гомогенная, градиентная, двухмерная, замкнутая, неоднородная, однородная, ...

• Сфера действия: внешняя, внутренняя, внутриклеточная, географическая, геологическая,неограниченная, ...

КЛЮЧ видх

Ключ видх 'внешность' получил ранг 5. Соответствующие определения четко делятся на верхнем уровне на две рубрики, относящихся к живому существу (как правило, к человеку) и к неживым объектам. Пересечение этих групп невелико: внешний, городской, деревенский, жалкий, красивый, мрачный, ...

Дальнейшая классификация определений для живых существ не столь очевидна. Ниже они ру-брицированы, исходя из оценки внешних данных наблюдаемого существа (эффекта, производимого его видом), эмоционального и физического (точнее – физиологического) состояния этого существа. Важно отметить, что оценки относятся к определяемому лицу, а оценщиком всегда выступает внешний наблюдатель. Определения для неживых объектов оказались по совокупности значительно менее многочисленны, и мы оставили их без дальнейшей рубрикации.

Итак, предлагается следующая рубрикация определений для вид\.

Живые существа:

• Внешний эффект: ангельский, аристократический, безобразный, благородный, блестящий, бродяжий, важный, величественный, внушительный, вороватый, впечатляющий, вульгарный, гадкий, глуповатый, глупый, дегенеративный, достойный, дурацкий, жалкий, жуликоватый, затрапезный, значительный, идиотский, импозантный, интеллигентный, командирский, комичный, ...

• Эмоциональное состояние: безразличный,беспокойный, беспомощный, благоразумный,благодушный, блаженный, бойкий, бравый,вдумчивый, веселенький, веселый, виноватый,воинственный, вражбедный, вызывающий, гадливый, глубокомысленный, горделивый, гордый,грозный, грустный, деловой, ...

• Физиологическое состояние: анемичный, болезненный, больной, возбужденный, вялый, заспанный, здоровый, изможденный, измученный,испитой, истасканный, истерзанный, молодой,моложавый, нездоровый, ...

Неживые объекты: архивированный, внешний, внутренний, выгодный, главный, городской, готовый, декоративный, деревенский, дивный, дикий, дорогой, достойный, естественный, жалкий, живописный, завуалированный, запущенный, засушенный, затейливый, изолированный, изумительный, искаженный, сжатый, ...

Заметим, что определения для неживых объектов пересекаются с таковыми для живых существ только в части производимого внешнего эффекта, поскольку неживые объекты нельзя оценивать по их эмоциональному и физиологическому состоянию. Что же касается внешнего эффекта и эмоционального состояния, они могут быть подвергнуты более дробной рубрикации с позиций, определенных ранее для человек.

КЛЮЧ контроль

Ключ контроль получил ранг 6. С точки зрения лексической семантики, контроль является именем предиката со следующим набором актантов: субъект, осуществляющий контроль, контролируемый объект (например, контроль входящих) и параметр, по которой ведется контроль (например, контроль на допинг). В нашей базе контроль получил столь высокий ранг из-за широкой распространенности этого термина в технике. Применительно к определениям термина набор его актантов несколько изменился и расширился, причем именно расширенный набор задает рубрики атрибутов: Субъект контроля (кто или что осуществляет контроль?): авторский, ведомственный, врачебный, государственный, демократический, дизайнерский, диспетчерский, инспекционный, народный, рабочий, ...

Объект контроля (и одновременно – какой параметр контролируется?): бактериологический, билетный, валютный, ветеринарно-санитарный, гормональный, допинговый, допусковый, ... Цель контроля (для достижения чего контролируется?): антидопинговый, антимонопольный. Данная группа оказалось очень немногочисленной и поэтому, быть может, ее следует объединить с предыдущей. Обращаем внимание, что допинговый и антидопинговый контроль – это одно и то же, как впрочем и ряд других пар словосочетаний в русском языке (пожарная и противопожарная безопасность.

Способ контроля (чем или каким способом контролируется?): автоматизированный, автоматический, аналитический, аппаратный, банковский, бесконтактный, биологический, вибрационный, визуальный, выборочный, групповой, дискретный, дистанционный, инструментальный, по мелочам, поканальный, ручной, ...

Качество контроля (как или с каким качеством контролируется?): аккуратный, активный, бдительный, внимательный, всесторонний, высокопроизводительный, действенный, жесткий, неослабный, постоянный, ...

Место контроля (где контролируется?): внутриведомственный, внутризаводской, входной, выходной, наземный, пограничный, ...

КЛЮЧ предприятия

Ключ предприятия получил ранг 9. Обязательной валентностью этой лексемы как обычного предиката является та продукция, которую предприятие выпускает или разрабатывает. В научно-технических и экономических текстах это слово высокой частотности. Анализ его определений позволяет уточнить предполагаемые валентности этой лексемы в терминологическом ее понимании.

Предлагается следующая рубрикация определений для предприятия:

Продукция (назначение): авиаремонтные, авиатранспортные, авиационные, автомобильные, авторемонтные, автотранспортные, агропромышленные, алюминиевые, вагоноремонтные, конверсионные, межотраслевые, многоотраслевые, ... (более 80% всех имеющихся определений при этом ключе)

Этап производственно-потребительского цикла продукции: лизинговые, научно-производственные, оптовые, опытные, проектные, производственные, разрабатывающие, сборочные, эксплуатационные, ...

Владелец: акционированные, арендные, государственно-акционерные, государственные, единоличные, зависимые, зарубежные, иностранные, кооперативные, местные, муниципальные, национализированные, отечественные, подпольные, приватизированные, ...

Размеры: базовые, большие, градообразующие, карликовые, крупнейшие, крупные, малые, мелкие, мощные, небольшие, огромные, ... Взаимосвязь с другими предприятиями: встроенные, головные, дочерние, интегрированные, подчиненные, ...

ГОТОВНОСТЬ функционировать: банкнотные, вводимые, действующие, ликвидируемые, новые, проектируемые, ...

Эффективность: безнадежные, безубыточные, выгодные, доходные, нерентабельные, неэффективные, низкорентабельные, образцово-показательные, отсталые, отстающие, передовые, привлекательные, прибыльные, рентабельные, ...

Приведенная рубрикация достаточно понятна, но даже после отдельного учета кванторных слоев (все, всевозможные, любые, многие, многочисленные, различные,... ) остается несколько определений, не вошедших в указанные рубрики – автоматизированные, опасные, фиктивные, ... Они характеризуют те разнообразные особенности предприятий (технологические, экологические, правовые и пр.), которые довольно редко фигурируют в текстах. Пока они не сформировали представительных групп, их приходится помещать в рубрику Разное.

КЛЮЧИ поступки и поступок

Ключи поступок и поступки имеют ранги 22 и 28. С позиций лексической семантики, поступок является именем предиката с абстрактным значением, без четко выявленного набора актантов (за исключением субъекта, совершающего поступок).

Применительно к набору определений этот предикат оказался аргументом других, оценочных предикатов. Один из них можно определить как соответствие поступка нормам человеческого общежития и разумного поведения. Другой оценочный предикат имеет значениями характерные черты способа, каким поступок был совершен.

Внутри подгруппы определений, соответствующих (или не соответствующих) указанным нормам, возможно дополнительное (и весьма приближенное) деление по типам выполняемых или нарушаемых норм, а именно, норм нравственности и законности; обыденного порядка жизни и разумного поведения. Итак, рубрикация выбрана здесь следующей.

Соответствие поступка нормам

• нравственности и законности: аморальный,беззаконный, безнравственный, бескорыстный,беспринципный, бессердечный, бесстыдный, бесчеловечный, бесчестный, благородный, возмутительный, героический, гуманный, добрый, достойный, жестокий, злой, лицемерный, коварный, мерзкий, красивый, моральный, мужественный, наказуемый,...

• обыденного порядка жизни: бестактный,бесцеремонный, джентльменский, дипломатический, заурядный, естественный, мальчишеский, неджентльменский, необъяснимый, нетактичный, обыденный, тактичный,...

• разумного поведения: благоразумный, глупый,дикий, дурацкий, искренний, логичный, намеренный, легкомысленный, нелогичный, необдуманный, оправданный, разумный, серьезный,...

Способ выполнения поступка: взрывной, впечатляющий, запоздалый, импульсивный, убедительный, яркий,...

Особняком опять стоят кванторный определения.

КЛЮЧИ цены и цена

Ключи цена и цены получили в нашей БД не столь высокие ранги (цена – 52, цены – 60), но ока-, зались примечательными с позиций рациональной рубрикации.

Величина (уровень) цен

• для покупателя данного товара: баснословные,безбожные, безумные, божеские, вздутые, высокие, дискриминационные, доступные, крайние,недоступные, низкие, ничтожные, подходящие,сумасшедшие, сходные,...

• для продавца данного товара: конкурентоспособные, крайние, наилучшие, поощрительные, реальные, смешные, справедливые, сходные,хорошие,...

• для стороннего наблюдателя: высокие, демпинговые, дискриминационные, конкурентоспособные, низкие, справедливые, средние, хорошие,...

Сфера действия цен: внешнеторговые, внутрифирменные, договорные, заводские, зональные, закупочные, импортные, картельные, коммерческие, легальные, мировые, монопольные, нетто, оптовые, отпускные, подпольные, прейскурантные, расчетные, розничные, рыночные, сезонные, трансфертные,...

Переменность цен в пределах их локально-временных рамок: единые, падающие, плавающие, повышенные, пониженные, постоянные, растущие, свободные, сниженные, сопоставимые, стабильные, твердые, устойчивые, фиксированные,...

Хотя совокупности определений уровня цен у трех выделенных типов наблюдателей сильно перекрываются, объединять эти группы едва ли целесообразно.

Действительно, только сторонний наблюдатель, например, может называть данные цены демпинговыми, в то время покупатель назвал бы их же низкими или подходящими, а продавец – справедливыми, льготными или реальными. Для покупателя и продавца уровень, который разделяет низкие и высокие цены, может быть совершенно различным. Недаром есть два разных понятия – цена покупателя и цена продавца.


УНИВЕРСАЛИЗМ РУБРИК


Хотя детально обследованы всего восемь лексем (11 словоформ), это очень продуктивные существительные, и обследуемая БД содержит для них в общей сложности около четырех тысяч определительных словосочетаний. Покажем, что рубрики, использованные выше для относительно небольшого числа слов, пригодны и для иных слов, входящих в лидирующую по производительности группу.

• Поскольку люди являются множественнымчислом от человек, а высокоранговые слова женщина/женщины, ребенок/ребята, мальчик/мальчики, девочка/девочки отличаются отчеловек лишь признаком пола и/или возраста,все рубрики для человек непосредственно переносятся и на все эти словоформы.

• Для ключей показатель и показатели (ранги 7 и 8) нетрудно определить три рубрики,как и у покрытие, практически являющиесясемантическими валентностями, а именно: оцениваемый показателем параметр [агробиологический, акустический, анатомический, антифрикционный, аэродинамический,... ),оценкаве-личины параметра (беспрецедентный, внушительный, высокий, низкий,... ) и способ этойоценки (абсолютный, агрегатный, аналитический, базовый, важнейший, выходной, главный,интегральный,... ).

• Для ключа е-зглядх 'ориентация зрения' (ранг 11)в качестве рубрик легко обнаруживается выражаемая с помощью взгляда эмоция (безжизненный, безмятежный, безразличный, благодарный,блудливый, вожделенный,... ) или способ, которым этот взгляд бросается (бегающий, блуждающий, быстрый, внимательный, живой, застывший, искоса,... ). Рубрикация здесь похожа натаковую у вид\, особенно в части эмоций, где исами определения, в основном, те же самые.

Как видим, уже введенные рубрики обладают определенной внутриязыковой универсальностью. При этом мы далеки от мысли считать эти рубрики достаточными – утверждается лишь их необходимость.

Поскольку идет речь о семантике, нетрудно показать применимость указанных рубрик и для других естественных языков. Применим, например, рубрикацию, принятую для цена/цены, к соответствующим английским аналогам price/prices и заполним соответствующие группы английскими определениями. В отличие от русского языка, где большинство определений являются прилагательными, в английском они часто выражаются существительными в препозиции к определяемому слову. Для нас это обстоятельство не существенно.

Value

• for buyer: attractive, bargain, dear, exorbitant,attractive, fabulous, fair, fancy, heavy, outrageous,outside, prohibitive, ransom, reasonable, smart,soaring, staggering, steep, tall, ungunreasonable...

• for seller, asked, bed-rock, best, bottom, competitive,fair, give-away, good, honest, handsome, nominal,popular, premium...

• for detached observer: buying, discriminative, dump,extra high, good round, great, high, low, moderate,pegged...

Scope: administered, agreed, all-in, all-inclusive, asking, base, blanket, buying, carry-over, cash, ceiling, close, consumer, contract, cost, current, going, export, import, inclusive, leading, list, marked, market, net, original, prepublication, present, purchase, put-up, redemption, resale, reserve, retail, sale, scarcity, selling, set, short, spot, start, target, tender, trade, trigger, unit, upset, volume, wholesale... Variability within the scope: determined, dropping, growing, fixed, flat, inflated, oscillating, pegged, reduced, standard, stiff...

Итак, предложенные рубрики достаточно универсальны как внутри одного языка, так и при переходе с одного языка на другой.


СОСТАВЛЯЮТ ЛИ РУБРИКИ ЕДИНУЮ СИСТЕМУ?


Зададимся теперь вопросом, чем являются введенные рубрики с позиций семантики.

На верхнем уровне классификации все обследованные существительные делятся на два крупных семантических класса: живые существа (в подавляющем числе случаев – люди) и неживые сущности, которые могут являться названиями предикатов (в их числе – организаций) или термов (артефактов, изделий).

Живые существа предлагается характеризовать чертами общественного, поведенческого, нравственного, умственного и физического плана. Для них необходимо ввести в рассмотрение нравственность и законность, обыденный порядок, поведение. У них существует текущее эмоциональное и физическое состояние, точка зрения (мнение) и многое другое.

Для неживых сущностей названия рубрик имеют следующие альтернативы:

• Активные семантические валентности данногопредикатного существительного, как то: субъект (агенс), объект (пациенс), владелец, продукция, цель, способ функционирования, используемый материал, используемое орудие, структура, сфера действия (во времени и пространстве). Вообще говоря, ряд этих ролей являются, с точки зрения стандартной семантики, сирконстантами. Но в работе [7] предложено называть типовые сир-константы распространенных технических терминов их фреймовыми актантами и обращаться с ними в процессе лингвистической обработки точно так же, как с обычными семантическими валентностями. Такая точка зрения представляется вполне адекватной.

• Пассивные семантические валентности, как то:размер, эффективность достижения цели и готовность к функционированию – для организаций,основное свойство и иные важные свойства – дляизделий, и пр.

• Пассивная ковалентность, которая может бытьпроиллюстрирована примером связи цены с покупателем и продавцом: все три эти сущностисоподчинены предикату продажа, а наборы определений для уровня цен, как мы видели, существенно зависят от мнений двух других актантовситуации, а также стороннего наблюдателя. Последний прямо в ситуацию продажи не входит, ноявляется потенциальным покупателем или продавцом и в качестве такового свои определения идает.

Измеримые параметры характеризуются качественными оценками их величины. У многих сущностей имеется сфера действия во времени и пространстве, а переменность величин в пределах этой сферы может тоже оцениваться словесно.

Параметры, имеющие числовую меру или всего два возможных значения, могут быть расположены на оси – шкале, где точками являются отдельные определения. Например, определения, характеризующие материальную Обеспеченность человека, можно с некоторым приближением упорядочить как нищий, бедный, небогатый, из среднего класса, зажиточный, обеспеченный, состоятельный, богатый, сверхбогатый. Чаще всего шкала названа именем одного, немаркированного, значения характеризуемого свойства, например, важность, известность, исключительность, обеспеченность, общительность, в то время как среди значений в этих группах фигурируют и соответствующие антомические понятия: бесполезный, неизвестный, средний, нищий, замкнутый соответственно.

Именно рубрики, заданные на шкалах, должны содержать введенные И. Мельчуком лексические функции Magn 'большой, интенсивный', Bon 'хороший' и Ver 'какой должен быть', а также их антонимы AntiMagn, AntiBon, AntiVer [8]. Но обследуемые существительные являются настолько многосторонними сущностями, что строго выделить эти оси для любого из них необычайно трудно или просто невозможно, они как бы теряются среди прочих. Действительно, какие именно свойства у слова человек (как у обычного слова) или у термина покрытие следует брать для оценки Magn, Bon и Ver, остается неясным. Быть может, Ver (покрытие) =эффективный, но подобные прилагательные практически всегда присоединяются к существительным свободно, причем эффективный оказывается значением Ver для множества иных изделий. В то же время лексические функции, по определению, имеют разные значения на области своего задания и их выражение является связанным.

Итак, стандартные лексические функции для обследуемых существительных неспецифичны и тонут среди множества иных "осей" оценки. Однако это не значит, что никакие понятия, близкие к лексическим функциям, не интересны для продуктивных существительных. Возьмем, например, рубрику Важность в смысле социального статуса. Для слова человек это скорее всего крупный, для гость – высокий, для чиновник – крупный или высокопоставленный, для предприятие – элитное. Можно, конечно, усмотреть здесь особый вид функции Magn или Ver, но этим не исключается необходимость заново определить и изучить эту функцию на достаточно большом материале.

Легко видеть, что введенные нами парциальные рубрикации не вкладываются в схему связей внутри типового научно-технического тезауруса. Действительно, там в основном фигурируют артефакты (технические изделия), а главная семантическая связь между статьями – родо-видовая. Выявленные же нами связи значительно богаче.

Зато все эти рубрики, и притом в весьма близких формулировках, можно встретить в наиболее развитых тезаурсах естественных языков, среди которых в первую очередь назовем тезаурус П. Роже [5]. Ему уже около 150 лет, но он остается самым популярным для английского языка, поскольку многократно пополнялся и модернизировался. Иерархия статей и понятий здесь весьма несовершенна, поскольку совокупность идей, которыми мысленно оперирует человек, нельзя связать лишь родо-видовыми связями. Действительно, не ясно, как включить в общую иерархию совокупность абстракций, характеризующих такие семантические роли, как субъект, объект, цель, способ и т. д.

Наши рубрики подбирались по принципу понятности предполагаемому пользователю, и поэтому для сформулированных семантических целей брались слова обычного языка, со всеми их недостатками, а именно с нечетким определением, синонимией и омонимией. В прикладной системе приходится допустить те же недостатки и для совокупности заголовков.

Например, при выборе названия Нравственные черты внутри рубрикации, характеризующей человека, неизбежны колебания внутри синонимичных вариантов: Нравственный облик, Моральные черты или Моральный облик. Это означает, что такая (или еще более широкая) группа синонимов с доминантой в виде Нравственные черты должна храниться в самой системе, с тем чтобы пользователь мог легко найти соответствующую рубрику с заголовком – доминантой, – отправляясь от любого пришедшего ему в голову синонимического варианта.

От пользователя-нелингвиста едва ли можно требовать подготовки по семантике или по принципам классификации. Он может не знать научно сконструированных терминов и не чувствовать, какой термин из двух предъявленных является более широким. Это означает, что нужно хранить не только синонимичные группы заголовков, но и парциальные иерархии из этих групп.


НЕДОСТАТКИ РУБРИКАЦИИ


Как следует из проведенного анализа, идея разбивать совокупность определений для любого существительного в БД словосочетаний на подгруппы, снабжая каждую из них подзаголовком, мотивированным общим для подгруппы семантическим элементом, является принципиально осуществимой. Однако выявилось и множество недостатков развитой идеи и соответствующих рубрикаций.

• Создание полной системы рубрикации для определений едва ли проще, чем тезауруса естественного языка, подобного тезаурусу П. Роже. Но длянескольких сот наиболее продуктивных (в смысле словосочетаний) существительных такая задача явно выполнима.

• Рубрикацию определений для разных существительных приходится проводить по совершенноразным основаниям. Например, у одного существительного это актанты, а у другого – классысвойств.

• Сделать соподчиненные подрубрики совершеннонезависимыми обычно не удается. Характернымпримером служат рубрики Характер и Темперамент у ключа человек. Не ясно, являются лиони пересекающимися синонимами, двумя разными подрубриками единой рубрики (как это принято нами) или подрубрикам двух разных рубрик Умственные черты и Физические черты.Удовлетворительным критерием деления по рубрикам могла бы считаться допустимость одновременного употребления при характеризуемомключе прилагательных, относимых к разным рубрикам, но этот критерий строго и полностью реализовать не удается.

• Даже тогда, когда рубрики представляются достаточно независимыми, группы формирующихих определений могут пересекаться, т. е. одно ито же слово должно быть помещено в две илинесколько рубрик сразу. Например, определениявысокие и низкие при ценах могут с равным успехом использовать покупатель, продавец и сторонний наблюдатель.

• Лишь для некоторых существительных удается получить одноуровневую (плоскую) рубрикацию, см. контроль и покрытия, для большинстваже слов разумная рубрикация содержит два иболее уровня. Эта переменность представляетсянеустранимой, поскольку сильно зависит от конкретного существительного.

• Не всем рубрикам удается присвоить "человечески понятные" имена. Например, для квантор-ных, детерминирующих и порядковых прилагательных подобрать объемлющий бытовой заголовок так и не удалось.

• Изредка встречаются определения, не вмещающиеся вообще ни в какую рациональную рубрику.Можно только создавать для каждого из них отдельную рубрику или помещать всех вместе в рубрику Разное (Прочее). Однако наличие в классификации рубрики Разное считается неудачей.

• Поиск, осуществляемый внутри объединеннойиерархии рубрик, должен допускать сининимию,ибо выбрать уникальное название для каждой отдельно взятой рубрики практически не удается.

Как видим, устранить недостатки предложенной рубрикации полностью едва ли удастся, но и в ее не вполне совершенном виде она представляется полезной.


ЗАКЛЮЧЕНИЕ


Предложен способ рубрикации определительных словосочетаний по элементам толкований определяющих слов в них.

В практическом плане наличие рубрик в базах данных по словосочетаниям ускоряет подбор нужного словосочетания из больших их перечней, которые ранее могли упорядочиваться только лексикографически.

В теоретическом плане предложенная методика рубрикации может рассматриваться как дополнительный способ портретирования слов, продуктивных в части словосочетаний. Чем больше словосочетаний, тем более точным получается лекси-ко-графический портрет, опирающийся на определения.

Для научно-технических терминов подобное портретирование помогает выявлять также фреймовые актанты, т. е. эмпирические валентности, с высокой частотой наблюдаемые у данного предикатного термина в текстах соответствующей ему узкой предметной области.


СПИСОК ЛИТЕРАТУРЫ


1. Benson M. etal. The BBI Combinatory Dictionaryof English. Amsterdamn Philadelphia: John BenjaminPubl., 1989.

2. Calzolari N., Bindi R. Acquisition of LexicalInformation from a Large Textual Italian Corpus // Proc.COLING-90.– Helsinki, 1990.

3. Большаков И. А. Многофункцональный словарь – тезаурус для автоматизированной подготовкирусских текстов // НТИ. Сер. 2.– 1994.– № 1.– С. 11-23.

4. Во1shakоv I. A. Multifunctional Thesaurusfor Russian Word Processing // Proc. 4* Conf.of Applied Natural Language Processing.– Stuttgart,1994.– P. 200-202.

5. Roget's International Thesaurus. Fifth edition.–HarperCollins Publ., 1992.

6. Большаков И. А., Гельбух А. Ф. Раздельноепредставление сочетаемости единственного и множественного числа существительных // Тр. Междунар.семинара по компьютерной лингвистике и ее приложениям Dialog'95.– Казань, 1995.

7. Апресян Ю. Д. Лексическая семантика. Синонимические средства языка.– 2-е изд.– М.: Изд. "Языки Русской Культуры", Изд. фирма "Восточная Литература" РАН, 1995.

8. Цинман Л. Л., Сизов В. Г. Модель управленияслова, фреймовые актанты и лингвистическая инженерия // Семиотика и информатика.– 1998.– Вып. 36.–С. 154-166.

9. Жолковский А. К., Мельчук И. А. О семантическом синтезе // Проблемы кибернетики.– 1967.–Т. 19.–С. 117-238.


Материал поступил в редакцию 02.2000.

  Автобиография   Автореферат   Библиотека   Перечень ссылок   Отчет о поиске   Индивидуальный раздел
      Сайт ДонНТУ          Портал магистров          Факультет ВТИ          Кафедра КСМ