|
||||||
Компьютерная лингвистика и перспективные информационные технологии
Г.Г. Белоногов, Ю.П. Калинин, А.А. Хорошилов, Ал-сей А. Хорошилов |
||||||
Рассматриваются лингвистические и алгоритмические проблемы создания систем автоматической обработки текстовой информации. Особое внимание уделяется проблеме выбора единиц языка и речи, на базе которых строятся лингвистические процедуры. Обсуждаются пути совершенствования систем машинного перевода текстов и систем поиска информации в текстовых базах данных. 1. ПРЕДВАРИТЕЛЬНЫЕ ЗАМЕЧАНИЯ В жизни современного общества важную роль играют автоматизированные информационные технологии, значение которых непрерывно возрастает. Но развитие информационных технологий происходит весьма неравномерно; если современный уровень вычислительной техники и средств связи поражает воображение, то в области смысловой обработки информации успехи значительно скромнее. Эти успехи зависят, прежде всего, от достижений в изучении процессов человеческого мышления, процессов речевого общения между людьми и от умения моделировать эти процессы на ЭВМ. А это – задачи чрезвычайной сложности. Когда речь идет о создании перспективных информационных технологий, то проблемы автоматической обработки текстовой информации, представленной на естественных языках, выступают на передний план. Это определяется тем, что мышление человека тесно связано с его языком. Более того, естественный язык является инструментом мышления, а также универсальным средством общения между людьми – средством восприятия, накопления, хранения, обработки и передачи информации. Проблемами использования естественного языка в системах автоматической обработки информации занимается компьютерная лингвистика. Эта наука возникла сравнительно недавно – на рубеже 50-х и 60-х гг. прошлого столетия. Поначалу, в период своего становления, она имела различные названия: математическая лингвистика, вычислительная лингвистика, инженерная лингвистика. Но в начале восьмидесятых годов за ней закрепилось название компьютерная лингвистика. За прошедшие полвека в области компьютерной лингвистики были получены значительные научные и практические результаты: созданы системы машинного перевода текстов с одних естественных языков на другие, системы автоматизированного поиска информации в текстах, системы автоматического анализа и синтеза устной речи и многие другие. Но были и разочарования. Например, проблема машинного перевода текстов с одних языков на другие оказалась значительно сложнее, чем это представляли себе пионеры машинного перевода и их последователи. То же самое можно сказать об автоматизированном поиске информации в текстах и о задаче анализа и синтеза устной речи. Ученым и инженерам придется по-видимому еще немало потрудиться, чтобы достигнуть нужных результатов В предлагаемой статье рассматриваются основные проблемы компьютерной лингвистики и обсуждаются пути их решения, В процессе написания этой статьи авторы опирались на опыт отечественных и зарубежных научных коллективов и на свой многолетний опыт исследований и разработок. 2. ПРЕДМЕТ КОМПЬЮТЕРНОЙ ЛИНГВИСТИКИ Компьютерная лингвистика – это область знаний, связанная с решением задач автоматической обработки информации, представленной на естественном языке. Центральными научными проблемами компьютерной лингвистики являются проблема моделирования процесса понимания смысла текстов (перехода от текста к формализованному представлению его смысла) и проблема синтеза речи (перехода от формализованного представления смысла к текстам на естественном языке). Эти проблемы возникают при решении ряда прикладных задач и, в частности, задач автоматического обнаружения и исправления ошибок при вводе текстов в ЭВМ, автоматического анализа и синтеза устной речи, автоматического перевода текстов с одних языков на другие, общения с ЭВМ на естественном языке, автоматической классификации и индексирования текстовых документов, их автоматического реферирования, поиска документов в полнотекстовых базах данных. Лингвистические средства, создаваемые и применяемые в компьютерной лингвистике, можно условно разделить на две части: декларативную и процедурную. К декларативной части относятся словари единиц языка и речи, тексты и рода грамматические таблицы, к процедурной части – средства манипулирования декларативными средствами. В качестве единиц языка и речи могут выступать единицы различного уровня: морфемы, слова, словосочетания, фразы, сверхфразовые единства. Эти единицы в совокупности представляют иерархическую систему, в которой смысловое содержание единиц более высокого уровня не сводимо или не полностью сводимо к смысловому содержанию составляющих их единиц более низкого уровня (смысл единиц более высокого уровня не всегда может быть "вычислен" на основе информации о смысле единиц более низкого уровня и информации о связях между этими единицами). В качестве средств манипулирования единицами языка и речи и текстами могут выступать процедуры морфологического, семантико-синтаксического и концептуального анализа и синтеза. Успех в решении прикладных задач компьютерной лингвистики зависит прежде всего от полноты и точности представления в памяти ЭВМ декларативных средств и от качества процедурных средств. На сегодняшний день необходимый уровень решения этих задач пока еще не достигнут, хотя работы в области компьютерной лингвистики ведутся во всех развитых странах мира (Россия, США, Англия, Франция, Германия, Япония и др.). Тем не менее, можно отметить серьезные научные и практические достижения в области компьютерной лингвистики. Так, в ряде стран созданы экспериментальные и промышленные системы машинного перевода текстов с одних языков на дру-- гие, построен ряд экспериментальных' систем общения с ЭВМ на естественном языке, ведутся работы по созданию терминологических банков данных, тезаурусов, двуязычных и многоязычных машинных словарей, строятся системы автоматического анализа и синтеза устной речи, ведутся исследования в области построения моделей естественных языков. Важной методологической проблемой прикладной компьютерной лингвистики является правильная оценка необходимого соотношения между декларативной и процедурной компонентами систем автоматической обработки текстовой информации. Чему отдать предпочтение: мощным вычислитель-ным процедурам, опирающимся на относительно небольшие словарные системы с богатой грамматической и семантической информацией, или мощной декларативной компоненте при относительно простых процедурных средствах? До нашему мнению, второй путь предпочтительнее. Он быстрее . приведет к достижению практических целей, так . как при этом меньше встретится тупиков и трудно преодолимых препятствий и можно будет в более широких масштабах использовать ЭВМ для автоматизации исследований и разработок. Приоритет декларативной компоненты по сути дела означает признание ограниченных возможно-. стей алгоритмического подхода к решению задач автоматической обработки текстовой информации и утверждение плодотворности метода аналогии. При этом мы ни в коей мере не отрицаем важного значения алгоритмического подхода, но настаи-: ваем на его принципиальной ограниченности и на необходимости более широкого применения метода аналогии, чем это было до последнего времени. Необходимость мобилизации усилий прежде всего на развитии декларативной компоненты систем автоматической обработки текстовой информации подтверждается полувековым опытом развития компьютерной лингвистики. Ведь здесь, несмотря на бесспорные успехи этой науки, увлечение алгоритмическими процедурами не принесло ожидаемого успеха. Наступило даже некоторое разочарование в возможностях процедурных средств. Свидетельством тому является статья профессора Макото Нагао (Япония) [1], в которой традиционному преимущественно алгоритмическому подходу при решении проблем машинного перевода ("rule based approach") противопоставляется метод аналогии ("example based approach"). В свете изложенного выше, нам представляется перспективным такой путь развития компьютерной лингвистики, когда основные усилия будут направлены на создание мощных словарей единиц языка и речи, на изучение их семантико-синтак-сической структуры и на создание базовых процедур морфологического, семантико- синтаксического и концептуального анализа и синтеза текстов. Это позволит в дальнейшем решать широкий спектр прикладных задач. Концептуальный анализ текстов состоит в выявлении их понятийной структуры (границ наименований понятий и отношений между понятиями) и переводе этой структуры на формализованный язык. Он проводится после морфологического и синтаксического анализа. Концептуальный синтез текстов состоит в переходе от представления элементов их структуры на формализованном языке к вербальному (словесному) представлению. После этого текстам дается необходимое синтаксическое и морфологическое оформление. 3. ЛОГИКА, ГРАММАТИКА, АЛГОРИТМЫ Формальная логика, грамматика и алгоритмы являются важными инструментами компьютерной лингвистики. Они используются как при осмыслении процессов функционирования языка и речи, так и при разработке процедур автоматической обработки текстовой информации. По свидетельству Британской Энциклопедии, формальная логика начала развиваться в древнем Китае и в древней Индии еще в V в. до нашей эры и была доведена там до определенного уровня систематизации. В Европе она зародилась в древней Греции в IV в. до нашей эры. Опираясь на традиции развития математики и опыт риторической и философской аргументации, Аристотель разработал первую систему логики номинативных (именных) выражений.. Несколько позднее трудами Теофра-ста (ученика Аристотеля), членов мегарской школы диалектиков и логиков и членов философской школы стоиков была создана логика высказываний. Начало развития современной формальной логики было положено Лейбницем, который впервые попытался применить для этой цели математический аппарат. А в XIX в. стала интенсивно развиваться символическая логика, что привело к совместному использованию логики и математики при формальном анализе проблем. По мнению автора статьи "Логика" в Британской Энциклопедии, предметом современной формальной логики является изучение процедур логического вывода и пропозициональных (высказы-вательных) форм. Ее простейшим и основополагающим разделом является исчисление высказываний. В этом разделе высказывания (предложения) рассматриваются как простые объекты и их структура не анализируется. Обращается внимание лишь на то, как высказывания связаны друг с другом пропозициональными связками (связками , и «„,» II,.типа "если... то", "и", "или" ж др.) и как высказывания объединяются в более сложные структуры. Если речь идет не о целых высказываниях, а о вьгсказывательных формах (предикатах), входящих в состав высказываний, то соответствующая формальная система называется исчислением предикатов 1-го порядка. На основе этой формальной системы путем изменения операторов, переменных или правил допустимых преобразований могут создаваться различные логики. Например, в некоторых исчислениях предикатов в дополнение к двум традиционным значениям истинности истина и ложь добавляется еще и третье значение – "неопределенность". Могут создаваться логики и с большим числом значений истинности – многозначные логики. Автор упомянутой выше статьи в Британской Энциклопедии считает, что. важнейшим достижением современной формальной логики является открытие возможности изучать и оценивать в терминах логики другие формальные системы, исходя из состава их элементов, операций и правил преобразования формул. Такая возможность используется для изучения логических оснований математики, теории множеств и самой логики. Формальная логика рассматривается как прикладная логика, если в ней систематизируются правильные формы мышления или набор универсальных истин в некоторой ограниченной сфере мышления и речи. Обычно это делается путем введения в системы чистой логики (исчисление высказываний или исчисление предикатов) дополнительных аксиом и специальных констант. В рамках формальной логики вводится различие между дедуктивной и индуктивной логикой. В "Кратком словаре по философии" [2, с. 58] дается следующее определение дедукции: "... под дедукцией понимается доказательство или выведение следствия из посылок, совершаемое на основе законов логики и носящее достоверный характер. Иными словами, дедуктивный вывод – цепь утверждений, каждое из которых является или посылкой, или утверждением, непосредственно следующим по законам логики из других утверждений этой цепи". На с. 99-100 этого словаря дается определение индуктивного умозаключения (вывода) как движения знания от единичных утверждений к- общим положениям, Индуктивные умозаключения, как правило, менее достоверны, но они существенно расширяют класс задач, решаемых средствами формальной логики. Наряду с индуктивными и дедуктивными умозаключениями в науке применяется также метод аналогии, который заключается в том, что на основании сходства предметов по каким-либо признакам делается вывод о их сходстве и по другим признакам. Этот метод позволяет переносить знания, полученные об одном предмете, на другой. Такой перенос знания бывает верен только с определенной вероятностью, так как сходство между предметами может оказаться неполным. Но, тем не менее, метод аналогии широко используется в качестве инструмента для выдвижения гипотез и, в ряде случаев, для получения ценных знаний. Структурой естественных языков в лингвистике занимается раздел, называемый грамматикой. В Большом энциклопедическом словаре "Языкознание" понятие "грамматика" определяется как строй языка - как "система морфологических категорий и форм, синтаксических категорий и конструкций, способов словопроизводства" [3, с. 113]. Несколько другой взгляд на грамматику выражает автор статьи "Grammar" в Британской Энциклопедии. Он пишет: "Современные лингвисты определяют грамматику как некоторую внутреннюю структуру, лежащую в основе языка, которую любой носитель этого языка чувствует интуитивно. Систематическое описание характеристик языка также является грамматикой. Такими характеристиками являются фонология (звуковая сторона речи), морфология (система образования форм слов), синтаксис (способы упорядочения слов в речи) и семантика (смысловая сторона речи), которыми все носители языка овладевают примерно в возрасте шести лет. В зависимости от установки грамматистов, грамматика может быть предписывающей (указывающей правила использования языковых средств), дескриптивной (описывающей, как язык используется в действительности) и генеративной (указывающей правила порождения неограниченного числа предложений языка)". В приведенной цитате проводится различие между объективной внутренней структурой языка, которую любой носитель языка чувствует интуитивно, и описаниями этой структуры учеными-грамматистами. Эти описания могут быть различными и с разной степенью истинности отражать объективную картину. Более того, они могут быть просто ошибочными. Вот что об этом пишет известный лингвист К. Фосслер в своей работе "Позитивизм и идеализм в языкознании" [4, ч. 1, с. 328, 329]: "Как произошло подразделение на фонетику, морфологию и синтаксис ни для кого не является секретом. Посредством дробления и механического членения. Язык изучают не в процессе его становления, а в его состоянии. Его рассматривают как нечто данное и завершенное, т. е. позитивистски. Над ним производят анатомическую операцию. Живая речь разлагается на предложения, члены предложения, слова, слоги и звуки. Этот метод вполне оправдан и может привести к ценным наблюдениям, но и одновременно может стать источником ошибок. Ошибки начинаются тогда, когда убеждают себя, что указанное членение находит основание в самом организме человеческой речи, что оно представляет собой нечто большее, чем абсолютно произвольное, механическое и насильственное рассечение. Чрезвычайно распространенным и почти неискоренимым предрассудком является убеждение, что предложение представляет естественную единицу речи, член предложения – естественную часть предложения, а слово или слог – дальнейшее естественное подразделение. В действительности дело обстоит приблизительно так, как в анатомии: если я отделю от-туловища нижнюю конечность и при этом проведу разрез по естественным членениям или же перепилю берцовую кость посередине, – это всегда останется механическим разрушением организма, а не естественным расчленением. Единство организма заключается не в членах и суставах, а в его душе, его назначении, его энтелехии или как это там ни назови. Организм можно разрушить, но не разделить на его естественные части..." Автор этих высказываний подчеркивает условность грамматических моделей языка. И с ним нельзя не согласиться. Действительно, все наиболее популярные модели – и модель членов предложения, и модель непосредственно составляющих, и модель дерева зависимостей, и модель трансформационной порождающей грамматики Н. Хомско-го – не безупречны. Все они отражают какие-то существенные аспекты структуры языка и речи, но, как и всякая формализованная модель, не исчерпывают полностью содержания той грамматики языка, которой интуитивно пользуются люди, с детства владеющие своим родным языком. Поэтому ни одна из перечисленных грамматических моделей языка не может претендовать на положение "единственно правильной". Роль алгоритмов в жизни современного общества трудно переоценить. В. А. Успенский и А. Л. Семенов в предисловии к своей книге "Теория алгоритмов: основные открытия и приложения" [5] так оценивают эту роль: "... понятие алгоритма является не только центральным понятием теории алгоритмов, не только одним из главных понятий математики вообще, но одним из главных понятий современной науки. Более того, сегодня, с наступлением эры информатики, алгоритмы становятся одним из важнейших факторов цивилизации. Многие достижения теории алгоритмов имеют общематематический и, возможно, общечеловеческий интерес". Понятию "алгоритм" разными авторами давались различные определения. Например, в монографии А. А. Маркова "Теория алгорифмов" [6] алгоритм характеризуется как точное предписание, определяющее вычислительный процесс и позволяющее за конечное число шагов перейти от исходных данных к результатам решения. При этом указывается, что необходимо, чтобы алгоритм отвечал требованиям массовости, определенности и результативности. Требование массовости означает, что алгоритм будет обеспечивать возможность его применения ко множеству исходных данных. Требование определенности – что это предписание должно быть максимально понятным и исключать различные толкования. Требование результативности – что вычислительный процесс обязательно должен выполняться за конечное число шагов и завершаться получением результата решения задачи. Автор статьи "Алгоритм" в Британской Энциклопедии дает несколько иное определение понятия алгоритма: "Алгоритм – это систематическая математическая процедура, которая позволяет за конечное число шагов получить ответ на вопрос или решить задачу". А авторы книги [5] на с. 30 пишут: "Понятие алгоритма, подобно понятиям множества и натурального числа, принадлежит к числу понятий столь фундаментальных, что оно не может быть выражено через другие (в частности, теоретико-множественные), а должно рассматриваться как неопределяемое". А. А. Марков [С] вводит понятие ''нормальный алгоритм'' и провозглашает принцип нормализации, согласно которому любой алгоритм может быть представлен в некоторой нормальной форме. Наряду с этим понятием он вводит также понятие "универсальный алгоритм". Для универсального алгоритма исходными данными служат исходное слово (последовательность символов, представляющая исходные данные) и нормальный алгоритм. Универсальный алгоритм на основе этих данных формирует результирующее слово. Таким образом, универсальный алгоритм выступает в качестве алгоритма выполнения нормального алгоритма. В связи с введением понятия универсального алгоритма или, точнее, алгоритма выполнения конкретных алгоритмов, возникает законный вопрос: а кто выполняет сам алгоритм выполнения? Другой алгоритм выполнения? А этот, последний, кто выполняет? Еще один алгоритм выполнения? Так может возникнуть "дурная бесконечность" алгоритмов выполнения. Разумный ответ на эти вопросы только один: всякий алгоритм выполняется в конечном счете либо человеком, либо автоматическим устройством, созданным человеком (например, ЭВМ). Всякий алгоритм отображает множество исходных данных во множество результатов решения задачи. Он реализует определенную функцию. Конкретные способы алгоритмического задания функций (вычислительные модели) могут быть различными. В теории алгоритмов рассматриваются так называемые представительные вычислительные модели [5, с. 34-41], одной из которых является упомянутый выше нормальный алгоритм А. А. Маркова (машина Маркова). Другими примерами представительных вычислительных моделей являются машина Тьюринга, машина Поста и .машина Колмогорова [5, с. 34-35]. В середине XX в., с появлением электронной вычислительной техники, теория алгоритмов и математическая логика приобрели "второе дыхание". Сохраняя свой прежний статус оснований математики, они оказали огромное влияние на теорию и практику построения и использования электронных вычислительных машин. Но имело место и обратное влияние этой теории и практики на теорию алгоритмов. Например, авторы книги [5] на с. 41 отмечают: "Роль адекватных формализации понятия алгоритма могут играть и так называемые языки программирования: действительно, эти языки могут быть используемы для задания точно очерченного и представительного класса алгоритмов" . Языки программирования, которые называются также алгоритмическими языками, в настоящее время являются основным средством описания алгоритмов для электронных вычислительных машин. Всякий текст на алгоритмическом языке, равно как и текст на естественном языке, должен быть адресован определенному интерпретатору – человеку или автоматическому устройству, способному его "'понимать".Если понимание не происходит, то требуется перевод на язык, понятный адресату. В случае алгоритмических языков, ориентированных на ЭВМ, такой перевод осуществляется с помощью программ-трансляторов (их называют также компиляторами). Необходимость перевода вызвана тем, что алгоритмические языки обычно отличаются от языка машинных команд. Авторы книги [5] на с. 13 указывают, что в теорию алгоритмов на равных правах с понятием алгоритма входит еще и понятие исчисление, а на с. 44 отмечают, что "Общее понятие исчисления, или индуктивной системы, столь же фундаментально, как и понятие алгоритма, и должно рассматриваться отдельно от каких бы то ни было формальных уточнений. Понятие исчисления отражает и обобщает интуитивное представление об индуктивном порождении множества". Давая общую характеристику понятия исчисления, авторы книги [5] на с 45 пишут: "Грубо говоря, исчисление есть конечный список "разрешительных" правил, называемых: также порождающими правилами или правилами вывода. Эти правила разрешают переходить от одних конструктивных объектов к другим (в то время как правила алгоритма повелевают совершать такие переходы)". На с. 46 они продолжают свои рассуждения: "Подобно тому, как алгоритм задает алгоритмический или вычислительный процесс (т. е. процесс работы алгоритма), каждое исчисление задает ис-числительный, или порождающий, процесс, т. е. процесс работы исчисления. Этот процесс разби-- вается на отдельные шаги. Каждый шаг состоит в получении нового объекта из уже полученных к началу этого шага объектов; получение нового объекта осуществляется путем применения "разрешительного" правила, входящего в данное исчисление.Объекты, к которым применяется правило, называются его посылками". Очень важными являются высказывания авторов книги [5] на с. 54 и 64: на с. 54 они утверждают, что с помощью общего понятия исчисления можно глубже осмыслить многие фундаментальные понятия и результаты математической логики, а на с. 64 – что понятие алгоритма сводится к понятию исчисления, и все алгоритмы могут трактоваться как Исчисления специального вида. Следует заметить, что подобно тому, как: "Современные лингвисты определяют грамматику как некоторую внутреннюю структуру, лежащую в основе языка, которую любой носитель этого языка чувствует интуитивно" (см. приведенную нами выше цитату из Британской Энциклопедии), можно было бы сказать, что прародительницей формальной логики и теории алгоритмов является также "внутренняя структура, лежащая в основе языка, которую любой носитель этого языка чувствует интуитивно". Эти научные дисциплины можно рассматривать как систематические формализованные описания некоторых процессов функционирования языка и мышления. Такая точка зрения на происхождение математической логики и теории алгоритмов находит подтверждение в высказывании авторов книги [5] на с. 13: "Смысл алгоритма "повелителен": алгоритм должен быть исполнен. Таким образом, теория, изучающая алгоритмы, может трактоваться как своего рода лингвистика повелительных предложений. Математики еще не привыкли обращаться надлежащим образом с лингвистическими объектами, несущими на себе смысл". Систематические формализованные описания процессов функционирования языка и мышления, представленные в формальной логике и теории алгоритмов, оказались чрезвычайно плодотворными и позволяют решать многие задачи, стоящие перед человечеством. Многие, но далеко не все. Дело в том, что и в логике, и в теории алгоритмов существуют так называемые алгоритмически неразрешимые проблемы – т. е. такие проблемы, которые в принципе не могут быть решены путем построения алгоритмов. Но если даже какая-то сложная проблема алгоритмически разрешима, то это вовсе не означает, что практически она может быть легко решена. В этой связи в последнее время среди исследователей и разработчиков сложных систем утвердилось мнение, что при решении ряда задач следует предпочесть алгоритмическому подходу – "подходу, основанному на правилах" (rule based approach), другой подход – "подход, основанный на примерах" (example based approach). При подходе, основанном на примерах, опираются на принцип аналогии. Хотя здесь также применяются алгоритмические средства (куда от них денешься, если задача решается на ЭВМ – на "универсальной алгоритмической машине"!), но при этом не создаются алгоритмы, раскрывающие "внутренние механизмы" решения задач. Вместо них используются прецеденты – эмпирические данные, полученные ранее в аналогичных ситуациях. Важным направлением применения подхода, основанного на примерах являются нейронные сети. В качестве основного структурного элемента нейронной сети используется модель нейрона – нервной клетки животных. Каждый нейрон имеет много входов и один выход. Входы нейронов имеют разные пороги чувствительности, которые могут изменяться в процессе "обучения" нейронной сети. Обучение ведется на специально подобранных для этой цели примерах. Результатом обучения является такое распределение порогов чувствительности входов нейронов, которое обеспечивает порядок прохождения сигналов по сети, необходимый для решения поставленной задачи. 4. ЕДИНИЦЫ ЯЗЫКА И РЕЧИ Как уже указывалось выше, в языке и речи в качестве единиц смысла могут выступать единицы различного уровня: морфемы (корни слов, их суффиксы и префиксы), слова, словосочетания, фразы, сверхфразовые единства.Мими.ма.льмой единицей, обозначающей понятие, является слово, но большинство понятий обозначается устойчивыми словосочетаниями и фразами. В системах автоматической обработки текстовой информации в качестве средств манипулирования единицами языка и речи могут использоваться процедуры морфологического, семантико-синтак-сического и концептуального анализа и синтеза. Морфологическому и семантико-синтаксическому анализу и синтезу посвящена обширная литература. Вопросы концептуального анализа и синтеза текстов с учетом наличия в них смысловых единиц различных уровней изучены значительно меньше. Одной из причин такого положения является то, что среди лингвистов (и, тем более, не лингвистов) бытовало расхожее мнение, что словосочетания, встречающиеся в языке, можно разделить на два класса: на "свободные" и "несвободные" словосочетания. При этом считалось, что основными единицами, обозначающими понятия, являются слова, а смысл словосочетаний и фраз может быть, как правило, выражен через смыслы составляющих их слов (в качестве исключения рассматривалось лишь ограниченное число "несвободных" словосочетаний – идиом). Например, в предисловии к "Русско-английскому фразеологическому словарю", составленному С. И. Лубенской [7], на с. 13 можно прочесть такие слова: "Под фразеологизмом понимается несвободное сочетание двух или более слов, функционирующих как семантическое целое. В большинстве случаев значение фразеологизма не может быть выведено из значений его компонентов". Аналогичное мнение высказывает и известный специалист в области компьютерной лингвистики. профессор Р. Г. Пиотровский (см. с. 90 его книги [8]). В Большом энциклопедическом словаре "Языкознание" [3], изданном в 2000 г., дается более широкое толкование понятий "фразеологизм" и "фразеология" (см. с. 559, 560), но и там четко проводится мысль о том, что большинство словосочетаний языка – "свободные". Другой точки зрения придерживаются авторы настоящей статьи. Мы считаем, что несвободными словосочетаниями являются не только идиоматические выражения, но и все устойчивые фразеологические единицы языка и речи (а в развитых языках их насчитывается не тринадцать тысяч, как в словаре С. И. Лубенской, а сотни миллионов). Слова, входящие в состав устойчивых фразеологических единиц, связаны друг с другом "железными цепями" соответствующих им мыслительных образов-понятий. Эта несвобода как раз и позволяет людям понимать друг друга. Иначе о каком понимании может идти речь, если языковый ярлык (означающее) будет свободно связан с соответствующим ему мыслительным образом (означаемым). Представление о том, что слово является основной единицей, обозначающей понятие, господствовало веками. Так, отец индуктивной философии английский философ XVII в. Фрэнсис Бэкон на с. 13 своего труда "Новый Органон" [9] пишет: "Силлогизмы состоят из предложений, предложения из слов, а слова суть знаки понятий". Подобной же точки зрения иногда придерживались и основоположники теоретического языкознания Вильгельм фон Гумбольдт и Фердинанд де Соссюр. Например, В. фон Гумбольдт в своем труде "О различии строения человеческих языков и его влиянии на духовное развитие человечества" [10] на с. 90 пишет: "Под словами следует понимать знаки отдельных понятий", а на с. 111 – "Слово есть индивидуальное оформление понятия... " Но на с. 340 этого же труда он заявляет о том, что понятия могут выражаться и словосочетаниями. Ф. де Соссюр в своем "Курсе общей лингвистики" [11], изданном Ш. Валли и А. Сеше после его смерти, нас. 143 заявляет: "С практической точки зрения интересно начать с единиц языка. Необходимо выяснить, на чем основывается членение на слова, так как слово, несмотря на все трудности, связанные с определением этого понятия, есть единица, неотступно представляющаяся нашему уму как нечто центральное в механизме языка"', И, тем не менее, несколько ранее, на с. 138, он делает следующие заявления: "Итак, конкретную единицу следует искать не в слове. К тому же многие слова представляют собой сложные единицы, в которых нетрудно распознать единицы низшего уровня (суффиксы, префиксы, корни);.., И, наоборот, есть единицы высшего уровня, большие, чем слово, как например, композиты, устойчивые словосочетания, аналитические формы спряжения и т. д. Но при выделении и этих единиц наталкиваешься на такие же трудности, как и при выделении собственно слов. Представляется вообще чрезвычайно трудным выяснить функционирование встречающихся в потоке речи единиц, и установить, какими конкретными элементами оперирует язык.... Одна довольно распространенная теория утверждает, будто единственными конкретными единицами являются предложения: мы говорим только предложениями и лишь потом извлекаем из них слова". А еще ранее, на с. 136, можно прочесть: "Итак, язык – это не только совокупность заранее разграниченных знаков, значения и способы комбинирования которых только и требовалось был изучать; в действительности язык представляет собой расплывчатую массу, в которой только внимательность и привычка могут помочь нам различить составляющие ее элементы. Речевая единица не обладает никакими специальными звуковыми особенностями и ее можно определить только так: речевая единица – это отрезок звучания, который, будучи взятым отдельно, то есть безо всего того, что ему предшествует, и всего того, что за ним следует в потоке речи, является означающим некоторого понятия." В. фон Гумбольдт на с. 69 цитированного выше труда [10] высказывает аналогичное мнение: "... язык предстает перед нами в бесконечном множестве своих элементов – слов, правил, всевозможных аналогий и всякого рода исключений, и мы впадаем в немалое замешательство в связи с тем, что все это многообразие явлений, которое, как его не классифицируй, все же предстает перед нами обескураживающим хаосом..." А на с, 70 заключает: "Язык есть не продукт деятельности (Ergon), a деятельность (Energeia). Как видно из приведенных цитат, В. фон Гумбольдт очень осторожно относится к идее построения строгих формальных моделей языка. Так, на той же с. 70 он пишет: "Расчленение языка на слова и правила – это лишь мертвый продукт научного анализа. Определение языка как деятельности духа совершенно правильно и адекватно уже потому, что бытие духа вообще может мыслиться только в деятельности и в качестве таковой". А на с. 82 добавляет: "Любой язык в полном своем объеме содержит все, превращая все в звук. И как невозможно исчерпать содержание мышления во всей бесконечности его связей, так неисчерпаемо множество значений и связей в языке". Наконец, на с. 88 он дает образное представление структуры языка: "Язык можно сравнить с огромной тканью, все нити которой более или менее заметно связаны между собой и каждая со всей тканью в целом. С какой бы стороны к этому не подходить, человек всякий раз касается в речи лишь какой-то отдельной нити, но, движимый инстинктом, он постоянно совершает это так, как будто в данный момент ему открыта вся основа, в которую неизбежно вплетена отдельная нить ". Ему вторит Ф. де Соссюр. На с. 142 его труда [11] можно встретить следующее рассуждение: "Возьмем для примера различение частей речи: на что опирается классификация слов на существительные, прилагательные и т. д.? Производится ли она во имя логического, внелингвистического принципа, накладываемого извне на грамматику, подобно тому, как сетка меридианов и параллелей наносится на земной шар? Или же она соответствует чему-то, имеющемуся в системе языка и ею обусловленному?" И далее, на той же странице: "... деление слов на существительные, глаголы, прилагательные и т. д. не есть бесспорная языковая реальность". Итак, лингвистика непрестанно работает на почве придуманных грамматистами понятий, о которых мы не знаем, соответствуют ли они в действительности конститутивным элементам системы языка. Но как это узнать? И если эти понятия – фикция, то какие же реальности им противопоставить? Чтобы избежать заблуждений, надо, прежде всего, проникнуться убеждением, что конкретные языковые сущности не даны нам в непосредственном наблюдении". Но если конкретные языковые сущности не даны нам в непосредственном наблюдении, то что же тогда следует считать единицами смысла? Ф. де Соссюр дает ответ на этот вопрос на с. 150 своей книги [11]: "Когда я ради простоты говорю, что данное слово что-то означает, когда я исхожу из ассоциации акустического образа с понятием, то я этим утверждаю то, что может быть верным лишь до некоторой степени и что может дать лишь частичное представление о действительности; но я тем самым ни в коем случае не выражаю языкового факта во всей его сути и во всей его полноте". А языковый факт "во всей его сути и во всей его полноте", по мнению де Соссюра, заключается в том, что единицами смысла являются не значения, а значимости. Значимость любого слова, по мнению де Соссюра, определяется тем, что с ним связано: "С одной стороны, понятие представляется нам как то, что находится в отношении соответствия с акустическим образом внутри знака, ас другой стороны, сам этот знак, то есть связывающее оба его компонента отношение, также и в той же степени находится в свою очередь в отношении соответствия с другими знаками языка [11, с. 147]. "Язык есть система, все части которой могут и должны рассматриваться в их взаимной обусловленности" [11, с. 120]. И далее: "... в языке значимость каждого элемента зависит лишь от его противоположения всем прочим Элементам" [11, с. 121]. "...подобно тому, как шахматная игра целиком и полностью сводится к комбинации различных фигур на доске, таки язык является системой, целиком основанной на противопоставлении его конкретных единиц. Мыне можем отказаться от попытки уяснить себе, что это такое, точно.так же мы не можем шага ступить, не прибегая к этим единицам. Вместе с тем их выделение сопряжено с такими трудностями, что возникает вопрос, существуют ли они реально" [11, с. 139]. "Весь механизм языка зиждется исключительно на тождествах и различиях, причем эти последние являются лишь оборотной стороной первых" [11, с. 141]. "., язык есть не что иное, как система чистых значимостей..." [11, С. 144]. , : Во всех случаях мы, следовательно, находим вместо заранее данных понятий значимости, вытекающие из самой системы языка. Говоря, что они соответствуют понятиям, следует подразумевать, что они в этом случае чисто дифференциальны, то есть определяются не положительно – своим содержанием, но отрицательно – своими отношениями к прочим членам системы. Их наиболее точная характеристика сводится к следующему: быть тем, чем не являются другие" [11, с. 149]. По прочтении приведенных цитат возникает естественный вопрос: как все это понимать? Ведь получается, что в языке нет понятий, а есть одни только значимости, да и те какие-то ущербные: они не несут в себе никакого положительного содержания и служат только для разграничения понятий. А где же положительное содержание, которое обычно ассоциируется с языковыми выражениями? При ответе на этот вопрос, уместно сослаться на слова Ф. Бэкона: "В действительности человек не может ничего другого, как только соединять и разъединять тела природы. Остальное природа совершает внутри себя" [9, 12]. В случае языка функцию природы выполняет "душа человека" – тот его внутренний мир, частью которого, по-видимому, являются такие загадочные феномены, как мышление, интуиция, сознание, подсознание и сверхсознание, а языковые знаки выступают в роли стимулов, под воздействием которых в душе человека, где "все связано со всем", происходят сложнейшие процессы. При этом языковым выражениям совсем не обязательно иметь богатое содержание. Богатое содержание порождается и пребывает в душе человека. Им наполняются такие конструкции, как слова, словосочетания и фразы. Итак, де Соссюр утверждает, что конкретные языковые сущности не даны нам в непосредственном наблюдении. Они доступны человеку только на феноменологическом уровне, в своих внешних проявлениях. И, тем не менее, рассматривая пути и методы автоматизации смыслового анализа текстов, нельзя не исходить из определенных представлений о единицах языка и речи и о процессах мышления (хотя бы на уровне гипотез!). Эти гипотезы мы будем строить, опираясь, прежде всего, на труды основоположников теоретического языкознания В. фон Гумбольдта и Ф. де Соссюра. На наш взгляд, их идеи остаются актуальными и в нашу эпоху бурного развития электронной вычислительной техники и средств связи. Мы будем исходить из того, что основными единицами языка и речи являются слова и устойчивые фразеологические единицы, обозначающие понятия. Понятия – это социально значимые мыслительные образы, которые хранятся в памяти либо всех носителей данного языка/ либо их значительной части. За этими образами в языковом сообществе закрепляются их наименования в виде отдельных слов или (что значительно чаще) словосочетаний. Мы будем также считать, что вся система языка со всеми его смысловыми единицами и отношениями между ними погружена в ту среду, в которой происходят психические процессы у человека, включая его сознание, подсознание, сверхсознание (если оно существует в природе) и органы чувств. Система языка также опирается на "модель мира", которая есть в "душе" каждого человека. В ней "все связано со всем" (см. цитированные выше рассуждения В. фон Гумбольдта на с. 82 и 88 его труда [10]). В процессе речевого общения людей могут «одновременно участвовать все или почти все перечисленные выше компоненты обозначенной нами среды. При автоматической "смысловой" обработке текстов важную роль должны играть методы автоматизации концептуального (понятийного) анализа текстов. Задачей концептуального анализа является выделение из текстов наименований понятий и определение синтагматических и парадигматических отношений между ними. Такая задача возникла в связи с разработкой систем машинного перевода текстов с одних естественных языков на другие, систем автоматизированного поиска информации по запросам на естественном языке и диалоговых вопросно-ответных систем. В рамках перечисленных и других исследований была проведена большая работа по постановке и решению этой задачи. Но все они страдали одним общим недостатком: ориентацией на слово как на основную единицу языка и речи. Ориентация преимущественно на слово, как на основную единицу смысла, отрицательно повлияла на исследования и разработки в области компьютерной лингвистики, в частности на машинный перевод. Поначалу (в 50-х – 60-х гг. прошлого века), при слабости электронной вычислительной техники, такая ориентация была естественной. Но, по мере роста мощности ЭВМ она становилась анахронизмом. Как уже указывалось, в начале 80-х гг. прошлого века против такого подхода выступил руководитель японской государственной программы по машинному переводу профессор Макото Нагао из университета Киото. В одной из своих статей, опубликованной в 1982 г., он сделал примерно такое заявление: "Всякая разработка систем машинного перевода рано или поздно зайдет в тупик. Наша разработка также зайдет в тупик, но мы постараемся, чтобы это случилось как можно позже". А в 1984 г. он опубликовал статью [1], в которой предложил новую концепцию машинного перевода. Согласно этой концепции, тексты должны переводиться по аналогии с другими текстами, ранее переведенными вручную. Подведем предварительные итоги. Мы, следуя Ф, де Соссюру, будем исходить из того, что единицы языка и речи (языковые знаки) являются психическими сущностями, не доступными непосредственному человеческому наблюдению. Эти единицы представляют ассоциации двух психических образов – означающего и означаемого. Каждая из единиц в сознании человека связана ассоциативными отношениями со всеми другими единицами и представляет собой сложный психический комплекс, который Ф. де Соссюр назвал словом "значимость" (по-французски valeur). В процессе речевого общения психические образы-означающие материализуются в- виде акустических сигналов, порождаемых одним человеком и воспринимаемых с помощью органов чувств другим человеком. При этом, по мнению Гумбольдта, "люди понимают друг друга не потому, что передают собеседнику знаки предметов, и даже не потому, что настраивают друг друга на точное и полное воспроизведение идентичного понятия, а потому, что взаимно затрагивают друг в друге одно и то же звено чувственных представлений и начатков внутренних понятий, прикасаются к одним и тем же клавишам инструмента своего духа, благодаря чему у каждого вспыхивают в сознании соответствующие, но не тождественные смыслы" [10, с, 165, 166]. Процесс речевого общения настолько сложен, что и в настоящее время его механизм остается нераскрытым. Об этом пишет, например А. Р. Лу-рия – автор монографии "Язык и сознание" [12], посвященной проблеме отношения языка и мышления. На с. 258 этой книги он пишет: "Психология до сих пор еще не располагает достаточно точными знаниями о том, чем характеризуются отдельные этапы сложнейшего процесса порождения высказывания." 5. МЕТОД АНАЛОГИИ В КОМПЬЮТЕРНОЙ ЛИНГВИСТИКЕ 5.1. Предварительные замечания Применение метода аналогии в теории и практике научного познания имеет давнюю историю. На протяжении веков этой проблемой занимались и ученые древности, и ученые нового и новейшего .времени. Применение метода аналогии к различным задачам имеет свою специфику. Такая специфика есть и у задач компьютерной лингвистики. Для этих задач можно определить следующую последовательность действий, которой полезно придерживаться почти во всех случаях: • Формулирование гипотезы о признаках (свойствах, характеристиках) некоторого класса объектов А, который, в свою очередь, может характеризоваться набором других заранее-известныхпризнаков. Такая гипотеза может быть сформулирована либо в результате применения процедуры индуктивного логического вывода, либо наоснове интуитивной догадки. • Применение процедуры логического вывода поаналогии, в результате которой гипотетическиепризнаки (свойства, характеристики) класса объектов А приписываются конкретным объектам,если их известные признаки совпадают (полностью или частично) с известными признаками класса А. • Оценка эффективности процедуры вывода поаналогии путем ее многократного применения кразличным объектам и определения вероятностиполучения правильного результата. Эффективность каждой конкретной процедуры логического вывода по аналогии определяется характеромгипотезы о признаках класса объектов и вероятностью получения на ее основе правильного результата. Следует отметить два важных свойства метода аналогии: а) его применение не требует предварительного строгого доказательства правильности гипотезы, на основе которой делается вывод; б) не требуется также и полного вхождения признаков класса объектов, относительно которого высказывается гипотеза, в число признаков объекта, на который переносятся гипотетические признаки этого класса. Одним словом, и гипотеза строго не доказывается, и идентификационные признаки могут не все совпадать. Если же правильность гипотезы относительно некоторого класса строго доказывается, а идентификационные признаки этого класса полностью входят в состав идентификационных признаков рассматриваемого конкретного объекта, то вывод по аналогии превращается в дедуктивный вывод. Рассмотрим несколько примеров применения метода аналогии в компьютерной лингвистике. 5.2. Определение грамматическихпризнаков слов по их конечным буквосочетаниям Этот метод опирается на сильную корреляционную связь между грамматическими характеристиками слов и буквенным составом их концов. Гипотезу, которая лежит в основе этого метода, можно было бы сформулировать следующим образом: слова с одинаковыми конечными буквосочетаниями с высокой вероятностью имеют одинаковые словоизменительные и словообразовательные модели и одинаковые наборы грамматической информации (для русского языка это часть речи, род, число, падеж, лицо и др.). Исходя из такой гипотезы, грамматическую информацию для "новых" слов можно определять по аналогии со словами, включенными в машинный словарь при условии, что конечные буквосочетания "новых" слов совпадают с конечными буквосочетаниями слов из словаря. При этом длина совпадающих буквосочетаний не регламентируется и для разных пар слов может быть различной. Процедуру морфологического анализа слов на основе применения метода аналогии можно реализовать по-разному: например, построить ее с использованием словаря словоформ, в котором каждая словоформа сопровождается набором грамматической информации. Словарь инвертируется и сортируется по алфавиту – представляется в виде обратного инвертированного словаря словоформ. При этом последняя буква каждой словоформы ставится на первое слева место, за ней следует предпоследняя и т. д. В процессе морфологического анализа словоформы текста также инвертируются и ищутся в словаре методом дихотомии. Если они так находятся, то грамматическая информация словарных словоформ переносится на текстовые словоформы; если не находятся, то грамматическая информация текстовым словоформам назначается по аналогии со словарными словоформами. В качестве прототипов выбираются те словоформы словаря, концы которых в наибольшей степени совпадают с концами ненайденных словоформ текста (это будут словоформы, стоящие либо "выше", либо "ниже" мест останова процесса дихотомического поиска при его неудачном завершении). Более подробно с применением метода аналогии в морфологии можно познакомиться по статье [13]. 5.3. Метод аналогии в синтаксисе В системах автоматической обработки информации синтаксический анализ текстов проводится с целью получения формализованных описаний их структуры. В зависимости от решаемых задач эти описания могут строиться на основе различных синтаксических моделей и с различной степенью обобщения. Эти модели могут содержать информацию и о структуре слов, и о структуре словосочетаний, и о структуре фраз и сверхфазовых единств. Иногда, даже в теоретических исследованиях, синтаксический анализ текстов рассматривается как нечто принципиально отличное от семантического анализа и в какой-то мере даже противопоставляется последнему. На наш взгляд, это так же неверно, как неверно противопоставление категорий формы и содержания. Единицам языка и речи (словам, словосочетаниям, фразам, сверхфразовым единствам) синтаксис так же присущ, как и семантика, Одно от другого неотделимо. Синтаксис всегда в какой-то мере семантичен, а семантика единиц языка и речи немыслима вне определенной синтаксической структуры. И синтаксический, и семантический анализ текстов – это всегда их семантико-синтаксический анализ. Но в первом случае семантика текста представлена в обобщенном виде, а во втором – более детально. И все-таки, в системах автоматической обработки текстовой информации принято выделять этапы морфологического, синтаксического и семантического анализа и синтеза. Это удобно, это соответствует природе естественных языков и лингвистической традиции. Но если поглубже рассмотреть существо этих этапов, то их можно было бы более строго охарактеризовать следующим образом: морфологический анализ и синтез текстов – это их семантико-синтаксический анализ и синтез на уровне отдельных слов; синтаксический анализ и синтез – это их семантико-синтаксический анализ и синтез на уровне словосочетаний, фраз и сверхфазовых единств с очень обобщенным представлением смысловой стороны единиц языка и речи; семантический анализ и синтез текстов – это их семантико-синтаксический анализ и синтез с более детальным представлением смысла (по сравнению с этапом синтаксического анализа). Традиционно синтаксический анализ текстов ограничивался, как правило, анализом структуры предложения. Но уже на начальном этапе исследований по машинному переводу возникла необходимость выйти за пределы предложения (например, при поиске антецедентов местоимений). В качестве основных моделей синтаксической структуры предложения использовались модель членов предложения, модель непосредственно составляющих и модель дерева зависимостей (наибольшей популярностью пользовалась модель дерева зависимостей). В последней модели в качестве вершины дерева рассматривалось сказуемое, от него исходили связи к непосредственно подчиненным ему словам, от этих слов – к подчиненным им словам и т. д. Слова в дереве зависимостей были связаны друг с другом отношениями непосредственной доминации (отношениями типа "хозяин" ~ "слуга"). Но синтаксическая структура предложения не всегда может быть представлена в виде дерева. Например, когда в предложении встречается эллиптическая конструкция типа "проектирование деталей и узлов машины". Здесь слово машины оказывается в роли "слуги двух господ" – слова деталей и слова узлов. Дерева не получается. Получается сеть. Сеть зависимостей или, точнее, семантико-синтаксическая сеть является более общим типом синтаксической модели, а дерево зависимостей – ее частным случаем. В отличие от дерева зависимостей семантико-синтаксическая сеть может использоваться для описания структуры единиц языка и речи любого уровня, начиная от слов и кончая сверхфазовыми единствами. Следует подчеркнуть, что все синтаксические модели текстов являются обедненным и в известной мере условным отражением их структуры. Поэтому не имеет смысла говорить о "полном синтаксическом анализе". Он, как правило, всегда неполон и подчас содержит ошибки. Более того, при построении реальных процедур синтаксического анализа текстов допустимо использовать элементы различных моделей (например, модели дерева зависимостей и модели членов предложения). Синтаксическая структура текстов обычно описывается в терминах классов слов и их отношений. При этом в качестве классов слов могут выступать части речи (существительное, прилагательное, глагол, наречие и др.), сопровождаемые грамматической информацией, характеризующей конкретные формы слов (например, род, число, падеж, лицо и др.). В качестве отношений – отношения непосредственной доминации с той или иной степенью их дифференциации. При построении процедур синтаксического анализа текстов на основе метода аналогии можно исходить из следующей гипотезы: одинаковым последовательностям символов классов слов соответствуют одинаковые синтаксические структуры. Предполагается, что гипотеза верна с высокой вероятностью для любых синтаксических моделей. Эта гипотеза полезна при решении как глобальных, так и частных задач синтаксического анализа. Мы ее успешно применяли в системе машинного перевода RETRANS для разрешения грамматической омонимии английских слов. 5.4. Метод аналогии в семантике Возможности применения метода аналогии в семантике так же безграничны, как безграничен мир, отображаемый в сознании человека и описываемый им средствами естественного языка. Мы рассмотрим применение метода аналогии в семантике на двух частных задачах. 5.4.1. Дистрибутивно-статистический анализ текстов Трансформируя известное выражение "Покажи мне своих друзей, и я скажу кто ты", можно примерно то же сказать и о словах: "Укажи мне, вместе с какими другими словами это слово встречается в текстах, и я скажу, что око означает". На этой гипотезе о связи между значениями слов и их дистрибуциями (сочетаемостью с другими словами) основан так называемый дистрибутивно-статистический анализ текстов. В процессе такого анализа можно получить не только перечень слов, встречающихся совместно с заданным словом (его дистрибуцию), но и распределение частот их встречаемости (статистическое распределение). Далее, сопоставляя статистические распределения различных слов, можно с помощью определенных критериев близости установить между ними парадигматические отношения типа "синонимия", "род-вид" и др. Здесь по существу применяется метод аналогии, осложненный учетом статистических данных. При этом имплицитно используется гипотеза: "сходство дистрибуций слов влечет за собой сходство их смысла". 5.4.2. Дистрибутивно-статистический метод установления переводных соответствий между русскими и английскими словами и словосочетаниями по параллельным текстам (билингвам) В течение многих столетий в мире накоплено большое количество переводов текстов различного содержания: политических, экономических, художественных, научно-технических, религиозных и др. Эти переводы вместе с их оригиналами могут использоваться для составления двуязычных словарей. Они и использовались для таких целей, но в недостаточной мере. Появление в конце XX в. мощных и широкодоступных ПЭВМ открывает новые перспективы для решения этой задачи. И здесь хорошую службу может сослужить метод аналогии. При использовании метода аналогии для установления переводных соответствий между словами можно опираться на следующую гипотезу: "Если два предложения являются переводами друг друга, то для каждого слова одного из предложений с высокой вероятностью найдется эквивалентное ему по смыслу слово из другого предложения". Если теперь для некоторого заданного русского слова подобрать множество включающих его русских предложений и множество английских переводов этих предложений, то в английских предложениях будут многократно встречаться переводы этого слова. Если затем составить частотный словарь слов, входящих в английские переводы русских предложений, и исключить из него служебные слова и вспомогательные гдаголы (are, is, was, were, have, has, had, will и др.), то наиболее частое из оставшихся английских слов будет переводом заданного русского слова. Установление переводных соответствий между русскими и английскими словосочетаниями является более трудной задачей, чем установление переводных соответствий между словами, так как границы слов определяются проще, чем границы словосочетаний. Границы словосочетаний для одного языка (например, русского) могут определяться на основе синтаксического анализа текстов, но в этом случае возникают затруднения с определением границ единиц смысла (словосочетаний или слов) для другого языка, так как словарные единицы, выражающие один и тот же смысл, на русском и на английском языках могут состоять из разного количества слов (см. пары словосочетаний колесная пара – wheel and axle set, стандартная платформа – standard flat wagon, счетчик времени стоянки – parking meter). При установлении переводных соответствий между словосочетаниями можно опираться на гипотезу, аналогичную гипотезе, сформулированной для слов: "Если два предложения являются переводами друг друга, то для каждого словосочетания одного из предложений с высокой вероятностью найдется эквивалентное ему по смыслу словосочетание или слово из другого предложения". Следовательно, если для некоторого русского словосочетания подобрать множество включающих его русских предложений и множество английских переводов этих предложений, то в английских предложениях будут многократно встречаться переводы этого словосочетания и входящих в его состав слов. При этом переводы слов, входящих в состав русского словосочетания, будут располагаться в английских предложениях контактно. Это дает возможность определять границы английских словосочетаний, являющихся переводами русского словосочетания, так как эти словосочетания будут состоять из наиболее частых слов. 6. АВТОМАТИЧЕСКИЙ ПЕРЕВОД ТЕКСТОВ С ОДНИХ ЕСТЕСТВЕННЫХ ЯЗЫКОВ НА ДРУГИЕ 12 декабря 2003 г. в Женеве (Швейцария) состоялся Всемирный Саммит, посвященный проблеме построения Информационного Общества. Он проходил под лозунгом: Построение Информационного Общества – глобальный вызов нового тысячелетия. Саммит принял два документа: "Декларацию о принципах создания Информационного Общества", и "План работы по реализации этих принципов". В Деклараций формулируются принципы построения информационного общества с учетом социально-политических, правовых и гуманитарных аспектов. При этом подчеркивается центральная роль науки в развитии такого общества и в развитии информационных и телекоммуникационных технологий. В Плане конкретизируются пути построения открытого информационного общества. При этом указывается, что потенциал человеческих знаний и информационных и телекоммуникационных технологий следует направить на достижение задач развития, одобренных международным сообществом. Большое значение придается необходимости сохранения культурного многообразия и языковой самобытности народов, населяющих землю, и в этой связи подчёркивается важность исследований и разработок в области машинного перевода текстов с одних естественных языков на другие. Построение систем машинного перевода текстов с одних естественных языков на другие – весьма сложная задача. Ее решение в рамках международного сообщества осложняется еще и большим числом различных языков. По современным представлениям, их насчитывается более 2500. Если бы была поставлена задача перевода текстов с любого языка на любой другой, то пришлось бы создавать более 6 млн 250 тыс. систем (количество сочетаний из 2500 по два помноженное на два), что абсолютно нереально. Если даже сократить количество привлекаемых языков до одной сотни, то и тогда число необходимых систем перевода будет достигать,9900, что тоже неприемлемо. Выходом из создавшегося затруднения может быть отказ от построения систем машинного перевода текстов с любого языка на любой другой, а осуществлять перевод с помощью языка-посредника. Тогда можно существенно сократить число разрабатываемых систем перевода. Так, в случае 100 различных языков вместо 9900 придется создавать только 99 систем перевода (в 100 раз меньше!). Идея языка-посредника была высказана еще на рубеже, конца 50-х и начала 60-х гг. прошлого столетия. Но она не была реализована, так как до последнего времени для этого не было соответствующих условий. Однако в настоящее время в связи с улучшением качества машинного перевода условия для реализации такой идеи вполне созрели. Первые эксперименты по машинному переводу, подтвердившие принципиальную возможность его реализации, были проведены в 1954 г. в Джор-джтаунском университете (г. Вашингтон, США). Вскоре после этого в промышленно развитых странах мира были начаты исследования и разработки, направленные на создание систем машинного перевода (систем МП). И хотя с тех пор прошло полвека, проблема машинного перевода все еще не решена на должном уровне. При решении этой проблемы акцент делался прежде всего на грамматически правильный пословный перевод, и машинные словари, используемые для перевода, содержали в основном отдельные слова. Поэтому системы МП первых трех десятилетий их развития можно охарактеризовать, как системы семантико-синтакси- , ческого преимущественно пословного перевода. На наш взгляд, такой метод машинного перевода не имеет перспективы, так как в естественных языках смысл текстов, как правило, не сводим или не полностью сводим к смыслу составляющих их отдельных слов, и при переводе он не может быть "вычислен" на основе синтаксических и семантических признаков этих слов. Более обоснованной является концепция фразеологического машинного перевода. Главным тезисом этой концепции является утверждение, что наименования понятий в текстах чаще всего обозначаются не отдельными словами, а словосочетаниями, и при переводе текстов с одного языка на другой в качестве основных единиц смысла следует использовать прежде всего фразеологические сочетания, выражающие понятия, отношения между понятиями и типовые ситуации. Эта концепция реализована в виде системы RETRANS (системы русско-английского и англо-русского машинного перевода полиметаллических текстов) [14-18]. В последнее время усиленно рекламируется концепция "памяти переводчика". Эту концепцию следует рассматривать в качестве частного случая концепции фразеологического машинного перевода, хотя, в отличие от системы RETRANS, в ней в качестве основных смысловых единиц текста используются не такие их устойчивые отрезки, как наименования понятий и фразы, описывающие типовые ситуации, а все предложения, встречающиеся в текстах. Системы типа "память переводчика" в принципе не способны быть политематическими системами из-за слабой повторяемости предложений. Эти системы могут быть эффективными только при переводе узкотематических однородных текстов (однородных по составу входящих в них предложений), а при их адаптации к другим классам текстов требуются большие трудозатраты. 7. АВТОМАТИЗИРОВАННЫЙ ПОИСК ТЕКСТОВОЙ ИНФОРМАЦИИ Первые автоматизированные документальные поисковые системы появились в конце 40-х – начале 50-х гг. прошлого столетия. В 1951 г. американская фирма IBM (International Business Machine Corporation) сообщила о том, что ею построены два варианта автоматизированных документальных поисковых систем. В одном из них формализованные описания документов были представлены в "прямой" форме, в другом – в "инверсной". В прямой форме представления номерам документов ставились в соответствие перечни номеров дескрипторов, описывающих содержание этих документов. В инверсной форме, наоборот, номерам дескрипторов ставились в соответствие перечни номеров документов, в описания которых эти дескрипторы входили. Термины прямая и инверсная форма представления информации используются и в настоящее время. За прошедшие полвека системы автоматизированного поиска документов претерпели значительные изменения. По мере развития электронной вычислительной техники росли объемы информации, хранимой в памяти ЭВМ, и совершенствовались языковые и программные средства этих систем. А в последние десятилетия наметилась тенденция поиска документов по их текстовым описаниям (формализованным и неформализованным) и по полным текстам. При этом тексты документов представляются в памяти ЭВМ как в исходном виде, так и в виде инверсных файлов. В инверсной форме представления для каждого слова документа указываются адреса их вхождения в текст, что дает возможность осуществлять довольно эффективный поиск. Другой метод решения проблемы поиска состоит в использовании концепции гипертекста. Обычно гипертекст (hypertext) определяется как технология работы с текстовыми данными, позволяющая устанавливать ассоциативные связи – "гиперсвязи" между отдельными терминами, фрагментами документов и статьями в текстовых массивах – и благодаря этому допускающая не только последовательную, линейную работу с текстом, как при обычном чтении, но и произвольный доступ к информации и ее ассоциативный просмотр в соответствии с установленной структурой связей. В Британской энциклопедии концепция гипертекста характеризуется следующим образом (см. статью Hypertext): "Гипертекст, имеющий также название гиперсвязывание (hyperlinking), – это объединение ассоциированных по смыслу фрагментов информации электронными связями с целью облегчения доступа к ним пользователей... Гипертекстовые связи между различными частями одного документа или различными документами образуют ветвящуюся или сетевую структуру, которая делает удобным непосредственный и быстрый переход от одних фрагментов ассоциированной по смыслу информации к другим. Древесная структура информации, порождаемая с помощью гиперсвязей, контрастирует с линейной структурой печатных изданий, например, энциклопедий или словарей, к которым можно обращаться, используя только статические входы, упорядоченные по алфавиту. Гипертекстовые связи представляют собой по существу перекрестные ссылки, которые дают возможность мгновенного обращения к нужным фрагментам информации. Эти связи наиболее эффективны тогда, когда они используются при поиске в больших массивах информации, расчлененных на множество мелких ассоциированных по смыслу фрагментов и когда пользователю в каждый данный момент требуются только небольшие объемы информации. Гипертекст наиболее эффективно используется в мультимедийных коммерческих вычислительных системах." (перевод Б. Г. Г.) Обобщая приведенные высказывания, можно утверждать, что гипертекст представляет некоторую сеть, узлы которой соответствуют некоторым блокам информации, а дуги – ассоциативным связям между ними. Узлом гипертекста может быть фрагмент текста, рисунок, фотография, движущееся или мультипликационное изображение, звуковая речь или музыкальное произведение и даже выполняемая программа. Если часть данных является нетекстовой, то о конечном продукте говорят как о мультимедийной системе (multimedia, hypermedia). Инверсные файлы и гипертекстовое представление информации часто используются совместно в одной и той же поисковой системе. При этом инверсные файлы обеспечивают начальное обращение к фрагментам текстов по запросам, а гипертекст дает возможность продолжать поиск, используя ассоциативные связи между этими фрагментами. На наш взгляд, гипертекстовая структура в ее нынешнем состоянии имеет два существенных недостатка: 1) поиск информации можно вести только по тем связям, которые были установлены при создании поисковых массивов; 2) установление ассоциативных связей между текстами и их фрагментами осуществляется вручную, а их полнота и точность зависят от квалификации индексаторов. Преодоление указанных недостатков должно идти по пути совершенствования поискового аппарата инверсного представления текстов и гипертекста и по пути большей интеграции этих структур, чем это имело место до сих пор. Как мы уже говорили, инверсные файлы и гипертекст являются формализованными надстройками над текстом, отражающими его семантико-синтаксическую структуру. При этом в инверсных файлах акцент делается на облегчение доступа к отдельным словам при сохранении информации о порядке их следования в тексте, а в гипертексте – на ассоциативные связи между текстами и их фрагментами. Таким образом, в первом случае четко выделяется только одна единица смысла – слово, а во втором – только сверхфразовые единства (тексты и их фрагменты). А нужно, чтобы при поиске информации "работали" единицы смысла всех уровней. Это легче всего осуществить в случае инверсных файлов, поскольку там практически полностью представлен лексический состав текстов и есть возможность использовать при поиске парадигматические связи между словами и словосочетаниями. Совершенствование логики поиска в инверсных файлах может, на наш взгляд, происходить по следующим направлениям: 1. Представление слов в их входных словарях нев текстовой (что обычно практикуется в настоящеевремя), а в нормализованной форме. Это позволитболее эффективно использовать при поиске парадигматические связи между словами. Эти связи могут быть выявлены путем словоизменительного исловообразовательного морфологического анализаслов. 2. Использование машинных словарей синонимов, гипонимов и гиперонимов для автоматического установления таких парадигматических связеймежду словами, которые не выявляются средствами морфологического анализа. Эти словари могутприменяться как для "избыточного" индексирования запросов (обогащения их синонимами и гипонимами), так и для "избыточного" индексирования документов (для дополнения нормализованныхслов поисковых словарей их синонимами и гиперонимами). 3. Использование машинных тезаурусов дляустановления парадигматических связей между словосочетаниями, которые не сводятся к парадигматическим связям слов, входящих в эти словосочетания. Важным направлением повышения эффективности и комфортности поиска информации в полнотекстовых базах данных является также разработка ИПС, в которых пользователям предоставляется возможность формулировать запросы на естественном языке. Автоматический поиск информации в текстах по запросам на "естественных" языках – давнишняя мечта многих разработчиков поисковых систем. Но для достижения этой мечты в полном объеме еще очень далеко. Ведь речь здесь идет ни много ни мало как об автоматическом распознавании "смысла" запросов и о последующем сопоставлении этого "смысла" со "смыслом" текстов, в которых ведется поиск. А средства выражения этого "смысла" весьма многообразны: здесь и многообразие словоизменительных и словообразовательных форм слов, и явление лексической полисемии, синонимии и гипонимии, и синтаксическая синонимия, и явление эллипсиса, и еще многое другое. Несколько проще дело обстоит с поиском информации в библиографических базах данных по тематическим запросам. За несколько десятилетий уже накопился некоторый опыт и сложились определенные традиции. Например, утвердилась описанная нами выше традиция представления баз данных в виде инверсных файлов. При таком представлении информации есть возможность относительно легко надстраивать над основной "поисковой машиной" ИПС различные комплексы лингвистических средств без изменения исходной структуры хранения информации. В частности, можно производить поиск информации в иноязычных текстовых базах данных по запросам, сформулированным на родном языке. Пример такой системы приводится в статье [19]. 8. СИСТЕМЫ "ИСКУССТВЕННОГО ИНТЕЛЛЕКТА" В связи с изобретением в середине XX в. универсальных электронных вычислительных машин появилась возможность решать наряду со сложными вычислительными задачами также и сложные логические задачи, которые традиционно считались уделом человеческого интеллекта. Возникло направление исследований и разработок, получившее претенциозное название "искусственный интеллект" . При этом имелось в виду, что системы "искусственного интеллекта" будут решать задачи, обычно связываемые с высшими проявлениями человеческой интеллектуальной деятельности, например, такими, как способность рассуждать, распознавать смысл речи, обобщать информацию или обучаться на основе прошлого опыта. Период наибольшей эйфории в связи с исследованиями по проблеме "искусственного интеллекта" пришелся на конец 50-х – начало 60-х гг. прошлого столетия. Но прошло некоторое время, и эйфория стала постепенно угасать. Ее место заняли более трезвые оценки перспектив создания систем "искусственного интеллекта", и для обозначения этого направления исследований все чаще стали использоваться термины экспертные системы и нейронные сети. В последнее время появился также термин компьютерный интеллект (computer intelligence), относящийся к сфере деятельности, связанной с разработкой экспертных систем и нейронных сетей. Этот термин нам кажется более удачным, чем термин "искусственный интеллект", так как он точнее отражает реальные достижения в рассматриваемой области исследований и разработок. По мнению автора статьи Expert System в Британской Энциклопедии, автоматизированная экспертная система – это продвинутая компьютерная программа (набор команд), которая имитирует знания и способности эксперта к рассуждениям в какой-либо специальной области. Создатели такой системы стремятся клонировать знания одного или нескольких специалистов, чтобы создать инструмент, который может быть использован непрофессионалом для решения сложных задач. Основное преимущество экспертных систем состоит в их низкой стоимости по сравнению со стоимостью услуг экспертов или групп специалистов. Экспертные системы отличаются от обычных компьютерных программ, основными функциями которых являются поиск информации, манипуляциям данными и вычисления. В отличие от таких программ они применяют к фактам определенные правила, которые устанавливают отношения между этими фактами с целью получения рассуждений, подобных тем, которые бывают у человека. Двумя основными компонентами экспертных систем являются: 1) база знаний, которая отличается от базы данных в том, что она содержит исполняемый программный 1юд (предписания), и 2) логическая машина (решатель задач), которая интерпретирует и оценивает предписания и данные, содержащиеся в базе знаний. Авторы многочисленных публикаций по нейронным сетям исходят из того, что человеческий мозг представляет сложную биологическую сеть, состоящую из сотен миллиардов нервных клеток, называемых нейронами. Нейроны посылают друг другу информацию через имеющиеся между ними связи, в результате чего человек оказывается способным распознавать образы, обучаться, анализировать информацию и предсказывать события. Современные искусственные нейронные сети создаются из моделей нейронов (числом в несколько сотен или несколько тысяч), которые связаны друг с другом подобно нейронам в человеческом мозгу. Такие сети могут обучаться. Обработка информации в искусственных нейронных сетях происходит параллельно. Искусственная нейронная сеть представляет собой структуру, состоящую из нескольких слоев нейронов: из одного входного слоя, одного или нескольких внутренних (так называемых "скрытых") слоев и из одного выходного слоя. Поток обрабатываемой информации поступает на входной слой нейронов и проходит через внутренние слои, а результаты обработки информации выдаются через выходной слой нейронов. Во внутренних слоях нейронов устанавливаются ассоциативные связи между входными и выходными сигналами нейронной сети. Вариативность ассоциативных связей между входными и выходными сигналами обеспечивается за счет различия порогов чувствительности входов нейронов (синапсов) к входным сигналам. Пороги чувствительности устанавливаются и корректируются в процессе обучения нейронных сетей. В настоящее время нейронные сети уже довольно широко используются для решения таких задач, как прогнозирование, принятие решений в бизнесе, распознавание образов (в частности, распознавание устной и письменной речи), управление роботами, медицинская диагностика. В частности, американское космическое агентство NASA использует нейронные сети для управления роботами по захвату объектов, случайно расположенных в пространстве (например, при стыковке космических челноков Space Shuttles с космическими станциями). 9. ЕЩЕ РАЗ О КОНЦЕПТУАЛЬНОЙ СТРУКТУРЕ РЕЧИ Когда речь идет о создании автоматизированных систем "смысловой" обработки текстовой информации, то правильная ориентация в отношении средств выражения "единиц смысла" (наименований понятий) приобретает важное значение. Понимая это, авторы на протяжении многих лет предпринимали попытки изучения систем понятий в различных областях человеческой деятельности. Одной из таких попыток явилось составление частотного словаря ключевых слов и словосочетаний по массиву поисковых образов документов (ПОДов) объемом более 2,5 млн единиц (около 13 млн терминов), извлеченному из реферативных баз данных ВИНИТИ. По этому массиву был составлен политематический частотный словарь ключевых слов и словосочетаний объемом около 900 тыс. лексических единиц (словосочетаний и слов). Термины политематического частотного словаря были распределены в массиве ПОДов весьма неравномерно. Их частота варьировала в пределах от единицы до нескольких десятков тысяч. В среднем она была равна 12,5. Статистический анализ показал, что длина терминов колебалась в пределах от одного до 13-ти слов и в среднем была равна 1,96 слова. Наиболее часто встречались однословные, двухсловные и трехсловные термины. Их доля в ПОДах составляла, соответственно, 26,1%, 57,2% и 12,8%, а в сумме – 96,1%. Доля терминов длиной от одного до пяти слов составляла 99,7%. Другим важным начинанием было составление политематических машинных словарей для системы русско-английского и англо-русского фразеологического машинного перевода RETRANS. Эти словари составлялись в течение полутора десятков лет и на момент написания настоящей статьи имели объемы около 2 млн лексических единиц для каждого направления перевода. Длина наименований понятий варьировала в пределах от одного до 15-ти слов и в среднем составляла для русского языка 2,9 слова, для английского – 2,7 слова. Удельный вес наименований понятий длиной от одного до пяти слов в русском словнике русско-английского словаря составлял 93,3%, а в английском словнике англо-русского словаря– 94,6%. С целью изучения законов распределения наименований понятий, выраженных словами и словосочетаниями, авторами при участии А. П. Новоселова и М. В. Козачука были проведены масштабные статистические исследования: обработаны русские и английские политематические тексты общим объемом более 200 Мгб. При этом оказалось, что распределения словосочетаний имеют примерно такой же характер, что и распределения слов и могут быть приближенно описаны законом Ципфа. Наиболее часто встречаются двухсловные и трехсловные словосочетания, а 99% наименований понятий имеют длину не более шести–семи слов. СПИСОК ЛИТЕРАТУРЫ 1. Nagao M. A framework of a mechanical translation between Japanese and English by analogy principle, in Artificial and Human Intelligence / Ed.A. Elithorn and R. Banerji.– North Holland, 1984.–-P. 173-180. 2. Краткий словарь по философии.– М.: Изд-во политической литературы, 1966. 3. Большой энциклопедический словарь"Языкознание".– М.: Большая российская энциклопедия, 2000. 4. Звегинцев В. А. История языкознания XIX-XX веков в очерках и извлечениях: В 2-х частях.– М.:Просвещение, 1964-65. 5. Успенский В.А., Семенов А.Л. Теория алгоритмов: основные открытия и приложения.– М.:Наука, 1987. 6. Марков А. А. Теория алгоритмов // Тр. Ма-тем. ин-та АН СССР им. В. А. Стеклова.– М.: АНСССР, 1954. 7. Лубенская С. И. Русско-английский фразеологический словарь.– М.: Языки русской культуры,1997. 8. Пиотровский Р. Г. Лингвистический автомат (в исследовании и непрерывном обучении).– СПБ.:РПТУ им. А. И. Герцена, 1999. 9. Бэкон Ф. Вторая -часть сочинения, называемаяНовый Органон, или истинные указания для истолкования природы // Фрэнсис Бэкон. Соч. в 2 т.– 2-е изд.Исправл. и доп. Том 2.– М.: Мысль, 1978. 10. Гумбольдт В. фон. О различии строения человеческих языков и его влиянии на духовное развитиечеловечества // Избранные тр. по языкознанию / Пер.с нем. Г. В. Рамишвили.– М.: Прогресс, 1984. 11. Соссюр Ф. де. Курс общей лингвистики //Тр. по языкознанию.– М.: Прогресс, 1977 .– С. 31-269. 12. Лурия А. Р. Язык и сознание.– Ростов-на-Дону: Феникс, 1998. 13. Белоногов Г. Г., Зелекков Ю. Г.,Новоселов А. П., Хорошилов Ал-др А.,Хорошилов А л-сей А. Метод аналогии в компьютерной лингвистике // НТИ. Сер. 2 .– 2000 .– № 1 .–С. 21-31, 14. Жуков Д. А. Мы переводчики.– М.: Знание,1975. 15. Белоногов Г.Г., Кузнецов Б.А. Языковые средства автоматизированных информационныхсистем.– М.: Наука, 1983. 16. Белоногов Г.Г., Зеленков Ю.Г., Кузнецов Б.А., Новоселов А.П.,Пащенко Н.А., Хорошилов А.А., Хорошилов А.А. Интерактивная системарусско-английского и англо-русского машинного перевода политематических научно-технических текстов //НТИ. Сер. 2.– 1993 .– № 3 .– С. 20-27. 17. Белоногов Г.Г., Зеленков Ю.Г.,Новоселов А.П., Хорошилов А.А.,Хорошилов А.А. Системы фразеологического машинного перевода. Состояние и перспективы развития // НТИ. Сер. 2 .– 1998 .– № 12 .– С, 16-23. 18. Белояогов Г. Г., Хорошилов Ал-др А., Хорошилов Ал-сей А., Козачук М, В.,Рыжова Б. Ю,, Гуськова Л. Ю. Каким быть машинному переводу в XXI веке // Перевод: традиции исовременные технологии.– М.: ВЦП, 2002. 19. Белоногов Г.Г., Гиляревекий Р.С, Егоров В.М., Новоселов А.П., Хорошилов А.А., Шогин А.Н. Автоматический переводна русский язык англоязычных запросов и их формализация при поиске информации в русскоязычных реферативных базах данных // НТИ. Сер. 2 .– 2000 . №8.– С. 34-38. Материал поступим в редакцию 23.06.04 ISSN 0548-0027 . НТИ .СЕР. 2 . ИНФОРМ. ПРОЦЕССЫ И СИСТЕМЫ . 2004 . № 8 |
||||||
|
||||||
|
||||||