Семантическая Сеть - двигаемся к третьей версии сети

Авторы: Калмыков А.А.

Источник: http://jarki.ru/wpress/2012/01/20/2946/




Сейчас подавляющее большинство контента, размещенного в интернете предназначено для чтения&понимания человеком, а не для автоматизированного анализа машиной. В итоге сайт воспринимается и читается человеком и роботом по разному. Это создает ряд неудобств: нерелевантность выдачи по поисковым запросам, необходимость специальной работы по SEO, сложность агрегации данных, и т.п. При такой ситуации, машиночитаемые массивы данных лишь с очень большими оговорками можно называть базами знаний. Компьютер научили разбираться в разметке веб-страницы (html), однако он пока не способен обрабатывать семантику документа, то есть извлекать заключенные в контенте смыслы.
Цель Семантической Сети — создать язык, на котором можно будет описывать как данные, так и правила рассуждений и выводов на основе данных. Это предполагает возможность транспорта сетевыми средствами правил вывода существующих в какой-либо одной системе представления знаний в другую.

К настоящему времени созданы следующие технологии для построения Семантической Сети:

 

В рамках проекта Семантической Сети в качестве базового вводится понятие «онтология». Впрочем, оно имеет весьма специфическое значение ничего общего с исходным философским смыслом не имеющее. Здесь это — документ или файл, формально задающий отношения между терминами. Наиболее типичными видами онтологий в Сети являются таксономия и набор правил вывода.
По мнению разработчиков Семантическая Сеть будет реализована тогда, когда будет создана некоторая критическая масса программ-агентов, которые, знакомясь с содержимым Сети из различных источников, будут обрабатывать полученную информацию и обмениваться результатами с другими программами. Эффективность таких программных агентов будет расти экспоненциально по мере увеличения количества доступного машинно-воспринимаемого веб-контента и автоматизированных сервисов. Для успешного развития необходима большая стандартизация формата размещаемой в интернете информации.
Важным аспектом функционирования агентов будет возможность обмена «доказательствами», записанными в унифицированном языке Семантической Сети (языке, на котором можно записывать логические рассуждения, проведенные с использованием содержащейся в онтологиях информации). Эти «доказательства» предполагается получать в процессе человеко-машинного взаимодействия т.е. с помощью экспертов. Таким образом, в концепцию Семантической Сети органично входят концепты, связанные с разработкой экспертных систем. Подобно тому как технологии веб2.0 позволили отдать формирование контента пользователям, веб3.0 как плацдарм разворачивания семантической сети – позволит учить машину читать этот контент по человеческим правилам.
Тенденция веб-синдикации проявленная уже в веб2.0, заключающаяся в возможности присоединения и комбинирования различных вебсервисов в одном проекте, должна получить развитие в семантических сетях в форме так называемого обнаружения сервисов [service discovery]. Что станет возможным лишь после того, как появится единый язык, позволяющий описывать сервисы. В этом случае программы-агенты (а не человек) смогут «понимать», что позволяет делать тот или иной сервис и каким образом им пользоваться. Сервисы и агенты смогут протоколировать информацию о функционале веб-сервисов в специальных справочниках, размещенных в сети с помощью облачных технологий. На сегодняшний день уже появился подобный язык описания сервисов — Язык Онтологии Сетевых Сервисов (Web Services Ontology Language, OWL-S) , а также разработана версия WWW-Консорциумом (W3C).
На первый взгляд может показаться, что речь идет всего лишь об очередной попытке стандартизации процедур более высокого уровня. Действительно одного из авторов концепции W3С – Тима Бернерс-Ли, по праву считают отцом веба, поскольку именно он придумал идею стандартизации языка разметки гипертекста, который действительно стал глобальным стандартом для представления информации в интернете. Эта идея оказалась крайне плодотворной настолько, что воспринимается как своего рода чудо. И теперь он с соавторами решил применить этот же принцип, но уже к понятиям.
Однако претензии концепции семантической сети намного глубже и шире.
Процитируем фрагмент статьи «Семантическая Сеть» Тима Бернерс-Ли, Джеймса Хендлер и Ора Лассила (перевод 2004 г., оригинал: The Semantic Web. By Tim Berners-Lee, James Hendler and Ora Lassila. Scientific American, May 17, 2001). Опуская технические детали зафиксируем лишь претензии семантической сети на некоторое глобальное эпистемическое преобразование:

Эволюция знаний

Семантическая сеть — это не «просто» инструмент для решения чьих-то индивидуальных задач, обсуждавшихся нами до сих пор. Правильно организованная Семантическая Cеть может, помимо прочего, способствовать эволюции человеческого знания в целом. Человеческие усилия стеснены вечным противоречием между эффективностью малых независимо действующих групп людей и необходимостью согласования своих действий с широкой общественностью. Небольшой коллектив может быстро и эффективно создать нечто новое, однако зачастую это порождает своего рода субкультуру, концепции которой могут быть не поняты окружающими. С другой стороны, координирование действий большой группы чрезвычайно замедляет процессы и требует колоссального количества общений. Всё в мире работает где-то посредине между двумя этими крайностями, с преобладанием тенденции начинать с малого — некой частной идеи — и постепенно продвигаться на пути к более широкому пониманию.
Существенным процессом становится объединение субкультур, когда требуется более широкий единый язык. Очень часто две независимо работающие группы разрабатывают очень сходные концепции, и попытка описать взаимосвязи между этими концепциями даст весьма существенную выгоду. Подобно финско-английскому языку или таблице преобразования мер и весов, эти взаимосвязи позволят общаться и сотрудничать, даже когда общность понятий не перешла (пока ещё) в общность терминов.
Семантическая Сеть, именуя всякое понятие просто с помощью URI-идентификатора, даст возможность каждому выражать новые понятия, которые он изобретает, с минимальными усилиями. Её универсальный логический язык позволит постепенно связать все эти понятия в универсальную Сеть. Эта структура сделает знания и достижения человечества доступными для анализа программными агентами и предложит нам новый класс средств, с помощью которых мы можем вместе жить, работать и учиться.

В этом отрывке курсивом отображены ключевые элементы исходной концепции. А именно:

  1. Семантическая Cеть фактор эволюции человеческого знания в целом
  2. Причиной замедления развития является отсутствие эффективной коммуникации (коммуникативный диссонанс на понятийном уровне) как между проектными группами, так и проектной группой и общественностью.
  3. Семантическая сеть может позволить преодолеть этот коммуникативный диссонанс даже когда общность понятий не перешла (пока ещё) в общность терминов.
  4. Теоретически возможно создание универсального логического языка связывающего различные понятия в универсальную Сеть.

В этих четырех тезисах, на мой взгляд, и заключены основные идеи семантического веба. Но насколько они бесспорны?
Во-первых – совершенно не факт, что к знанию может быть применен термин «эволюционирование». В обращении к нему видится, уже преодоленная наукой позитивистская традиция. Даже если предположить, что авторы не имеют ввиду постепенное поступательное накопление знаний приводящее, в конце концов, к появлению нового знания, и согласны с тем, что научная картина мира меняется скачкообразно, в результате смены парадигмы, эволюционирование подспудно предполагает наследование старых признаков и формирования новых в результате адаптационного взаимодействия с внешней средой. Можно ли сегодня такой подход применять к знанию? Другой проблемной стороной данного тезиса является предположение, что предметом эволюционирования (пусть даже не эволюционирования, а только трансформации, изменения или чего-то в этом роде) является само по себе знание не в плане его философской рефлексии, а в качестве самополагаемой сущности. Ведь можно посмотреть на человеческое знание, отвлекаясь от его понятийного наполнения, как на определенную изначальную данность. И в этом ракурсе его изменность или неизменность требуется доказывать.
Во-вторых – можно согласиться с тем, что коммуникативные проблемы сегодня стали, чуть ли не главным трендом научного и научно-практического дискурса, который часто исходит из позиции, что достаточно сделать коммуникации эффективными и тогда все остальные проблемы человечества будут быстро решены. Но так ли это? Даже на уровне языка бытового общения развитие информационно-коммуникативных технологий, куда можно отнести также СМИ, приводит к нивелированию самого языка. И это уже ясно наблюдается. Когда-то Владимир Иванович Даль после пятиминутного разговора с крестьянином мог точно определить губернию и волость, из которой тот приехал. Сегодня с такой задачей даже Даль не справился бы. А ведь языковое разнообразие ничуть не менее важно, чем разнообразие биологическое. Впрочем, стандартизировать машину, действительно необходимо.
В-третьих – предполагается, что эффективная коммуникация возможна, даже если в процессе ее используются означающие, под которыми участники коммуникации подразумевают разные означаемые. В человеческом общении это действительно так, поскольку в результате как раз и возникает совместное понимание, то есть совместное, подчеркнем, порождение как общих, так и индивидуальных смыслов. И возможно это лишь потому, что у человека есть способность к рефлексии. Проявляется это и при машиноопосредованном общении. Однако при коммуникации человека и машины такое вряд ли получится, поскольку машина рефлексией не обладает. Впрочем, отметим здесь, что некоторые функциональные части механизмов мышления и понимания, которые мы привыкли считать чисто человеческими, все таки придется отдать машине, и в этом плане развитие Семантических Сетей важно еще и с точке зрения определения границ подлинно человеческого.
В-четвертых – вызывает сомнение сама возможность создания универсального логического языка, и тем более формирование сети понятий. Против этого известная теорема неполноты Геделя, а также тот факт, что разработчиками не уточняется, какая именно логика будет положена в основу такого языка. Поскольку машины пока работают на булевой логике, то структуры в них организуемые так же будут знать только «да» или «нет», как бы это не камуфлировалось сложными надстройками. И в основе этих надстроек будет лежать все тот же закон тождества. Здесь фундаментальная проблема создания искусственного интеллекта. Характерно, что в построении концепта используются термины заимствованные именно из этой инженерной области. Оправданные в рамках задач искусственного интеллекта, они, при постановки подобной глобальной эпистемической проблемы, воспринимаются несколько странно. Например: один из базовых терминов «онтология», и основа дискрипта – триплет, состоящий из субъекта, предиката и объекта – вызывают недоумение не только у философа и лингвиста, но и у грамотного обывателя. Иными словами, универсальность вводится с помощью терминов принадлежащих крайне узкой предметной области.
Впрочем, сами разработчики поправляются: «Семантический Веб позволит машинам ПОНИМАТЬ семантику документов и данных, но не человеческую речь или его сочинения.»
Откуда следует и отношение к нему, как к новому и, безусловно весьма перспективному техническому средству работы со знанием, но не как к фактору преобразования знания. Хотя его функционирование привнесет много неожиданного в наш мир, в коммуникативном, психологическом и эпистемическом плане.