Руководитель: Григорьев А. В.
Введение
С появлением первых компьютеров человек пытается алгоритмизировать и представить в качестве программного продукта различные сферы своей деятельности, которые ранее были чрезвычайно трудоемкими, требовали много времени и сил.
Последние десять-двадцать лет многие ученые работают над проблемой создания программных моделей, автоматизирующих представление пользователю тех или иных процессов, происходящих в экономике. Подобные попытки базируются на математических методах исследования экономики. В экономике математические методы имеют давнюю традицию и, в то же время, довольно ограниченное практическое применение. Это объясняется сложностью и неопределенностью объекта исследования. Экономика не так сложно структурирована, изменяются элементы и связи, образующие ее структуры. Одни изменяются настолько быстро, что не поддаются научному изучению, другие остаются неизменными длительное время и подвергаются детальному научному изучению. К сожалению, относительно стабильными длительное время остаются самые общие макроструктуры, поэтому теоретические результаты в экономике носят качественный и даже идеологический характер. Это же относится и к математическим моделям экономики. В результате модель, ориентированная на прикладные исследования актуальных экономических проблем, должна либо постоянно обновляться и совершенствоваться, либо прекратить существование.
В настоящее время на Украине все чаще приходится сталкиваться с необходимостью составления бизнес-планов. Бизнес-план должен отражать определенные процессы, протекающие на предприятии. То есть фактически рассматриваются проблемы уровня микроэкономики, все еще недостаточно проработанные. Наибольшей популярностью в странах СНГ пользуется программа оценки инвестиционных проектов Project Expert. Но данная программа не вполне соответствует требованиям украинского рынка. Кроме того, программа не достаточно удовлетворяет требованиям времени (была разработана в 1995 году) и потому требует доработки. Данная работа направлена на дальнейшее развитие и усовершенствование прикладных программ по разработке бизнес-планов.
Составление любого программного продукта сталкивается в проблемой представления знаний. В программах, посвященных разработке бизнес-планов используется семиотическая модель представления знаний.
Сигнатура семиотической модели представления знаний включает большое количество разнообразных элементов: блок, характерная точка, связь, свойство, тип блока, массив характерных точек, функция базового блока.
Блок - подмножество точек пространства модели. В блоке есть внутренняя структура, среда и граница (множество характерных точек блока). Блоки разбиваются на составные и базовые. Составной блок определяется составом некоторого подмножества блоков модели. Внутренняя среда блока - множество блоков и связей между ними. В базовом блоке внутренняя среда точно не определена, но может быть задана функцией. Блок является не только структурным элементом модели, в нем есть и функциональность. Граница блока объединяет характерные точки блока функциональной связью, то есть выделяются функции блока. Характерная точка - точка пространства, учитывается при анализе модели. Все множество характерных точек группируется по блокам. Полное множество характерных точек модели образует пространство модели. Состояние характерной точки в конечном результате определяет состояние пространства модели. Векторы пространства и времени играют существенную роль для характерной точки. Она может быть однозначно идентифицирована значениями вектора времени и векторов пространства. Векторы пространства задают соответствие между пространством реального объекта и пространством модели.
Связь - равнозначность особенностей двух характерных точек пространства модели, принадлежащей двум разным блокам. Применение связей обусловлено необходимостью общего описания блоков, то есть осуществлением связей между блоками в процессе моделирования объекта. Характерные точки одного блока не могут быть объединены связью, так как нарушается функциональность, накладываемая на блок. Связь однозначно идентифицируется двумя характерными точками, которые она делает однозначными. Множество связей содержит в себе отношения декомпозиции и агрегации. Отношение декомпозиции - это разбивка. Декомпозиция может проводиться как над базовыми, так и над не базовыми свойствами и значениями свойств. Невозможна декомпозиция не определенных (пустых) свойств или значений свойств. Отношение декомпозиции - это возможность альтернативного выбора. Реализация этого отношения определяется созданием связей между свойствами или значениями свойств. Таким образом, каждое свойство в базе знаний должно иметь связь с каким-нибудь другим свойством или значением, иначе это свойство не будет иметь смыслового и семантического значения. Тип блока - подмножество блоков моделей для которых существует набор равнозначных характерных точек. То есть два блока принадлежат одному типу, если существует два подмножества равнозначных характерных точек, принадлежащих соответственно двум этим блокам. Массив характерных точек - подмножество характерных точек блока, выделенных по некоторому логическому признаку с целью уменьшения когнитивной сложности модели, а значит, облегчения понимания модели. Функция базового блока задает функционирование его внутренней среды во время создания структуры модели. Цель функций базового блока - определить неизвестные значения свойств характерных точек по известным значениям свойств других характерных точек для применения полученных значений при создании структуры модели.
Потоки данных в крупных информационных системах огромны и часто содержат в себе больше знаний, чем это видно на первый взгляд. Анализ и поиск
закономерностей в больших объемах информации - задача актуальная и сложная. Качество программного продукта в этом случае во многом зависит от опыта человека,
разрабатывающего программу. Одной из задач, стоящих перед таким специалистом, является обобщение структур, составляющих предметную область.
Предметную область можно представить как дискретное пространство координат D. Каждая координата xi является характерным признаком исследуемой области,
где i=1,n. Вдоль оси хi отложены значения хi ={хij}, где j=1,ki , ki - число значений по координате хi. Объекты в пространстве D представлены
векторами X= Y(X)= xij*Cij+Co,
где хij - j-е значение i-й координаты, Cij - весовой коэффициент при j-ом значении i-й координаты, C0 - порог функции выбора (ФВ).
Значения Cij определяют из условия y(X)>=0 при X є T и y(X)<0 при X є F для всей обучающей выборки. Цикл обучения замыкается процессом выдвижения
гипотез, которые эксперт должен оценить на качественном уровне. Гипотезы экспертная система выбирает среди вариантов, расположенных на границе разделения
y[u](X)=0, где u - номер цикла обучения. Гипотезы, определенные человеком как положительные примеры, дополняют множество T до обучающей выборки,
а отрицательные дополняют множество F.
В случае с созданием структуры бизнес-плана ее можно представить в виде ряда схем.
Расстояние между характерними точками рассчитывается по формуле:
где кх=1, ку=1 - весовые коэффициенты х и у.
Исходя из формулы условие существования пространственной связи (между характерними точками) d1<=1.
2.2.1 Модель пространства уровня простой заявки
Пространственные связи
Пространственные связи:
2.2.3 Модель пространства уровня бизнес-плана
Пространственные связи
2.3 Декомпозиция характерных точек на свойства
2.4 Декомпозиция блока Wу в пространстве и времени
Уровень расширенной заявки : Wу = Rt*Vt
Уровень бизнес-плана :
У блоков разные координаты, например у блока Wу координаты (1;3). После декомпозиции блока я ввела дополнительную ось времени (t).
Например координаты подблока Wt=3 будут равны (1;3;3).
Поскольку проделана декомпозиция блока на подблоки, возникает необходимость различать подблоки 2-го уровня в пространстве. Я ввела дополнительную ось Z.
И, например подблок 2-го уровня подблока Wt=3 получил координати (1;3;2;3).
Альтернативное решение данной структури: возможно вводить разные значения лет и других показателей.
Таким образом, строится множество жижизненных циклов (прототипов) как история поведения объектов во времени. Для любого подблока можнр получить обобщенную таблицу возможных
комбинаций его свойств во времени и определить ее как функцию.
Далее процесс моделирования складывается:
среда.Хт1 <а fo.Хт3
среда.Хт2 Я> Поку.Хт4
2.2.2 Модель пространства уровня расширенной заявки
среда.Хт1 Я> V.Хт4
среда.Хт2 Я> W.Хт5
среда.Хт3 Я> Пок.Хт6
среда.Хт1 Я> Пок.Хт6
среда.Хт2 Я> W.Хт7
среда.Хт3 Я> V.Хт8
среда.Хт4 Я> SD.Хт9
среда.Хт8 Я> K.Хт10
SD.Хт11 Я> K.Хт12
SD.Хт13 Я> CV.Хт15
K.Хт14 Я> CV.Хт16
- в задании начальных условий для моделирования. - в сужении при помощи функций начальних условий на все стороны.
Аналог роботы с недоопределенными вычислительными моделями описан у Нариньяни А. С. Особенностью роботы является введение нечисленного набора сложных примеров. Для автоматизации процесса описания сложных решений применяется аппарат изобретений, который, комбинируя подмножества структур разных прототипов может породить новое решение и предложить пользователю для проверки его достоверности.
- И/ИЛИ- дерево, т.е. упорядоченная множество синтермов по И и по ИЛИ, причем все синтермы имеют адрес в И/ИЛИ- дереве;
- Множество семантических двунаправленных зависимостей между ИЛИ- синтермами, что описывают их совместимость между собой, т.е. правил вывода или продукций.
Представление данных в виде И/ИЛИ дерева необходимо для выполнения теоретико-множественных операций над базой знаний системы в процессе обучения и вывода. Поиск решений в системе ведется по И/ИЛИ дереву, которое состоит из единиц информации поданных некоторой структурой. Под И/ИЛИ деревом понимается некоторый граф не содержащий циклов и имеющий ветвистую иерархическую многоуровневую структуру. Вершинами этого дерева или узлами некоторых поддеревьев являются термы и синтермы. Термом называется элементарный символ множества. Термы соединяются между собой только при помощи операции "И" (&). Синтермом называется имя множества, которое может разлагаться на составные части. Элементами разложения могут быть как термы, так и синтермы, соединенные при помощи операции "И" (&) или "ИЛИ" (V). Очевидно, что термы будут быть только письмами дерева, что, не могут иметь "сыновей" в данном дереве.
1. Особенности переходов между уровнями знаний При переходах между уровнями возникает проблема переноса знаний с верхнего на нижний уровень. Другими словами, всякое свойство, принадлежащее некоторому уровню l, должно иметь соответствие на нижележащем уровне l'. Из этого ограничения можно вывести следующие следствия:
1. Недопустимым является замена одного из базовых свойств уровня знаний l некоторым новым свойством на уровне знаний l'.
2. Недопустимо удаление любого базового свойства уровня l при переходе на уровень l'.
3. Допустимой формой изменения состава базовых свойств уровня l относительно уровня l' является только декомпозиция свойств или значений.
Исходя из первого следствия, можно утверждать, что на стыке двух смежных уровней представления знаний всегда выполняется равенство, количество базовых свойств нижнего и верхнего уровня соотносятся одинаково. Рассмотрим возможные формы перехода набора базовых элементов первого уровня в набор элементов первого уровня неполноты информации для нижележащего уровня представления знаний. Формы перехода классифицируем следующим образом:
1. По набору свойств:
1.1. Определение структуры для базового элемента - "прочие не определенные свойства" уровня представления знаний l, то есть введение новых свойств на уровне l посредством декомпозиции.
1.2. Перенос базового, но неопределенного (то есть не имеющего определенного списка значений) свойства в разряд не базовых свойств, то есть не имеющих определенной структуры с последующим заданием новых свойств при декомпозиции.
2. По значениям свойств:
2.1. Определение значений для базовых неопределенных свойств, то есть декомпозиция значения "не доопределенное значение" для некоторого свойства.
2.2. Доопределение множества значений для базовых определенных свойств, то есть декомпозиция значения "не доопределенное значение" для некоторого свойства.
После определения представления знаний необходимо определить методы, с помощью которых будет синтезироваться структура модели создания бизнес-плана. В основу такой комплексной интеллектуальной системы могут быть положены такие методы и модели:
1. Эвристические трансформационные методы поиска новых идей (метод гирлянд ассоциаций и метод эвристических приемов);
2. Комбинаторно- морфологический метод синтеза;
3. Метод интеллектуального синтеза решений;
4. Метод эволюционного синтеза решений;
5. Методы многокритериального выбора альтернатив, основанные на теории нечетких множеств, реализующие разные принципы оптимальности в условиях неопределенности;
6. Методы прогнозирования (АНР - метод анализа иерархических процессов со статическими и динамическими предпочтениями и приоритетами; ANP - метод анализа сетевых процессов);
7. Методы вербального анализа решений;
8. Многоагентная модель синтеза новых объектов и принятия проектных решений.
Метод гирлянд ассоциаций используется для целенаправленного генерирования ассоциаций, которые изобретатели используют в своем творческом процессе в качестве подсказок для генерирования новых идей. В отличие от существующих модификаций, данный метод в настоящее время расширен рядом дополнительных процедур: метофорическим описанием и анализом проблемной ситуации, построением этимологических и парадигматических гроздей понятий и их интерпретаций. Метод эвристических приемов предназначен для разрешения конфликтов и противоречий при преобразовании известного объекта в новый. Для этого используются знания о параметрах класса, к которому относится совершенствуемый объект, эвристических правилах и матрицах противоречий, устанавливающая связь между параметрами и эвристическими приемами. Компьютерная реализация данного метода осуществлена в виде экспертной системы, постоянно накапливающей данные об эвристических приемах, типовых технических противоречиях и степени удачного применения проектировщиком приемов для решения поставленной задачи. Морфологический подход к формализации процедур синтеза используется в тех случаях, когда взаимное влияние между функциональными элементами проявляется в незначительной степени, что позволяет проводить независимую оценку составных частей системы, а эффективность системы в целом рассматривать как некоторую комбинацию значений эффективности отдельных элементов. Морфологический подход отличается простотой понимания и реализации. Главный его недостаток заключается в игнорировании связей между элементами синтезируемой системы. Следствием является большое количество порождаемых вариантов, многие из которых являются нежизнеспособными. С другой стороны, именно это обстоятельство помогает найти новаторские решения в изобретательстве, где бывает необходимо отойти от сложившихся представлений. Разработанный вариант автоматизированного морфологического метода позволяет применять разнообразные алгоритмы в процессе синтеза, выбирать различные целевые функции, проводить исследования полученных морфологических множеств, осуществлять поиск и систематизацию знаний, хранящихся в базе знаний. Морфологические методы синтеза позволяют получить значительное количество вариантов исследуемой системы, так называемое морфологическое множество. Эти множества имеют неоднородную внутреннюю структуру. Проведение кластерного и корреляционного анализа морфологических множеств позволяет выявить закономерности их строения, что позволяет более эффективно решать основные задачи концептуального проектирования по поиску, прогнозированию и планированию рациональных решений. Предварительная кластеризация морфологических множеств с учетом особенностей структуры и свойств вариантов систем позволяет во многом преодолеть проклятие размерности, отсеять неинтересные для кластерного исследования варианты систем. В системе морфологического синтеза реализованы статистические методы для анализа качественной и количественной информации, характеризующей функциональные подсистемы. Интеллектуальным синтезом здесь называется процедура генерации объектов, имеющих сложную структуру, из конечного множества составляющих элементов на основе правил, которые устанавливают допустимые сочетания элементов и связей между ними и позволяют производить оценку порождаемых вариантов на базе критериев качества. Такой подход к синтезу приводит к уменьшению количества и повышению качества синтезированных вариантов, при этом существенно сокращаются затраты труда и времени экспертов на оценку полученных вариантов систем. С другой стороны, проектирование и заполнение базы знаний интеллектуальной системы также являются довольно трудоемкими процедурами. Преимущества интеллектуальных систем синтеза состоят в том, что заложенные в систему знания могут использоваться многократно. Кроме того, становится возможным разделение функций между пользователями, а именно: к разработке и наполнению базы знаний привлекаются высококвалифицирован-ные в данной области эксперты, а решение задач синтеза могут выполнять проектировщики не столь высокой квалификации. Знания экспертов, необходимые для создания подобных систем, включают: информацию о свойствах элементов, описанных с помощью структурных (конструктивных) и функциональных атрибутов и наборов критериев качества; информацию о допустимости сочетаний элементов друг с другом, которая представляется с помощью правил построения целостной системы; информацию о свойствах различных сочетаний элементов и системы в целом. При интеллектуальном подходе учитывается закономерность целостности, и свойства системы формируются в процессе синтеза на основе правил, которые описывают способы получения значений показателей качества для различных комбинаций элементов. При этом учитываются не только свойства элементов, но и свойства связей между ними. Таким образом, для синтеза сложного объекта из конечного числа элементов можно сформулировать совокупность правил, задающих структура рациональных вариантов системы. Как и при формализации языков, в данном случае использованы формальные грамматики. Порождаемые формальной грамматикой фразы можно рассматривать как подмножества множества логических формул, полученное на основе применения синтеза логики предикатов для описания заданного множества базисных элементов, составляющих объекты рассматриваемого класса, и закономерностей построения этих объектов. В системе интеллектуального синтеза присутствуют следующие знания о синтезируемой системе:
- совокупность предикатов, описывающих функциональные подсистемы синтезируемого объекта. Если при синтезе системы используется многоуровневая организация, то добавляется информация о связях между подсистемами, которые имеют тип "целое-часть";
- наборы предикатов, описывающие альтернативные реализации функциональных подсистем. Эти предикаты представляют собой множество терминальных синтезов грамматики синтеза;
- правила формирования структуры целостной системы с учетом возможной несовместимости элементов между собой, например, здесь может записываться запись правил в виде фраз Хорна;
- Правила формирования характеристик целостной системы. Здесь в выражениях для вычисления значений параметров заголовка правила могут использоваться все арифметические операции, операции нахождения максимума и минимума, условное присваивание значения из заданного множества.
Использование информации о качестве системы в процессе синтеза позволяет целенаправленно генерировать варианты систем, обладающие определенными качествами. В этом случае к грамматике добавляются правила проверки заданных требований, невыполнение которых приводит к отбрасыванию "неперспективных ветвей". Использование знаний в процессе интеллектуального синтеза имеет определенную специфику. Здесь не происходит традиционного дедуктивного вывода, как в продукционных экспертных системах. Пользователь может выбрать подмножество хранимых в базе знаний элементов, сформулировать цель и осуществить синтез системы с привлечением правил из базы знаний. Возможность работы с неполным набором знаний существенно расширяет круг решаемых задач, однако при этом требуется время на подготовку и проверку исходной информации. Результатом интеллектуального синтеза является множество вариантов синтезированной системы, которое предназначено для дальнейшего анализа, поэтому в базе знаний предусмотрено хранение полученных результатов в виде таблиц и текстовых файлов протоколов, в которых хранятся грамматики синтеза и описания интегрированных вариантов. Эволюционный подход к синтезу заключается в рассмотрения процесса построения целостной системы из более простых частей с позиции теории развития. Основная идея состоит в том, что сложная система синтезируется из элементов под контролем факторов внешней среды, при этом структура системы и состав элементов подбираются так, чтобы обеспечить максимальное удовлетворение требований внешней среды (естественный отбор). В процессе синтеза происходит соединение элементов, результатом которого являются более крупные объекты, обладающие новыми свойствами и наследующие некоторые свойства "родителей". Из множества возможных комбинаций элементов на каждом шаге отбираются только те, которые имеют высокие шансы "выживания" во внешней среде и при этом не имеют внутренних противоречий. Для реализации эволюционного синтеза применяются генетические алгоритмы, широко применяемые при решении задач оптимизации. Задачи синтеза сложных многоэлементных объектов имеют существенные отличия от оптимизационных задач, поэтому для их решения значительно модифицированы известные генетические алгоритмы. Главные отличия синтеза от оптимизации связаны с описаниями рассматриваемых объектов. В синтезе систем участвуют объекты с различными структурами описаний, в то время как в процессе оптимизации рассматриваются объекты с идентичными описаниями. В последнем случае не возникает вопросов о структуре описания потомков, а скрещивание возможно между любыми объектами популяции. Если описания объектов отличаются, то появляются проблемы формирования "хромосом" потомков, выбора объектов для скрещивания и реализации этого оператора. Основные этапы эволюционного синтеза систем выглядят следующим образом. Создается популяция исходных объектов синтеза, наделенных определенными свойствами и имеющих некоторые требования к окружению. Объектами синтеза являются элементы системы. Выбор элементов осуществляется на основе морфологического анализа систем рассматриваемого класса. Результат декомпозиции может представлять собой множество обобщенных подсистем или иерархию таких множеств. Формируется набор обобщенных требований к синтезируемой системе, который должен отражать ее жизнеспособность. Если структура системы задана иерархией, то формируются требования к подсистемам. Формируется функция ценности вариантов систем, позволяющая оценивать степень сгенерированных объектов заданным требованиям. При иерархическом представлении задается набор функций. С помощью генетических операторов из объектов исходной популяции создаются новые объекты - представители следующей популяции. На основании значений оценочной функции производится отбор лучших объектов. Проводится неоднократный повтор предыдущих шагов до выполнения условия процесса синтеза.
Многокритериальная оценка и прогнозирование альтернативных вариантов осуществляется с помощью комплекса методов принятия решений, которые позволяют использовать разные способы пред-ставления экспертной информации и реализуют различные подходы к принятию проектных решений. В единой системе используются методы анализа иерархических и сетевых процессов, метод отношений предпочтений, методы максиминной свертки и лингвистических векторных оценок, метод аддитивной свертки нечеткого логического вывода. В результате проведенного исследования выявлены особенности и эффективность работы этих методов в различных по сложности и ответственности проектных задачах. Если элементы системы оказывают влияния друг на друга, то их приоритеты постоянно изменяются. К особому классу задач синтеза и принятия решений относятся задачи по изобретению и предвидению новых потребностей людей, а также физических и технических принципов действия машин и технологий, обеспечивающих удовлетворение этих потребностей. Можно также сказать, что задачи экономики можно выразить через решение задач электротехники или теплотехники, а значит задачи экономики решаются с помощью тех же моделей и систем, что и вышеприведенные отрасли. Эти задачи в области проектирования относятся к неструктуризированным, так как носят стратегический характер, либо сложно определить их структуру. Для решения этих задач необходимо привлечение вербальных методов анализа решений. Можно сказать, что при усовершенствовании структурной модели прикладной программы по созданию бизнес-плана приходится составлять структурную модель с учетом высокой степени ненадежности получаемых данных. Как уже отмечалось ранее, подобная ненадежность связана со спецификой исследуемой предметной области. Данные, рассчитываемые на уровне предприятия, быстро изменяются и обладают высокой степенью ненадежности, что существенно затрудняет разработку структурной модели.
Целью моего дипломного проекта является создание структурной модели для прикладной программы разработки бизнес-планов. Поэтому в данном разделе изучаются методы, с помощью которых строится структурная модель программы. Задача построения таксономии знаний всегда связана с определением ее непротиворечивой, согласованной структуры. Сложность этой задачи определяется несколькими факторами, основными из которых являются большой объем поступающей информации и динамичность этого потока, что определяет необходимость реализации соответствующих процедур адекватной реструктуризации системы знаний в соответствии с произошедшими изменениями. Один из подходов к оценке степени согласованности системы взаимосвязанных элементов базы знаний основывается на анализе тернарных отношений между объектами этой системы, путем ввода правила, позволяющего каждое тернарное отношение относить к одному из двух типов: согласованному и рассогласованному. В ряде работ эти типы получили соответственно названия консонансного и диссонансного состояния тройки. Выбрав определенный критерий состояния тройки объектов, мы можем представить всю совокупность имеющихся объектов в виде множества троек, для каждой из которых в соответствии с выбранным критерием можно определить ее тип, что дает возможность построить некоторую систему классификации внутреннего состояния множества взаимосвязанных однородных объектов, позволяющую определить его структурную согласованность. Свойства консонансных множеств исследованы в ряде работ. Развитие теории структурной согласованности множеств взаимосвязанных объектов привело к ее расширению на основе введения понятия поликонсонанса и исследованию его свойств. На основе этих свойств был предложен интегрированный алгоритм реструктуризации произвольного множества взаимосвязанных объектов, приводящей к его поликонсонансному прообразу, соответствующему согласованному состоянию данного множества. Алгоритм базируется на операциях повершинного переброса и оценках вектора повершинных различий, который строится исходя из вида знаковой матрицы связности, отображающей структуру исследуемого множества объектов. Являясь хорошим средством визуализации структуры рассматриваемого множества объектов, матрица связности служит и основным инструментарием, с помощью которого эксперт оказывает влияние на весь процесс реструктуризации этого множества, что позволяет реализовать процесс классификации как интерактивную человеко-машинную процедуру, обеспечивающую приведение базы знаний эксперта к согласованному состоянию.
1 Взаимосвязи в множестве слабоструктурированных объектов
Как отмечено выше, современная работа эксперта с информацией характеризуется в значительной степени тем, что эта информация представлена в мультимедийной форме, предполагающей интеграцию в виде единого информационного массива данных различного типа. Каждый из этих типов имеет свои характеристики и свойства, что требует своего особого описания при выработке тех или иных подходов к оценке сходства двух различных объектов одного типа. Часто эта задача в области распознавания образов или других теорий. Но в большинстве случаев основным источником информации для пользователя документальных баз данных является все же текстовая информация. Если при этом некоторый документ является мультимедийным, то из него всегда можно выделить текстовую составляющую, которая часто и несет информационную нагрузку. Поиск различных методов оценки взаимосвязей между слабоструктурированными документальными объектами (тексто-выми документами) и анализ существующих методов позволяет сделать вывод о том, что наибольшее распространение сегодня получили два метода оценки взаимосвязей ("сходства") между документами: метод взвешенных ключевых слов и метод латентных семантик.
2 Метод взвешенных ключевых слов
Данный метод основывается на представлении документов в виде неупорядоченного набора слов, встречающихся в этом документе, с присвоенным каждому из них весовым коэффициентом, характеризующим значимость этого слова для выражения общего смысла всего документа. Расчет весовых коэффициентов часто производится по методике "tfidf" (term frequency times inverse document frequency). Если документ имеет некоторую структуру, то весовые коэффициенты слов могут быть модифицированы в соответствии с их месторасположением в тексте: например, коэффициенты слов заголовка могут быть увеличены. Общий вид формулы расчета весовых коэффициентов:
Wi= Ci*fi*log( N/fd)
где wi - вес i-го слова документа d;
Ci - модифицируемая константа;
fi - частота встречаемости слова в документе;
N - общее количество документов в базе данных;
fd - количество документов, в которых найдено данное слово.
Модифицирующие константы Ci определяются часто эмпирическим путем или с применением алгоритмов обучения. При определении значений таких констант исходят из разного рода предположений о зависимости расположения слова и соответствующей им смысловой нагрузке. Представление документов в виде векторов взвешенных ключевых слов дает возможность определения взаимосвязи между любоу парой таких документов на основе сравнения соответствующих им векторов. Функция сходства здесь может быть использована любая. В научной литературе часто в качестве нее используется функция относительного веса общих для двух документов ключевых слов:
1. По ряду прототипов путем обобщения по признакам сформировано И/ИЛИ-дерево с прототипами (их наличие позволяет работать с продукциями). Продукции - стандартные, их наличие создает базу знаний.
2. Обеспечено формирование ряда семантических ограничений на работу аппарата изобретений с тем, чтобы по некоторому набору исходных прототипов сформировать то множество прототипов, которое нужно для обобщения.
3. Синтез (на уровне пользователя) для иллюстрации работоспособности системы.
В дипломной работе рассмотрено формирование системы принятия решений в области выбора наилучшего варианта инвестиций с целью снижения трудоемкости создания бизнес-планов.
В данной работе были рассмотрены способы представления знаний об экономике для системы создания бизнес-планов. Поскольку моя дипломная работа тесно связана с дальнейшим усовершенствованием структуры прикладной программы, то в работе были представлены методы и способы для создания такой структуры.
Гаркушенко О.Н., 2001 г.