Гибрид интеллектуального анализа данных и тематического рассуждения на основе моделирования пользователя системы архитектуры.
Доктор Дино Иса, д-р Питер Бланчфилд, и Чэнь Чжи Юань
РЕФЕРАТ
В этой статье мы представляем архитектуру гибрид интеллектуального анализа данных и тематических рассуждений на основе системы, которая включает в себя модели пользователя с помощью фильтра информации, с тем чтобы сделать его более соответствующим для пользователей. Основная проблема реализации этой гибридной системы является база знаний которая впервые получены из базы данных информации о домене и где априорной информации пользователь недоступен, система строит таблицу предпочтений пользователя на мониторинг кликов мыши и обновления или переработки правило на основе модели пользователя. Модель пользователя и база знаний классифицируются с использованием машины опорных векторов и извлекаются из дела основанных на цикле рассуждений с использованием карты организации. Целью данного проекта является объединение данных технологий добычи и искусственного интеллекта классификаторов проекта в качестве средства для построения ориентированного на пользователя базы знаний и увязать это со случаем рассуждения на основе цикла с целью предоставления специфической информации для пользователей, своевременно.
I. ВВЕДЕНИЕ
Проблемы, с которыми сталкиваются многие организации сегодня, является не малый объём данных [1]. Чтобы решить эту проблему слишком большого количества данных (или, точнее, ненужные данные), можно прибегать к различным методам, которые позволят классифицировать информацию, которая является особенно полезна только для определенных категорий пользователей. Тем не менее, необходимо проявлять осторожность в этих случаях, так как там много ошибок, которые могут сделать систему информации бесполезной. Таким образом, гибридные системы объединения случае рассуждений на основе прецедентов[2], интеллектуального анализа данных [3] и искусственного интеллекта [4] возникли для решения вопросов, связанных с заданием пользователем соответствующей базы знаний; классификация новой информации для добавления в базы знаний и поиск информации имеет самое непосредственное отношение к запросу пользователя, которые рассматривается в этих новых гибридных системах. В этой статье мы представляем новые архитектуры гибрид интеллектуального анализа данных и тематических рассуждений на основе моделирования пользователя системы. Остальная часть статьи организована следующим образом: Раздел 2 представлены задачи и соответствующие методы. Раздел 3 описывает подробно архитектуры гибридной системы. В разделе 4 рассмотрено представление работы. Заключение обсуждается в разделе 5.
II. ЦЕЛИ И ОБЩАЯ ПОСТАНОВКА ЗАДАЧИ
Конструкция является гибкой и ориентирована на пользователей гибридных систем и это является очень сложной задачей, подразумевающей последовательное упорядочение многих программных компонентов и алгоритмов. Эти компоненты соответствуют данным векторизации, шаг в процессе классификации – это переход от низкого уровня добычи данных к процессам с высоким уровнем искусственного интеллекта. Многие области конкретной системы, такие как пользовательские системы моделирования искусственного интеллекта или гибридных систем были описаны в литературе [5] [6] [7]. На самом деле, насколько нам известно, нет такой полной и общей системы, существует необходимости заиметь отличное ноу-хау в реализации гибридных интеллектуальных систем. Многие категории знания вовлечены в этот опыт, и хорошо, чтобы гибридная система была такой умной, как это возможно, чтобы векторизовать сырые данные в многомерный вектор в целях выполнения требований реализации искусственного интеллекта. С точки зрения конечного пользователя, эта гибридная система, кажется, умной. Ориентированная на пользователя система, позволяет изменять исходные данные множества и искать последний результат анализа на базе компонентов пользовательского интерфейса. С точки зрения разработчика гибридной системы, платформы позволило нам взять все технологические установки, таких, как интеллектуальный анализ данных процесса, процесса моделирования пользователя, тематические рассуждений на основе процесса.
Платформа опирается на три конкретных понятий:
- Динамическая модель строительства: принцип позволяет пользователю взаимодействовать с системой для разработки модели пользователя и модели предметной области, состоящей из блоков интеллектуального анализа данных. Кроме того, работает сценарий сбора по предпочтениям пользователя, после преобразуется в вектор, который становится частью модели пользователя.
- Векторный подход: Все векторы, которые извлекаются из базы данных домена и пользовательской базы данных, достигнутый в процессе интеллектуального анализа данных, применяя новый алгоритм. Это решает две функции, учитывая непрерывный и дискретный столбцы. Таким образом, вектор можно рассматривать как канал связи между реальными документами мира и сигнала искусственного интеллекта. Такой подход позволяет избежать проблемы использования текста в качестве входного сигнала.
- плагин-ориентированной архитектуры: основой является разрешение интеграции разнородных программных компонентов. Как следствие, разработчик может удобно добавлять новые блоки обработки, таким образом, гибридные системы проще модернизировать. Собственно, эта гибридная система не направлена на использование во всех категориях знаний, которые неявно участвуют, но предлагают основную информацию области. В следующем разделе мы представим архитектуру гибридной системы.
III. ГИБРИДНАЯ СИСТЕМА АРХИТЕКТУРЫ
А. Обзор архитектуры
Рисунок 1.Архитектура системы
Концепции, представленные в разделе 2, привели к разработке гибрида интеллектуального анализа данных и рассуждения на основе моделирования пользователя системы. Архитектура показано на рисунке 1. Гибридная система состоит из пяти основных компонентов:
- индивидуальная модель, сопоставимый с характером текущего пользователя.
- множество – Компонентная Объективная Модель (КОМ) [8], которая предоставляет интерфейсы приложений с унифицированным доступом к данным, хранящимся в различных источниках информации.
- двигатель интеллектуального анализа данных, которые классифицированы как класс пользователей и векторы информации о домене.
- базы знаний, содержащие представления конфиденциальной информации пользователя и в сочетании с заинтересованными предметными областями.
- решение проблем жизненного цикла называется рассуждений на основе цикла, помощь в получения повторного пересмотра и сохранения базы знаний.
В. Векторизация
Наш проект ориентирован на пользователей, которых можно рассматривать как набор объектов. Пользователь постепенно обогащает базу знаний интеллектуального анализа данных. Мы определили два типа сырых данных. Схемы алгоритма указано на рисунке 2, в котором происходит числовым вектором путем реализация различных функций. Схема не является исчерпывающей и может развиваться вместе с новыми данными.
Рисунок 2.схема векторизации алгоритма
Следующий подраздел показывает, главный вопрос для классификации задач в процессе интеллектуального анализа данных.
С. КлассификацияПроцесс интеллектуального анализа данных содержит четыре компонента: Пользовательский интерфейс, интеллектуального анализа данных двигателя, OLEDB, домен источника данных. Цель этого подраздела не описать всю процедуру этого процесса, а показать, как классифицировать векторный набор данных. Для того чтобы использовать поддержку векторных механизмов и избежать комплексное обучение алгоритма, SVM алгоритм обучения, который называется последовательное минимальная оптимизация (или SMO) [9].
| Обучение. Установить размер | | СМО. Время (сек) | | Разложение.Время (сек) | | Отрыв. Время (сек) | |
11221 | 13.7 | 217.9 | 20711.3 |
11221 | 21.9 | n/a | 21141.1 |
11221 | 339.9 | 3980.8 | 17164.7 |
11221 | 523.3 | 737.5 | n/a |
11221 | 1433.0 | n/a | 14740.4 |
49749 | 1810.2 | n/a | n/a |
49749 | 2477.9 | 2949.5 | 23877.6 |
49749 | 2538.0 | 6923.5 | n/a |
49749 | 4589.1 | n/a | 17332.8 |
49749 | 19387.9 | 38452.3 | 33109.0 |
49749 | 23365.3 | n/a | 50371.9 |
49749 | 24758.0 | n/a | n/a |
Машина опорных векторов (SVM) является классификация техники, что получил большое внимание. Перспективные эмпирические результаты показали, во многих практических применений, начиная от рукописных цифр до обычного текста. SVM также очень хорошо работает с многомерными данными и позволяет избежать нестыковки размерности задачи. Для содействия эффективной и результативной классификации в базе знаний процесс создания SVM будет принято в нашей гибридной системы. В связи с QP [10] проблема, которая возникает из SVM не может быть решена с помощью стандартных методов QP, для этого мы импортируем SMO алгоритм. Последовательная минимальная оптимизация быстро решает проблемы с SVM QP без использования численной оптимизации QP. Он разбивает общую проблему QP на подзадачи фиксированной длины. В отличие от предыдущих методов «отрывов» [11] или методов разложения [12], SMO выбирает для решения наименьшие возможные задачи оптимизации на каждом шаге. Как видно из таблицы 1, стандарт «отрывов» медленнее, чем SMO для наборов данных показал, хотя разложение имеет преимущество по сравнению со стандартными отрывами, SMO попрежнему является самым быстрым среди этих алгоритмов.
Д. Случай рассуждения на основе циклаПонятие случая рассуждений на основе (или CBR) это главная проблема нашей гибридной системы. По Aamodt и Plaza[2] CBR состоит из четырех частей:
- получить наиболее подобный случай (и);
- повторное использование информации и знаний, хранящихся в случае решения проблемы;
- изменить решение, если необходимо,
- сохранить новое решение в рамках нового случая для будущего решения проблем.
В CBR процессе нового запроса от текущего пользователя будет оцениваться, чтобы узнать наиболее соответствующие тематические базы, область конкретных знаний, которые пользователь предпочитает, чтоб потом рекомендовать для текущему пользователю. Мы планируем выполнить классификацию с обученным SOM [13]. SOM является одной из самых известных алгоритмов самообучения. Основная цель, почему мы используем SOM является преобразование произвольных случаев пользователя в дискретную карту для группы аналогичных случаев из базы знаний. Техника SOM связана с векторным квантованием, который использует технику сжатия данных, входные векторы делятся на число различных регионов, и для каждого региона вектор реконструкции определен. Совокупность всех этих векторов реконструкции называется "Код книги" вектора квантования. Вектор квантователь с минимальным искажением кодирования называется Вороной или ближайший сосед квантователя. СОМ предоставляет приближенный метод вычисления квантователя Вороной в неконтролируемом образе с использованием случайного обучения. Подробные шаги по реализации SOM может быть описана как: вычисление функции карты является первым этапом, а затем на втором этапе настраивает SOM, используя информацию о классе для перемещения кодовых книг для улучшения качества регионов классификатора решения.
Е. Пользовательский интерфейсДва интерфейса пользователя были включены в этот гибрид системы. Первый из них, называется интерфейсом (Пользовательский модифицированный интерфейс), направлен на предоставление пользователю дружественный интерфейс для изменения области и отдельных частей базы данных. Вторая, называемая UQI (запросы пользователя) является основой для создания запросов взаимодействующих с базой знаний. Хотя два интерфейса могут быть использованы отдельно, они общаются друг с другом, позволяют пользователю наблюдать, правильно настраивать процесс постройки базы знаний.
1) UMI позволяет пользователю изменять базу данных домена и отдельные модели. Для данной таблицы в базе данных сырья UMI есть список контента, который может использоваться. После пользователь выбирает устройство, инструмент UMI составляет расписание, для того чтобы быть в состоянии запуска процесса. UMI имеет три режима для модификации исполнения:
- Добавить режиме
- Изменить режим
- Удалить режиме
2) UQI является основой для сотрудничества с базой знаний. Он предлагает интерфейс, который использует запросы пользователей для новой проблемы для взаимодействия с базой знаний.
IV. ДЕМОНСТРАЦИЯ РАБОТЫ
Наша гибридная система является многопрофильной платформой, так что различные процедуры могут быть разработаны в схожей манере. В общем говоря, наша демонстрация работы может быть разделена на четыре аспекта, первый интерфейс развития (простое демо показана на рисунке 3), на втором этапе мы концентрируемся на векторизации задачи, которая была представлена в нашей предыдущей работе [14], Третий компонент является частью классификации, то есть выполняемых работ, и последний CBR процедуры в сочетании с СОМ это наши будущие планы.
А. UMI
Рисунок 3. Пользователь модификации интерфейса
Демо показано на рисунке 3, разработанные в рамках Java NetBeans IDE, в этом приложении отдельные модели представлена Java DB (Derby) базы данных, сервера баз данных Sun Java System Application Server. В реальном мире мы не ограничены в работе с базами данных Derby, для работы с другими базами данных, нам необходимо установить сервер базы данных и драйвер JDBC. Для IDE для связи с сервером базы данных, IDE требуется драйвер поддержки JDBC API ("JDBC драйвер").
В. SMO
Есть три компонента SMO: аналитический метод решения для двух множителей Лагранжа, эвристика для выбора множеств для оптимизации и метод вычисления b.
1) аналитический метод: На этом этапе SMO сначала вычисляет ограничения для множества, а затем высчитывает максимальное ограничение. Причина, почему два минимальных числа из множителей Лагранжа, могут быть оптимизированы: если SMO оптимизирует только один множитель, поэтому он не может выполнять линейные ограничения равенства на каждом шагу. Поскольку есть только два множителя, ограничения могут легко отображаются в двух измерениях. Таким образом, максимум ограничения целевой функции должны лежать на диагональном отрезке.
2) эвристики для выбора множителей для оптимизации: В целях ускорения сходимости, SMO использует эвристический выбор, для двух оптимизации множителей Лагранжа. SMO всегда оптимизирует два множителя Лагранжа на каждом шагу, с одним из множителей Лагранжа с предыдущим шагом нарушены условия ККТ до следующего шага, то есть, SMO всегда будет изменять два множителя Лагранжа и двигаться вверх в целевой функции проектируется в одномерном подпространстве. SMO всегда будет поддерживать множитель Лагранжа. Таким образом, общая цель функции увеличится на каждом шагу и алгоритм асимптотически сходится.
V. ВЫВОДЫ
Предлагаемый гибрид интеллектуального анализа данных и тематических рассуждений на основе моделирования пользователя системы, мульти назначения платформы и характеризуется тремя основными процессами. Сначала его архитектура опирается на отдельные модели и базы данных домена, векторизация блока обработки общаться через сырой набор данных, такой подход во избежание несоответствия данных обычно встречаются в классификации документов цепи при реализации средств искусственного интеллекта. Разработчики могут условно добавлять новые компоненты, в результате чего обновление системы происходит очень легко. Быстрое обучение SVM алгоритма через SMO также применяется, так что SVM могут быть реализованы легко. Во-вторых гибридная система оснащена CBR, который способствует самоорганизации. При запуске запрос от пользователя, будет рассматриваться как новый случай или новая проблема и поиск наиболее аналогичного решения в базе знаний, и если нет аналогичного решения, то новый запрос может быть сохранен в качестве нового случае. Таким образом, архитектура реальная модель, потому что пользователь может создать свой собственный случай и интегрировать его в базу знаний.
Литература
- JIM LEE, “Data Explosion”, Disaster Recovery Journal, fall 2004, Volume 17, Issue 4.
- Aamodt, A. and Plaza, E., “Case-based reasoning: foundational issues, Methodological variations, and system approaches”, AI communications, 7(1), 1994, pp. 39-59.
- Usama Fayyad, G. Paitetsky-Shapiro, and Padhrais Smith, “knowledge discovery and data mining: Towards a unifying framework”, proceedings of the International Conference on Knowledge Discovery and Data Mining, 1996, pp. 82-22.
- Stuart J. Russell and Peter Norvig, Artificial Intelligence A Modern Approach, Prentice-Hall International Inc, 1995.
- Vassileva, J., "A practical architecture for user modeling in a hypermedia-based information system", Proceedings of Fourth International Conference on User Modeling, Hyannis, MA, August 1994, pp 15-19.
- Vadim I. Chepegin, Lora Aroyo, Paul De Bra, “Ontology-driven User Modeling for Modular User Adaptive Systems”, LWA, 2004, pp.17-19.
- Watson, I, Applying Case-Based Reasoning: Techniques for Enterprise Systems, Morgan Kaufmann Publishers, Inc., San Francisco, CA, 1997.
- ZhaoHui Tang, Jamie MacLennan, Data Mining with SQL server 2005, John Wiley & Sons, 2005.
- J. C. Platt., “Fast training of SVMs using sequential minimal optimization”, Advances in Kernel Methods- Support Vector Learning, 1998, pp185-208.
- L. Kaufman, “Solving the quadratic programming problem arising in support vector classification”, Advances in Kernel Methods- Support Vector Learning, 1998, pp147-168.
- V. Vapnik, Estimation of Dependences Based on Empirical Data, Springer-Verlag, 1982.
- E. Osuna, R. Freund, and F. Girosi, “Improved training algorithm for support vector machine”, IEEE Neural Networks in Signal Processing 97,1997.
- F. Murtagh. Interpreting the Kohonen, “self-organizing map using contiguity-constrained clustering.”, Pattern Recognition Letters, 1995, pp. 399–408.
- Chen Zhi Yuan, Dino Isa, Peter Blanchifield, “Data preprocessing in a hybrid system”, proceedings of the third Malaysia Software Engineering Conference, 2007, pp332-336.