Українська   English
ДонНТУ   Портал магистров

Реферат по теме выпускной работы

Содержание

Введение

Компьютерное зрение – теория и научная дисциплина, которая преследует цель обнаружения и распознавания предметов на изображениях или в видеопотоке, относится к теории создания искусственных систем. Несмотря на актуальность задачи распознавания образов, существует сложность распознавания компьютером, ведь в отличие от человека компьютер не обладает возможностью определять относительность всех видимых или когда-либо видимых предметов и иметь в памяти базу всех форм и вариаций для каждого объекта, которые предположительно когда-либо будут распознаваться.

1. Актуальность темы

Человек около 90 % информации об окружающем мире получает благодаря зрению. В сфере компьютерных технологий в качестве источника информации может выступать текст, аудио-/видеофайл или изображение. Очень часто, а в основном в сети Интернет, возникает необходимость найти то или иное изображение. В последние годы фотография стала популярным увлечением среди людей благодаря доступу к аппаратному обеспечению, как минимум, практически в каждый телефон встроена камера. Фотографии имеют свойство накапливаться и с течением времени может усложниться поиск по каталогу снимков [4]. Поиск изображения также имеет прямое отношение к распознаванию, ведь ему предваряет классификация изображения. Может потребоваться поиск по подобию изображения или фотографии, например, лекарственного растения, ядовитого насекомого. Может возникнуть надобность нахождения спутниками или зондами географических или крупных объектов на Земле или в космосе. А также классификация изображений может быть применена в сфере медицины для диагностирования заболеваний с помощью изображения результатов УЗИ, рентгена, магнитно-резонансной томографии. Примеров для применения распознавания образов ещё целое множество. Можно упомянуть отдельную категорию – распознавание лиц, применяемую для идентификации личности при такой необходимости, как получение доступа по биометрическим данным, в системах безопасности, обнаружение преступников и пропавших людей по снимкам и так далее. Также распознавание образов играет большую роль в робототехнике, если имеет место пространственная переменчивость окружающей среды или расположения объектов. Эти примеры доказывают необходимость изучения и развития методов классификации изображений.

2. Цель и задачи исследования, планируемые результаты

Целью данной работы является исследование существующих подходов к классификации коллекций цифровых изображений. Декомпозиция цели может дать список предполагаемых задач исследования:

  1. непосредственно изучение методов классификации изображений;
  2. создание тестовой коллекции изображений;
  3. реализация различных методов на базе тестовой коллекции;
  4. аннотирование каждого изображения;
  5. классификация коллекции в целом;
  6. констатация преимуществ и недостатков различных методов;
  7. в реализации возможна модификация или комбинация различных методов.

Объект исследования – методы классификация изображений. Предмет исследования – достоинства и недостатки методов классификации изображений.

3. Обзор исследований и разработок

Прежде, чем приступить в обзору методов, стоит уточнить, что на изображении, которое будет поддаваться классификации, будет находится один или несколько образов, а образ – некоторая упорядоченная совокупность дескрипторов [1], которая однозначно характеризуют этот образ. Что касается дескрипторов, то их тип может варьироваться в зависимости от самого метода.

Распознавание на основе методов теории решений

Его подход основан на использовании решающих или дискриминантных функций. Пусть имеется n-мерный вектор признаков объекта. Предположим, что существует W классов образов. Требуется найти W диксриминантных функций, таких, что если образ x принадлежит некоторому классу, то дискриминантная функция с индексом i имеет большее значение, чем другие. В методах распознавания, основанных на сопоставлении, каждый класс представляется вектором признаков образа, являющегося прототипом этого класса. Незнакомый образ приписывается к тому классу, прототип которого оказывается ближайшим в смысле заранее заданной метрики. Простейший подход состоит в использовании классификатора, основанного на минимальном расстоянии, который, как ясно из названия, вычисляет эвклидовы расстояния между вектором признаков неизвестного объекта и каждым вектором прототипа. Решение о принадлежности объекта к определенному классу принимается по наименьшему из таких расстояний. Метод корреляционного сопоставления состоит в том, что имеется эталон, который ищется на изображении методом скользящего окна [1].

Ещё один подход – статистически оптимальные классификаторы (байесовский). Как и в большинстве областей, связанных с измерением и интерпретацией физических явлений, вероятностные подходы оказываются важными в задаче распознавания образов из-за случайностей, влияющих на порождение классов образов. Можно выработать такой метод классификации, который будет оптимальным в том смысле, что при его использовании будет достигаться наименьшая (в среднем) вероятность появления ошибок классификации. Байесовский подход является классическим в теории распознавания образов и лежит в основе многих методов. Он опирается на теорему о том, что если плотности распределения классов известны, то алгоритм классификации, имеющий минимальную вероятность ошибок, можно выписать в явном виде. Одним из самых успешных применений байесовского классификатора является его использование в задаче классификации данных дистанционного зондирования, регистрируемых с помощью мультиспектральных сканеров, установленных на борту самолета, спутника или орбитальной станции [1]. В работе [7] речь идет об эффективности работы байесовских процедур распознавания.

В рассмотренных подходах сущность обучения проста. Обучающие образы каждого класса используются для вычисления параметров дискриминантной функции, соответствующей этому классу. После того, как оценки необходимых параметров получены, структура классификатора становится фиксированной, и его окончательное качество зависит лишь от того, насколько хорошо реальные совокупности образов отвечают статистическим предположениям, изначально сделанным при выводе используемого метода классификации [1].

В реальных задачах статистические свойства классов образов зачастую неизвестны или не поддаются оценке. На практике для таких задач теории решений более эффективными оказываются методы, в которых необходимые дискриминантные функции строятся непосредственно в ходе обучения. Это устраняет необходимость использовать предположения о функциях плотности распределения вероятностей или о каких-либо других вероятностных параметрах рассматриваемых классов [1]. Для осуществления этой задумки используется математическая модель, построенная по принципу работы нервных клеток живых организмов.

Однослойная нейронная сеть

Хотя один нейрон и способен выполнять простейшие процедуры распознавания, сила нейронных вычислений проистекает от соединений нейронов в сетях. Простейшая сеть состоит из группы нейронов, образующих слой, как показано на рис. 1. Отметим, что вершины-круги слева служат лишь для распределения входных сигналов. Они не выполняют каких-либо вычислений, и поэтому не будут считаться слоем. Каждый элемент из множества входов Х отдельным весом соединен с каждым искусственным нейроном. А каждый нейрон выдает взвешенную сумму входов в сеть. В искусственных и биологических сетях многие соединения могут отсутствовать, все соединения показаны в целях общности. Могут иметь место также соединения между выходами и входами элементов в слое [2].

Однослойная нейросеть
Рисунок 1 – Однослойная нейросеть

Реализация распознавания окружности на однослойной нейросети

Сузим задачу до распознавания окружности. Пусть имеется коллекция изображений окружностей (монохромная для простоты), с помощью которой будет производиться обучение нейросети. Каждое изображение проходит предварительную обработку: оно делится на сегменты, будто на изображение накладывается сетка.

В результате получается так называемая матрица сегментов изображения, которую нужно превратить в матричную маску изображения, то есть если в текущем сегменте присутствует пигмент цвета, значит в матрицу заносится единица, иначе 0. Имеется заранее подготовленная и инициализированная любыми значениями матрица весов, желательно в пределах от -1 до 1. Но, как гласит теорема о сходимости перцептрона, вне зависимости от того, какие коэффициенты выбраны, сеть за конечное число итераций найдет решение. Матрица весов такого же размера, как и маска-матрица. Таким образом осуществления обучения нам понадобятся две эти матрицы, пороговое значение, о котором речь пойдет дальше, и коэффициент скорости обучения, который задает скорость сходимости данных к желаемому результату.

Суть обучения будет заключаться в том, что элементы этих двух матриц будут перемножаться поэлементно и складываться в результат, который при обучении должен давать значение, которое превышает заданный вами лично порог, например 0.8. Если результат не превышает порог, значит необходимо переобучить сеть.

Анимационное представление обучения сети
Рисунок 2 – Процесс обучения сети
(анимация: 7 кадров, 10 циклов повторения, 142 килобайта)

На анимации показан процесс обучения сети, где F(X) – вычисление функции, необходимой для осуществеления задачи сети, Y результат этой функции, который будет сравнивать с эталонным значение gY. Результат сравнения повлияет на дальнейший исход: либо сеть продолжит обучаться (T(X) с результирующий правкой для X – ΔX), либо будет получен результат обчуения сети Е.

Когда все веса будут настроены, то есть будут подходить для каждого представления окружности в виде маски, то можно переходить на этап распознавания. Происходит в аналогичной форме, только без переобучения, то есть если на первом этапе суммарное значение произведений элементов матрицы весов и маски-матрицы дает результат меньше требуемого, то ответ готов – перед нами будет вывод о том, поступила ли на вход окружность.

Результат работы программы
Рисунок 3 – Результат работы программы

Многослойные нейронные сети

Более крупные и сложные нейронные сети обладают, как правило, и большими вычислительными возможностями. Хотя созданы сети всех конфигураций, какие только можно себе представить, послойная организация нейронов копирует слоистые структуры определенных отделов мозга. Оказалось, что такие многослойные сети обладают большими возможностями, чем однослойные, и в последние годы были разработаны алгоритмы для их обучения. Многослойные сети могут образовываться каскадами слоев. Выход одного слоя является входом для последующего слоя. Подобная сеть показана на рисунке 4 и снова изображена со всеми соединениями [2].

Многослойная нейросеть
Рисунок 4 – Многослойная нейросеть

В работе [12] описан алгоритм распознавания лица на базе нейросети с обратным распространением ошибки с предварительной обработкой изображений методом главных компонент, что помогает сделать множество признаков изображения некоррелированными. В работе [5] речь идет о распознавании человека по изображению лица нейросетевыми методами. В работе [10] речь идет о методах поиска с учетом формы и расположения объектов в цифровых коллекциях изображений, в частности о том, что при поиске графических изображений по их содержанию применяют такие признаки, как цвет, текстура, форма, пространственные признаки, характеристики, существенные для зрительного восприятия (зернистость, контрастность).

Неокогнитрон

Неокогнитрон представляет собой самоорганизующуюся многослойную нейронную сеть. Необычность неокогнитрона состоит в том, что благодаря организации слоёв динамическим образом сеть становится инвариантной по отношению к положению, повороту распознаваемого образа. В работе [3] речь идет о неокогнитроне Фукушимы. В работе [6] описываются результаты моделирования неокогнитрона с оптимизированными по времени исполнения и простоте описания алгоритмами обучения и функционирования сети, а также предлагается новый подход к формированию обучающих образов и связей между слоями сети. В работах [9] [11] рассмотрен случай распознавания образов в случае наличия искажений, описана модель и алгоритм обучения неокогнитрона. В работе [8] описана структура и алгоритм обучения и работы неокогнитрона для распознавания лица человека.

Нечеткая логика

Теория нечетких множеств оперирует качественными понятиями, что характерно для человека, вместе с тем она дает им количественную оценку, что характерно для ЭВМ. Таким образом, в ней объединяются достоинства человеческого оперирования знаниями и вычислительная мощность ЭВМ. Нечеткая логика, которая служит основой для реализации методов нечеткого управления, более естественно описывает характер человеческого мышления и ход его рассуждений, чем традиционные формально­логические системы. Именно поэтому использование математических средств для представления нечеткой исходной информации позволяет строить модели, которые наиболее адекватно отражают различные аспекты неопределенности, постоянно присутствующей в окружающей нас реальности [13].

Нечеткая логика – раздел математики, базирующийся на основе понятия нечеткого множества. Идея нечеткого множества состоит в том, что элементы множества входят в него по заданной функции принадлежности, значение которой может варьироваться от 0 до 1, то есть с какой-то степенью уверенности. Нечеткие логические рассуждения можно представить в виде нейронной сети и часто используются для решения задачи рапознавания образов.

В работе [13] рассматривается процесс распознавания образов (на примере идентификации человека) с использованием математического аппарата нечеткой логики. Для построения системы распознавания объектов необходимо обеспечить как минимум три основных этапа, а именно: улучшение качества изображения путем фильтрации шумовых составляющих, сегментации или кластеризации объектов, присутствующих на изображении, и, наконец, классификации образов. Следует отметить, что результат распознавания в одинаковой степени зависит от качества каждого из этапов, причем если на предыдущем этапе был получен негативный результат, то последующие этапы только усилят эту ошибку, что в целом даст негативный результат для системы распознавания в целом. Еще одним важным моментом, который необходимо отметить, является то, что на этапе классификации образов огромную роль играет набор входных данных для процесса классификации. Если этот набор избыточный или, наоборот, недостаточный, то это также отразится на качестве распознавания. Как правило, непосредственно перед процессом классификации выполняется процедура выделения характерных признаков во входной информации, то есть выделение наиболее значимой информации и игнорирование малозначащей [13].

Выводы

Наибольшей популярностью – по распространению материала в сети Интернет – пользуются нейросетевые методы распознавания образов. Теория нечетких множеств также является мощным инструментов для построения интеллектуальных аппаратно-программных систем распознавания образов. Также немаловажным фактором является то, насколько хорошо изображение подготовлено для распознавания, то есть удалены шумы, и сама система распознавания должна хорошо понимать разницу между классами образов, то есть они должны быть разделимыми.

При написании данного реферата магистерская работа еще не завершена. Окончательное завершение: январь 2015 года. Полный текст работы и материалы по теме могут быть получены у автора или его руководителя после указанной даты.

Список источников

  1. Р. Гонсалез, Р.Вудс Цифровая обробка изображений: Пер. с англ. – М.: Издательский дом Техносфера, 2005. – С. 1073.
  2. Основы искусственных нейросетей [Электронный ресурс]. – Режим доступа: http://neuronets.chat.ru/foundations.html
  3. С. А. Терехов Неокогнитрон Фукушимы [Электронный ресурс]. – Режим доступа: http://www.masters.donntu.ru/2004/kita/stryukov/...
  4. Д. Г. Мурадина, Н. С. Костюкова Исследование методов классификации коллекций цифровых изображений. Информационные управляющие системы и компьютерний мониторинг (ИУС КМ – 2014) – 2014 / Материалы V международной научно-технической конференции студентов, аспирантов и молодых ученых. – Донецк, ДонНТУ – 2014, Том 6, с. 262-265.
  5. Д. В.Брилюк, В. В.Старовойтов Распознавание человека по изображению лица нейросетевыми методами [Электронный ресурс]. – Режим доступа: http://goo.gl/CHJzCn
  6. Р. Х. Садыхов, М. Е. Ваткин Алгоритм обучения нейронной сети неокогнитрон для распознавания рукописных символов распознавания рукописных символов [Электронный ресурс]. – Режим доступа: http://neuroface.narod.ru/files/neocog_hand_writ.pdf
  7. Александра Вагис, Анатолий Гупал Эффективность байесовских процедур распознавания [Электронный ресурс]. – Режим доступа: http://www.foibg.com/ibs_isc/ibs-15/ibs-15-p11.pdf
  8. А. О. Сова Распознавание человека с помощью нейронной сети типа неокогнитрон [Электронный ресурс]. – Режим доступа: http://masters.donntu.ru/2011/fknt/sova/...
  9. Ю. С. Махно Распознавание графических образов с помощью нейронной сети типа неокогнитрон с помехами [Электронный ресурс]. – Режим доступа: http://masters.donntu.ru/2008/fvti/makhno/...
  10. М. Ю. Похиль Методы поиска с учетом формы и расположения объектов в цифровых коллекциях изображений [Электронный ресурс]. – Режим доступа: http://masters.donntu.ru/2008/fvti/pohil/...
  11. К. В. Дрига Распознавание зашумленных и искаженных образов с помощью неокогнитрону [Электронный ресурс]. – Режим доступа: http://masters.donntu.ru/2006/fvti/driga...
  12. Hemant Singh Mittal, Harpreet Kaur Face Recognition Using PCA & Neural Network [Электронный ресурс]. – Режим доступа: http://www.ijese.org/attachments/File/v1i6/F0266041613.pdf
  13. В. П. Полторак, Я. Ю. Дорогой Система распознавания образов на базе нечеткого нейронного классификатора [Электронный ресурс]. – Режим доступа: http://aaecs.org/poltorak-vp-dorogoi-yayu-sistema...