ТУСУР г. Томск, т.49-22-42, makaleks@mail.ru
Научн. сессия ТУСУР-2006: Матер. Всерос. научно-техн. конф. студентов, аспирантов и молодых специалистов. Ч. 1. Томск, 26–28 апреля 2005 г. Томск: Изд-во Том. гос. ун-та систем управления и радиоэлектроники, 2005. С. 3.
В настоящее время обнаружение человеческого лица на изображении или в видеопотоке становится очень важной темой для научных исследований, из-за широкого диапазона ее возможных приложений, таких как управление контролем доступа в системах безопасности, человеко-машинное взаимодействие и многих других. Также обнаружение лица на изображении является первым шагом в процессе решения задачи идентификации личности человека по изображению лица или распознавания эмоционального выражения лица.
В настоящее время для решения данной задачи начинают интенсивно применяться искусственные нейронные сети. Искусственные нейронные сети давно и успешно применяются для решения многих задач распознавания. Достоинством использования нейросетей для решения задачи обнаружения лица является возможность получения классификатора, хорошо моделирующего сложную функцию распре деления изображений лиц. Недостатком же является необходимость в тщательной и кропотливой настройке нейросети для получения удовлетворительного результата классификации.
В настоящее время основной топологией нейронной сети используемой для решения задачи локализации лица на изображении является полносвязная нейронная сеть без обратных связей, так называемый многослойный персептрон [1]. Но его применение к решению данной задачи представляет несколько трудностей:
Во-первых, как правило, изображения имеют большую размерность, соответственно вырастает размер нейронной сети (количество нейронов и т.п.). Большое количество параметров увеличивает вместимость системы и соответственно требует большей тренировочной выборки, что увеличивает время и вычислительную сложность процесса обучения.
Во-вторых, недостаток полносвязной архитектуры — то, что топология ввода полностью игнорируется.Входные переменные могут быть представлены в любом порядке, не затрагивая цель обучения. Напротив, изображения имеют строгую 2-мерную местную структуру: переменные (пиксели), которые являются пространственно соседними, чрезвычайно зависимы.
На преодоление этих недостатков направлена архитектура сверточных нейронных сетей [2]. Сверточные нейронные сети обеспечивают частичную устойчивость кизмененияммасштаба, смещениям, поворотам, смене ракурса и прочим искажениям.
Сверточные нейронные сети объединяют три архитектурные идеи, для того чтобы гарантировать инвариантность к изменению масштаба, повороту сдвигу и пространственным искажениям:
Архитектура сверточной нейронной сети, состоит из многих слоев. Слои бывают двух типов: сверточные и подвыборочные, сверточные и подвыборочные слои чередуются друг с другом. В свою очередь каждый из этих слоев состоит из набора плоскостей, причем нейроны одной плоскости имеют одинаковые веса, ведущие ко всем локальным участкам предыдущего слоя (как в зрительной коре человека).
Вкратце опишем топологию использемой нами нейронной сети. На вход нейронной сети подается изображение, которое будет в дальнейшемподвергаться классификации, размервходногоизображения 36×32 пикселя. Слой С1 состоит из 5 сверточных плоскостей и выполняет свертывание входного изображения с помощью синаптической маски размером 5×5, таким образом слой С1 осуществляет 5 сверток входного изображения. Следующий за слоем С1, подвыборочный слой S1 состоит из 5 карт характеристик (по одной на каждую плоскость слоя С1) и обеспечивает локальное усреднение и подвыборку. Слой С2 состоит из 20 плоскостей, каждая из 5 плоскостей слоя S1 свернута 2 различными синаптическими масками 3×3, обеспечивая 10 плоскостей в C2. Другие 10 плоскостей C2 получены, суммируя результаты 2 свертываний на каждой возможной паре плоскостей слоя S1. Слои N1 и N2 содержат простые сигмоидальные нейроны. Роль этих слоев состоит в обеспечении классификации, после того, как извлечение особенностейи сокращение размерности входа выполнены. Вслое N1 каждый нейрон полностью связан с каждым нейроном только одной плоскости слоя S2. Уникальный нейрон слоя N2 полностью связан со всеми нейронами слоя N1. Выход этого нейрона используется для классификации входного образа на лица и не лица. В качестве активационной функции нейронов используется гиперболический тангенс.
Для обучения нейронной сети используется алгоритм обратного распространения ошибки с онлайн режимом подстройки синаптических коэффициентов. Желаемые выходы нейронной сети 1 и –1 для лица и нелица соответственно. На этапе обучения нейронной сети предъявляется предварительно подготовленный набор изображений определенного размера, содержащий как изображения лица, так и не лицевые изображения (фон, части лиц и т. п.)
Процесс обнаружения лица на изображении состоит из следующих этапов;
На первом этапе изображение, на котором необходимо найти лицо последовательно масштабируется, таким образом, получится «пирамида» изображений. Затем каждое полученное изображение сканируется входным слоем нейронной сети для выявления изображений-кандидатов.
На втором этапе полученные изображения-кандидаты переносятся на первоначальное изображение, группируются и затем происходит дальнейшая проверка на принадлежность того или иного изображения кандидата к классу лиц, проверка состоит в том, что каждая группа последовательно масштабируется и проверяется нейронной сетью, как правило если нейронная сеть дает положительные ответы в нескольких последовательных масштабах то данная группа является лицом.
На основании анализа существующих схем и программной реализация показано, что наиболее оптимальные результаты для задачи локализации лица человека на изображении позволяют получить сверточные нейронные сети.
Кроме того, сверточные нейронные сеть обладают инвариантностью к повороту, изменению масштаба, изменениям условий съемки.
pp. 396–404. 1990.