Автор: А.Д. Гетманова, К.А. Ручкин
Источник:Информатика, управляющие системы, математическое и компьютерное моделирование (ИУСМКМ-2018): сборник материалов IX Международной научно-технической конференции в рамках IV Международного Научного форума Донецкой Народной Республики. 31 мая 2018 г. – Донецк, ГОУ ВПО «Донецкий национальный технический университет», 2018.
Гетманова А.Д., Ручкин К.А. Выбор библиотеки компьютерного зрения для восприятия динамического языка жестов. Проанализированы библиотеки OpenCV и AForge.NET, выявлены преимущества и недостатки обеих библиотек, на основе которых была определена более приемлемая система управления.
OpenCV, AForge.NET, компьютерное зрение
В настоящее время компьютерное зрение применяется во многих областях. Данная технология используется не только в компьютерных играх, аэросъемке, создании уличных карт, но и при проектировании систем управления беспилотными аппаратами, обработки биомедицинских анализов.
Компьютерное зрение — теория и технология создания машин, которые могут производить обнаружение, отслеживание и классификацию объектов на получаемом из сенсорных источников видеосигнале[1].
Технология компьютерного зрения используется в различных системах, связанных со считыванием и интерпретацией визуальной информации в обрабатываемые компьютером команды и данные. Для практической реализации подобных систем могут использоваться различные библиотеки компьютерного зрения. Наиболее распространенными и функциональными из них являются библиотеки с открытым исходным кодом OpenCV и AForge.NET.
Целью исследования является определение наиболее приемлемой для реализации целей дипломной работы библиотеки компьютерного зрения.
Задача данной работы состоит в рассмотрении библиотек OpenCV и AForge.NET, а также анализе преимуществ и недостатков данных библиотек компьютерного зрения.
Актуальность данного исследования заключается в необходимости выбора подходящей библиотеки, способной удовлетворить требованиям, определённым для проектирования системы управления мультимедийным контентом, а также имеющей меньшее количество недостатков.
OpenCV (англ. Open Source Computer Vision Library, библиотека компьютерного зрения с открытым исходным кодом) — библиотека алгоритмов компьютерного зрения, обработки изображений и численных алгоритмов общего назначения с открытым кодом[2].
Библиотека реализована на языках высокого уровня C и C++, также разработаны дополнения для таких языков, как Python, Java, Matlab, C# и других.
Данная библиотека включает в себя алгоритмы, работающие в режиме реального времени, для распознавания жестов, интерпретации изображений, устранения оптических искажений, определения сходства, анализа перемещения объекта, определения формы объекта и слежения за ним, сегментации объекта и многое другое.
Благодаря анализу спектрограмм, библиотека OpenCV используется для распознавания различных звуков и музыки.
Библиотека компьютерного зрения OpenCV является наиболее популярной за счет возможности свободного использования в коммерческих и академических целях.
Основными преимуществами данной библиотеки являются:
Помимо вышеперечисленных преимуществ у библиотеки OpenCV имеется многочисленное сообщество, участники которого делятся опытом, своими разработками функций и компонентов, а также обсуждают темы и проблемы, связанные с данной библиотекой.
Также, помимо сообщества, существует большое количество документации на русском языке, а также различных справочников, научных работ и книг, в которых описываются методы работы с OpenCV и функции данной библиотеки.
На сегодняшний день библиотека OpenCV развивается, постоянно выходят обновления и новые возможности, которые связаны с калибровкой нескольких камер одновременно, методами смешивания зрения с датчиками глубины, улучшением возможностей распознавания образов, а также большей поддержкой для роботов.
AForge.NET &mdash это библиотека с открытым исходным кодом, разработанная на языке C#, которая используется разработчиками и исследователями при решении задач, связанных с компьютерным зрением[3].
Возможности данной библиотеки достаточно разнообразны и включают в себя нейронные сети, машинное обучение, нечеткую логику, генетические алгоритмы, обработку изображений и многое другое.
Библиотека AForge.NET включает в себя несколько основных компонентов:
Данная библиотека имеет ряд преимуществ, среди которых большое количество примеров демонстрации её работы. Также к этой библиотеке имеется актуальная HTML–документация, которая может помочь начинающим разработчикам при её использовании в своих проектах.
Одним из преимуществ также является наличие собственного сообщества, участники которого могут ответить на вопросы, касающиеся работы с данной библиотекой, а также делятся своими наработками по практическому применению и модернизации различных алгоритмов и функций библиотеки.
Библиотека AForge.NET постоянно улучшается и развивается, разрабатываются новые методы, функции и т.д., которые расширяют её возможности.
Основным недостатком данной библиотеки компьютерного зрения является отсутствие документации на русском языке, что осложняет работу с ней.
Таким образом, в ходе исследования были рассмотрены две библиотеки компьютерного зрения, были выявлены их преимущества и недостатки.
В качестве библиотеки для восприятия и интерпретации динамического языка жестов была выбрана библиотека OpenCV ввиду её широкой распространенности и большего удобства практической работы с её алгоритмами в сравнении со второй рассмотренной библиотекой компьютерного зрения. Инструменты, предоставляемые библиотекой OpenCV, в полной мере удовлетворяют требованиям к инструментарию, определенным в дипломной работе для реализации системы управления мультимедийным контентом на базе восприятия разрабатываемого динамического языка жестов.
В данной библиотеке постоянно выходят новые обновления, которые расширяют возможности OpenCV, благодаря чему она находится в состоянии постоянной модернизации.
При выборе одними из основных критериев являлись наличие разнообразных материалов и документации на русском языке к библиотеке, а также удобство практического использования её инструментов и алгоритмов.
1. Компьютерное зрение [Электронный ресурс]. – Режим доступа: https://ru.m.wikipedia.org/wiki/Компьютерное_зрение
2. OpenCV [Электронный ресурс]. – Режим доступа: https://ru.wikipedia.org/wiki/OpenCV
3. Применение библиотеки AForge.NET [Электроный ресурс]. – Режим доступа: https://moluch.ru/archive/154/43602/