Назад в библиотеку

Выбор библиотеки компьютерного зрения для восприятия динамического языка жестов

Автор: А.Д. Гетманова, К.А. Ручкин

Источник:Информатика, управляющие системы, математическое и компьютерное моделирование (ИУСМКМ-2018): сборник материалов IX Международной научно-технической конференции в рамках IV Международного Научного форума Донецкой Народной Республики. 31 мая 2018 г. – Донецк, ГОУ ВПО «Донецкий национальный технический университет», 2018.

Аннотация

Гетманова А.Д., Ручкин К.А. Выбор библиотеки компьютерного зрения для восприятия динамического языка жестов. Проанализированы библиотеки OpenCV и AForge.NET, выявлены преимущества и недостатки обеих библиотек, на основе которых была определена более приемлемая система управления.

Ключевые слова

OpenCV, AForge.NET, компьютерное зрение

Введение

В настоящее время компьютерное зрение применяется во многих областях. Данная технология используется не только в компьютерных играх, аэросъемке, создании уличных карт, но и при проектировании систем управления беспилотными аппаратами, обработки биомедицинских анализов.

Компьютерное зрение — теория и технология создания машин, которые могут производить обнаружение, отслеживание и классификацию объектов на получаемом из сенсорных источников видеосигнале[1].

Технология компьютерного зрения используется в различных системах, связанных со считыванием и интерпретацией визуальной информации в обрабатываемые компьютером команды и данные. Для практической реализации подобных систем могут использоваться различные библиотеки компьютерного зрения. Наиболее распространенными и функциональными из них являются библиотеки с открытым исходным кодом OpenCV и AForge.NET.

Целью исследования является определение наиболее приемлемой для реализации целей дипломной работы библиотеки компьютерного зрения.

Задача данной работы состоит в рассмотрении библиотек OpenCV и AForge.NET, а также анализе преимуществ и недостатков данных библиотек компьютерного зрения.

Актуальность данного исследования заключается в необходимости выбора подходящей библиотеки, способной удовлетворить требованиям, определённым для проектирования системы управления мультимедийным контентом, а также имеющей меньшее количество недостатков.

Библиотека компьютерного зрения OpenCV

OpenCV (англ. Open Source Computer Vision Library, библиотека компьютерного зрения с открытым исходным кодом) — библиотека алгоритмов компьютерного зрения, обработки изображений и численных алгоритмов общего назначения с открытым кодом[2].

Библиотека реализована на языках высокого уровня C и C++, также разработаны дополнения для таких языков, как Python, Java, Matlab, C# и других.

Данная библиотека включает в себя алгоритмы, работающие в режиме реального времени, для распознавания жестов, интерпретации изображений, устранения оптических искажений, определения сходства, анализа перемещения объекта, определения формы объекта и слежения за ним, сегментации объекта и многое другое.

Благодаря анализу спектрограмм, библиотека OpenCV используется для распознавания различных звуков и музыки.

Преимущества OpenCV

Библиотека компьютерного зрения OpenCV является наиболее популярной за счет возможности свободного использования в коммерческих и академических целях.

Основными преимуществами данной библиотеки являются:

Помимо вышеперечисленных преимуществ у библиотеки OpenCV имеется многочисленное сообщество, участники которого делятся опытом, своими разработками функций и компонентов, а также обсуждают темы и проблемы, связанные с данной библиотекой.

Также, помимо сообщества, существует большое количество документации на русском языке, а также различных справочников, научных работ и книг, в которых описываются методы работы с OpenCV и функции данной библиотеки.

На сегодняшний день библиотека OpenCV развивается, постоянно выходят обновления и новые возможности, которые связаны с калибровкой нескольких камер одновременно, методами смешивания зрения с датчиками глубины, улучшением возможностей распознавания образов, а также большей поддержкой для роботов.

Библиотека компьютерного зрения AForge.NET

AForge.NET &mdash это библиотека с открытым исходным кодом, разработанная на языке C#, которая используется разработчиками и исследователями при решении задач, связанных с компьютерным зрением[3].

Возможности данной библиотеки достаточно разнообразны и включают в себя нейронные сети, машинное обучение, нечеткую логику, генетические алгоритмы, обработку изображений и многое другое.

Библиотека AForge.NET включает в себя несколько основных компонентов:

Преимущества AFonge.NET

Данная библиотека имеет ряд преимуществ, среди которых большое количество примеров демонстрации её работы. Также к этой библиотеке имеется актуальная HTML–документация, которая может помочь начинающим разработчикам при её использовании в своих проектах.

Одним из преимуществ также является наличие собственного сообщества, участники которого могут ответить на вопросы, касающиеся работы с данной библиотекой, а также делятся своими наработками по практическому применению и модернизации различных алгоритмов и функций библиотеки.

Библиотека AForge.NET постоянно улучшается и развивается, разрабатываются новые методы, функции и т.д., которые расширяют её возможности.

Недостатки

Основным недостатком данной библиотеки компьютерного зрения является отсутствие документации на русском языке, что осложняет работу с ней.

Выводы

Таким образом, в ходе исследования были рассмотрены две библиотеки компьютерного зрения, были выявлены их преимущества и недостатки.

В качестве библиотеки для восприятия и интерпретации динамического языка жестов была выбрана библиотека OpenCV ввиду её широкой распространенности и большего удобства практической работы с её алгоритмами в сравнении со второй рассмотренной библиотекой компьютерного зрения. Инструменты, предоставляемые библиотекой OpenCV, в полной мере удовлетворяют требованиям к инструментарию, определенным в дипломной работе для реализации системы управления мультимедийным контентом на базе восприятия разрабатываемого динамического языка жестов.

В данной библиотеке постоянно выходят новые обновления, которые расширяют возможности OpenCV, благодаря чему она находится в состоянии постоянной модернизации.

При выборе одними из основных критериев являлись наличие разнообразных материалов и документации на русском языке к библиотеке, а также удобство практического использования её инструментов и алгоритмов.

Список использованной литературы

1. Компьютерное зрение [Электронный ресурс]. – Режим доступа: https://ru.m.wikipedia.org/wiki/Компьютерное_зрение
2. OpenCV [Электронный ресурс]. – Режим доступа: https://ru.wikipedia.org/wiki/OpenCV
3. Применение библиотеки AForge.NET [Электроный ресурс]. – Режим доступа: https://moluch.ru/archive/154/43602/