СРАВНИТЕЛЬНЫЙ АНАЛИЗ БИБЛИОТЕК КОМПЬЮТЕРНОГО ЗРЕНИЯ

Авторы:Ш. Гадир
Источник: Журнал ТЕХНОЛОГ, 2019 г.

Аннотация

Целью данной статьи является выявление особенностей, возможностей и перспектив развития библиотек компьютерного зрения. Теоретический анализ библиотек компьютерного зрения и программирования, сравнение, интерпретационные методы, которые дают возможность обобщения и объяснения установленных фактов и их взаимосвязи выделены. Рассмотрены библиотеки компьютерного зрения, основанные на различных языках программирования, в частности С++, MATLAB, Python. На сегодняшний день существует широкий перечень библиотек компьютерного зрения, которые являются универсальными в своем применении, но наряду с мощным потенциалом и преимуществами имеют определенные недостатки и «узкие места». Выбор конкретной библиотеки зависит от задач и целей пользователя.

Ключевые слова:библиотека; компьютерное зрение; программирование.

На данный момент технологии достигли значительного развития и продолжают усовершенствоваться. Человечество уже давно пытается создать себе подобные механизмы и другие средства, обладающие людскими возможностями.

Анализ последних исследований показал, что в наше время большинство научных разработок так или иначе связаны с искусственным интеллектом и методами его использования в решении задач любого характера, это в свою очередь привлекает большое внимание к теме компьютерного зрения, как одного из способов восприятия окружающего мира для машин.

Сегодня человек встречается с системами компьютерного зрения практически ежедневно – сканеры, штрих–коды, системы видеонаблюдения и т.д. Компьютерное зрение (машинное зрение, computer vision) представляет собой совокупность программно – технических средств, которые обеспечивают считывание изображений в цифровом виде, их обработку и выдачу результата в форме, пригодной для практического использования в режиме реального времени [1].Также можно отметить, что компьютерное зрение – это попытка скопировать зрение человека, при этом роль глаз выполняют камеры. Сфера применения компьютерного зрения очень разнообразна, а сама технология развивается динамично и разносторонне.

В настоящее время количество новых решений, актуальных приложений и библиотек для компьютерного зрения стремительно возрастает и, хотя некоторые из них все еще находятся на стадии фундаментальных исследований, уже достаточное их количество применяется в коммерческих продуктах, где они органично встраиваются в более крупную систему, которая способна решать сложные задачи, например, в области медицины или в процессе измерения и контроля качества на производствах

оизводствах. Отдельное внимание следует акцентировать на том, что существуют библиотеки, которые являются более продвинутыми по функциональности, к их числу можно отнести Halcon, также есть специализированные библиотеки, делающие акцент на какой–то одной конкретной области или задаче компьютерного зрения, например, Libmv, кроме того, активно используются в разных сферах библиотеки широкой тематики, такие как OpenCV. Возможности современных программных библиотек компьютерного зрения обеспечивают решение ряда важных практических задач: анализ содержания изображений, поиск и распознавание заданных объектов, выявление текста, отслеживание движений объектов, выявление общих элементов на сравниваемых изображениях, реализация методов обучения для баз видеоданных и т.д.

Таким образом, приведенные обстоятельства обусловливают актуальность теоретического ипрактического задания, которое заключается в проведении сравнительного анализа библиотек компьютерного зрения, что и обусловливает выбор темы данной статьи

нной статьи. Проблемы создания и применения методов компьютерного зрения в разное время в своих работах исследовали Р. Сезелиски, Дж. Даугман, Дж. Стокман, Л. Шапиро, Чанг Шу, А. Конушин и другие. Созданию методов интеллектуальной обработки визуальной информации современными системами компьютерного зрения посвящены работы С. Гадецкого и В. Гороховатской.

Однако, в большинстве своем указанные исследования обычно берут свое начало из других областей, и, соответственно, не содержат стандартных формулировок проблемы компьютерного зрения. Также дополнительного внимания требует исследование уже готовых решений и методов для реализации систем компьютерного зрения, с целью дальнейшей их оптимизации и внедрения в зависимости от запросов пользователей.

Таким образом, с учетом вышеизложенного, цель статьи заключается в выявлении особенностей, возможностей и перспектив развития библиотек компьютерного зрения.

Содержание и сущность компьютерного зрения выходит за рамки обработки образов или картинок, так как позволяет получить соответствующую информацию из изображений и принимать решения на основе этих данных [2]. Видеоданные могут быть представлены в исполнении разнообразных форм, таких как видеопоследовательность, изображения, полученные от разных камер или картинка в трехмерном измерении из медицинского сканера и т.д. В соответствии с указанными требованиями одним из основных критериев выбора библиотеки для компьютерного зрения является кроссплатформенный язык программирования.

yTorch, Caffe. Несмотря на все возможности, достоинства и плюсы библиотеки OpenCV, следует отметить ее существенные недостатки. Во–первых, она перегружена второстепенными, дополнительными функциями, что необоснованно затрудняет ее использование. Во–вторых, существенным «узким местом» библиотеки является слабая документация, а также трудности в отладке программ. В–третьих, она достаточно сложна для изучения.

LTI–lib представляет собой объектно–ориентированную библиотеку алгоритмов и структур данных, которая используется при обработке изображений и в сфере компьютерного зрения. Библиотека была разработана в техническом университете как часть научно–исследовательских проектов в области компьютерного зрения одновременно с технологиями робототехники, методами распознавания объектов, голоса и жестов. Основной целью разработки данной библиотеки являлось создание объектно–ориентированных алгоритмов на языке С++, что в большинстве случаев упрощает использование кода и его обслуживание.

Очевидно, что в рамках данной статьи не представляется возможным рассмотреть все библиотеки компьютерного зрения, поэтому синтезированная информация об основных из них представлена на рисунке ниже.

Рисунок 1 – Сравнительная характеристика библиотек компьютерного зрения

Список использованной литературы

1. Kaehler, Adrian, and Gary Bradski. Learning OpenCV 3: computer vision in C++ with the OpenCV library. O’Reilly Media, Inc., 2016.
2. Favorskaya, Margarita N., and Lakhmi C. Jain, eds. Computer Vision in Control Systems 4: Real Life Applications. Vol. 136. Springer, 2017.
3. Arai, Kohei. Advances in Computer Vision: Proceedings of the 2019 Computer Vision Conference (CVC), Volume 2. Springer, 2019.