СРАВНИТЕЛЬНЫЙ АНАЛИЗ БИБЛИОТЕК КОМПЬЮТЕРНОГО ЗРЕНИЯ
Авторы:Ш. Гадир
Источник: Журнал ТЕХНОЛОГ
, 2019 г.
Аннотация
Целью данной статьи является выявление особенностей, возможностей и перспектив развития библиотек компьютерного зрения. Теоретический анализ библиотек компьютерного зрения и программирования, сравнение, интерпретационные методы, которые дают возможность обобщения и объяснения установленных фактов и их взаимосвязи выделены. Рассмотрены библиотеки компьютерного зрения, основанные на различных языках программирования, в частности С++, MATLAB, Python. На сегодняшний день существует широкий перечень библиотек компьютерного зрения, которые являются универсальными в своем применении, но наряду с мощным потенциалом и преимуществами имеют определенные недостатки и «узкие места». Выбор конкретной библиотеки зависит от задач и целей пользователя.
Ключевые слова:библиотека; компьютерное зрение; программирование.
На данный момент технологии достигли значительного развития и продолжают усовершенствоваться. Человечество уже давно пытается создать себе подобные механизмы и другие средства, обладающие людскими возможностями.
Анализ последних исследований показал, что в наше время большинство научных разработок так или иначе связаны с искусственным интеллектом и методами его использования в решении задач любого характера, это в свою очередь привлекает большое внимание к теме компьютерного зрения, как одного из способов восприятия окружающего мира для машин.
Сегодня человек встречается с системами компьютерного зрения практически ежедневно – сканеры, штрих–коды, системы видеонаблюдения и т.д. Компьютерное зрение (машинное зрение, computer vision) представляет собой совокупность программно – технических средств, которые обеспечивают считывание изображений в цифровом виде, их обработку и выдачу результата в форме, пригодной для практического использования в режиме реального времени [1].Также можно отметить, что компьютерное зрение – это попытка скопировать зрение человека, при этом роль глаз выполняют камеры. Сфера применения компьютерного зрения очень разнообразна, а сама технология развивается динамично и разносторонне.
В настоящее время количество новых решений, актуальных приложений и библиотек для компьютерного зрения стремительно возрастает и, хотя некоторые из них все еще находятся на стадии фундаментальных исследований, уже достаточное их количество применяется в коммерческих продуктах, где они органично встраиваются в более крупную систему, которая способна решать сложные задачи, например, в области медицины или в процессе измерения и контроля качества на производствах
оизводствах. Отдельное внимание следует акцентировать на том, что существуют библиотеки, которые являются более продвинутыми по функциональности, к их числу можно отнести Halcon, также есть специализированные библиотеки, делающие акцент на какой–то одной конкретной области или задаче компьютерного зрения, например, Libmv, кроме того, активно используются в разных сферах библиотеки широкой тематики, такие как OpenCV. Возможности современных программных библиотек компьютерного зрения обеспечивают решение ряда важных практических задач: анализ содержания изображений, поиск и распознавание заданных объектов, выявление текста, отслеживание движений объектов, выявление общих элементов на сравниваемых изображениях, реализация методов обучения для баз видеоданных и т.д.
Таким образом, приведенные обстоятельства обусловливают актуальность теоретического ипрактического задания, которое заключается в проведении сравнительного анализа библиотек компьютерного зрения, что и обусловливает выбор темы данной статьи
нной статьи. Проблемы создания и применения методов компьютерного зрения в разное время в своих работах исследовали Р. Сезелиски, Дж. Даугман, Дж. Стокман, Л. Шапиро, Чанг Шу, А. Конушин и другие. Созданию методов интеллектуальной обработки визуальной информации современными системами компьютерного зрения посвящены работы С. Гадецкого и В. Гороховатской.
Однако, в большинстве своем указанные исследования обычно берут свое начало из других областей, и, соответственно, не содержат стандартных формулировок проблемы компьютерного зрения. Также дополнительного внимания требует исследование уже готовых решений и методов для реализации систем компьютерного зрения, с целью дальнейшей их оптимизации и внедрения в зависимости от запросов пользователей.
Таким образом, с учетом вышеизложенного, цель статьи заключается в выявлении особенностей, возможностей и перспектив развития библиотек компьютерного зрения.
Содержание и сущность компьютерного зрения выходит за рамки обработки образов или картинок, так как позволяет получить соответствующую информацию из изображений и принимать решения на основе этих данных [2]. Видеоданные могут быть представлены в исполнении разнообразных форм, таких как видеопоследовательность, изображения, полученные от разных камер или картинка в трехмерном измерении из медицинского сканера и т.д. В соответствии с указанными требованиями одним из основных критериев выбора библиотеки для компьютерного зрения является кроссплатформенный язык программирования.
yTorch, Caffe. Несмотря на все возможности, достоинства и плюсы библиотеки OpenCV, следует отметить ее существенные недостатки. Во–первых, она перегружена второстепенными, дополнительными функциями, что необоснованно затрудняет ее использование. Во–вторых, существенным «узким местом» библиотеки является слабая документация, а также трудности в отладке программ. В–третьих, она достаточно сложна для изучения.
LTI–lib представляет собой объектно–ориентированную библиотеку алгоритмов и структур данных, которая используется при обработке изображений и в сфере компьютерного зрения. Библиотека была разработана в техническом университете как часть научно–исследовательских проектов в области компьютерного зрения одновременно с технологиями робототехники, методами распознавания объектов, голоса и жестов. Основной целью разработки данной библиотеки являлось создание объектно–ориентированных алгоритмов на языке С++, что в большинстве случаев упрощает использование кода и его обслуживание.
Очевидно, что в рамках данной статьи не представляется возможным рассмотреть все библиотеки компьютерного зрения, поэтому синтезированная информация об основных из них представлена на рисунке ниже.
Список использованной литературы
1. Kaehler, Adrian, and Gary Bradski. Learning
OpenCV 3: computer vision in C++ with the OpenCV
library. O’Reilly Media, Inc.
, 2016.
2. Favorskaya, Margarita N., and Lakhmi C.
Jain, eds. Computer Vision in Control Systems 4: Real
Life Applications. Vol. 136. Springer, 2017.
3. Arai, Kohei. Advances in Computer Vision:
Proceedings of the 2019 Computer Vision Conference
(CVC), Volume 2. Springer, 2019.