Автор: А.А. Кузнецова, Т.В. Малева, В.И. Соловьев
Источник: ФГОБУ ВО «Финансовый университет при Правительстве Российской Федерации»,
г. Москва, Россия
Целью исследования является обзор применения глубоких сверточных нейронных сетей в системах машинного зрения роботов для уборки урожая плодовых культур. Рассмотрено применение для обнаружения плодов модели AlexNet и ее модификаций, модели R-CNN и ее модификаций, а также алгоритма YOLO и его модификаций. Проведено сравнение качества распознавания плодов различными алгоритмами. Показано, что алгоритм YOLO и его модификации, распознающие плоды за один проход, являются достаточно быстрыми и точными, позволяя обнаруживать порядка 90% фруктов на изображениях. Выделена наиболее важная метрика качества алгоритмов обнаружения плодов: доля необнаруженных фруктов, фактически определяющая недобор урожая роботом. Этот показатель является более важным, чем доля объектов, ошибочно принимаемых алгоритмом за фрукты (влияющая на скорость работы робота), и чем традиционно рассчитываемый специалистами по нейронным сетям показатель IoU (Intersection over Union). При этом о репрезентативности результатов оценки качества алгоритмов распознавания плодов возможно говорить лишь в том случае, если показатели качества рассчитываются на тестовом наборе изображений, содержащем хотя бы 1000 фруктов.
садоводство, робот для сбора урожая, машинное зрение, обработка изображений, распознавание образов, сверточные нейронные сети, оценка качества.
За последние сто лет в сельском хозяйстве произошло несколько революций. Две основные из них, связанные с механизацией и использованием химических удобрений, привели к значительному повышению производительности труда. Тем не менее ручной труд продолжает оставаться основным компонентом затрат в сельском хозяйстве.
В садоводстве сбор плодов происходит вручную, доля ручного труда в общей стоимости выращиваемых овощей, фруктов, злаков достигает 40%. В результате стремления людей переселяться из сельской местности в городскую с каждым годом набирать сезонных работников для сбора урожая становится все сложнее. При этом недобор урожая фруктов доходит до 50% .
Развитие использования интеллектуальных роботов для сбора плодов теоретически может существенно повысить производительность труда, уменьшить долю тяжелых рутинных ручных операций по сбору урожая, снизить недобор урожая. Прототипы роботов для сбора фруктов начали разрабатываться еще в конце 1960-х годов. Но до сегодняшнего дня ни один прототип не перешел в фазу практического использования в агропредприятиях, поскольку себестоимость производства таких роботов достигает сотен тысяч долларов, при том, что скорость сбора плодов крайне низка, а доля несобранных плодов остается очень высокой.
В значительной степени низкая скорость сбора плодов и высокий процент фруктов, остающихся висеть на деревьях, связаны с недостаточным качеством систем машинного зрения, используемых в роботах для сбора яблок. Однако в последнее время, с появлением сверточных нейронных сетей, в системах машинного зрения, используемых в роботах для сбора плодов, происходит довольно существенное развитие.
Данная статья имеет целью провести подробный обзор глубоких сверточных нейронных сетей, используемых в системах машинного зрения роботов для уборки урожая, выявить наиболее перспективные алгоритмы, а также наиболее важные с точки зрения практического использования характеристики качества работы этих алгоритмов.
Детерминированные методы, а также классические алгоритмы машинного обучения, применяемые в роботах для сбора плодов, подробно обсуждались в статье, опубликованной в предыдущем номере журнала.
ТС 2012 г., с появлением глубоких сверточных нейронных сетей, в частности сети AlexNet, предложенной в работе А. Крижевского, И. Суцкевера и Дж.Е. Хинтона, машинное зрение и его применение для обнаружения на фотографиях различных объектов, в том числе фруктов, получило импульс в развитии. Сеть AlexNet с серьезным отрывом заняла первое место на конкурсе ImageNet Large-Scale Visual Recognition Challenge – 2012 (доля правильно распознанных изображений составила 84,7% против 73,8% у второго места).
В 2015 г. К. Симонян и А. Зиссерман опубликовали статью, в которой предложили улучшенную версию модели AlexNet — сверточную нейронную сеть VGG16, показавшую 92,7% правильных ответов на конкурсе ImageNet LargeScale Visual Recognition Challenge – 2014.
Х.А.М. Вильямс, М.Х. Джонс, М. Нежати, М.Дж. Сибрайт и Б.А. МакДональд (2018) построение или робота для сбора киви и провели его полевые испытания. Система машинного зрения в этом роботе, построенная на базе сети VGG16, оказалась способна обнаруживать 76% киви. При этом система машинного зрения также определяла фрукты, до которых манипулятор способен дотянуться (таких оказалось 55%). В полевых испытаниях робот собирал урожай в саду, в котором было 1456 плодов киви. Был собран 51% плодов, 24,6% были потеряны в процессе сбора, а 24,5% остались на деревьях. Сбор одного фрукта занимал в среднем около 5 с, основное время при этом занимала работа нейронной сети. Тем не менее, повидимому, на сегодняшний день это один из самых быстрых роботов для сбора урожая.
Нейронная сеть VGG16 была использована Ж. Лью, Дж. Ву, Я. Маджидом, Я. Фенгом, Р. Ли и Й. Сью (2020) для обнаружения киви и показала точность на уровне 90%. Набор данных Hayward-Kiwi, на котором обучалась данная модель, опубликован авторами в 2019 г. в открытом доступе (https://github.com/Hayward-kiwi/Hayward-Kiwi-RGB-NIR-D).
Похожая нейронная сеть, построенная в 2018 г. Х. Мурешаном и М. Олтеаном, была обучена на собранном авторами наборе данных Fruits 360 (https//github.com/Horea94/FruitImages-Dataset), состоящем из 4000 фотографий реальных плодов. В результате на контрольном наборе изображений доля правильно распознанных плодов составила 96,3%.
Следующим продвижением в компьютерном зрении стала предложенная Р. Гиршиком, Дж. Донахью, Т. Дарреллом и Дж. Маликом (2014) сеть R-CNN и ее модификации Fast R-CNN (Р. Гиршик, 2015), Faster R-CNN (С. Рен, К. Хе и Р. Гиршик, 2017) и Mask R-CNN (К. Хе, Дж. Гкиоксари, П. Доллар и Р. Гиршик, 2017), которые дали возможность на изображении, содержащем большое количество объектов, многие из которых перекрывают друг друга, идентифицировать различные объекты, определять их границы и взаимное расположение.
Предложенная в 2016 г. К. Хе, К. Чжангом, С. Реном и Дж. Саном сеть ResNet, основанная на модели Faster R-CNN, заняла первое место на конкурсе ImageNet Large-Scale Visual Recognition Challenge – 2015, дав 96,4% правильных ответов.
Дж. Чжанг, Л. Хе, М. Карке, К. Чжанг, Кс. Чжанг и З. Гао (2018) с помощью сети R-CNN правильно обнаружили 86% яблоневых ветвей.
И. Са, З. Ге, Ф. Дайоуб, Б. Апкрофт, Т. Перез и К. МакКул (2016) использовали сеть Faster R-CNN для распознавания томатов, С. Барготи и Дж. Андервуд (2017) распознавали с помощью Faster R-CNN яблоки, манго и миндаль, М. Пиблз, С.Х. Лим, М. Дюк, Б. МакГиннесс (2019) обнаруживали спаржу с помощью сети Faster R-CNN. В работах показатель F1 превысил 90%, авторы статьи сообщили, что показатель F1 оказался равен 73%.С. Барготи и Дж. Андервуд в 2016 г. также опубликовали в свободном доступе набор данных ACFR-Multifruit-2016 (http//data.acfr.usyd.edu. au/ag/treecrops/2016-multifruit/), на котором обучалась их модель. Этот набор данных содержит 1120 фотографий крон яблок с плодами, 1964 фотографий крон манго и 620 фотографий крон миндаля.
И. Ю, К. Жанг, Л. Янг и Д. Жанг (2019) построили модель Mask R-CNN для обнаружения клубники, при этом показатель F1 превысил 90%.
У. Джиа, Ю. Тиан, Р. Люо, Ж. Чжанг, Ю. Чженг (2020) использовали Mask R-CNN для распознавания яблок, сообщив о том, что на контрольной выборке из 368 яблок на 120 изображениях алгоритм продемонстрировал 97%-ю точность и 95%-ю полноту.
Дж. Гене-Мола, Э. Грегорио, Ф.А. Чеин, Х. Гуэвара, Х. Ллоренс, Р. Санс-Кортиелла, А. Эскола и Х.Р. Роселл-Поло (2020) применили Mask R-CNN к анализу трехмерных изображений, полученных с помощью лидара, что позволило достигнуть 86,5%-й доли обнаруженных яблок. При этом сеть обучалась на наборе данных, состоящем из трехмерных изображений 434 яблок на 3 деревьях, а в контрольный набор данных вошло 1021 ябл око на 8 деревьях.
Х. Ган, У.С. Ли, В. Алканатис, Р. Эсхани и Дж.К. Шуэллер (2018) применили Faster R-CNN для распознавания зеленых цитрусовых, при этом достигнута точность обнаружения плодов на уровне 95,5% и полнота на уровне 90,4%.
В 2016 г. был предложен новый алгоритм – YOLO (You Only Look Once – смотрим только один раз). До этого чтобы обнаружить на изображении объекты, модели классификации, основанные на нейронных сетях, применялись к одному изображению несколько раз – в нескольких различных областях и/или на нескольких масштабах. Подход YOLO предполагает однократное применение одной нейронной сети к целому изображению. Модель разделяет изображение на области и сразу определяет рамки объектов и вероятности отнесения к классам для каждого объекта. Третья версия алгоритма YOLO опубликована в 2018 г. под названием YOLOv3, последняя версия, YOLOv4, опубликована в апреле 2020 г.
Данный алгоритм обучался на наборе данных COCO – Common Objects in Context (http://cocodataset.org/#overview), состоящем из 123287 изображений, на которых содержится 886284 объектов, каждый из которых отнесен к одному из 80 классов (66808 людей, 5756 рюкзаков, 4142 зонта, 2346 бананов, 1662 яблока, 1784 апельсина и др.)
Алгоритм YOLO является одним из самых эффективных по скорости, поэтому в работах по созданию прототипов роботов для сбора фруктов данный алгоритм очень быстро нашел применение.
Ю. Тиан, Г. Янг, Ж. Ванг, Х. Ванг, Е. Ли и З. Лианг (2019) применили для обнаружения яблок модификацию модели YOLO. В данной модификации сеть сделали плотно связанной: каждый слой связали со всеми последующими слоями, как предлагает подход DenseNet. Для оценки качества обнаружения фруктов полученным в результате алгоритмом YOLOv3-Dense использовалось среднее отношение пересечения истинного прямоугольника, описанного вокруг яблока, и предсказанного прямоугольника к среднему объединению данных прямоугольников (IoU – Intersection over Union). Этот показатель оказался равным 89,6% при среднем времени распознавания одного яблока, равном 0,3 с. В той же статье применение модели Faster R-CNN показало значение IoU на уровне 87% при среднем времени обнаружения, равном 2,42 с.
Х. Канг и Ч. Чен (2020) предложили для обнаружения яблок модель нейронной сети, которая определяет объекты на изображениях с учетом их наложения за один проход – так же, как и YOLO. Показатель IoU в этой сети DaSNet-v2 оказался на уровне 86%.
Ш. Ван и С. Гудос (2020) сравнили три алгоритма распознавания апельсинов, яблок и манго на основе компьютерного зрения. Оказалось, что предложенная авторами модификация алгоритма Faster R-CNN обнаруживает примерно 90% плодов, что на 3–4% лучше, чем стандартный Faster R-CNN на том же наборе данных и примерно на том же уровне, что YOLOv3. Однако средняя скорость распознавания плода у YOLOv3 составила 40 мс против 58 мс у модифицированной сети Faster R-CNN и 240 мс у стандартной сети Faster R-CNN.
Следует отметить, что доля правильно распознанных плодов и доли ошибок первого и второго рода приводятся в абсолютном меньшинстве статей, а показатель IoU приводится лишь в единичных работах.
Анализ современных глубоких сверточных нейронных сетей, используемых в прототипах роботов для уборки урожая плодовых культур, показал, что современные однопроходные алгоритмы типа YOLO способны обнаруживать высокую долю фруктов на изображениях — порядка 90%. При этом такие алгоритмы работают достаточно быстро, и на обнаружение одного плода уходит от нескольких миллисекунд до нескольких десятков миллисекунд, что является приемлемым для использования на практике.
Наиболее важной метрикой качества алгоритмов обнаружения плодов являетcя не традиционно рассчитываемый специалистами по нейронным сетям показатель IoU (Intersection over Union), а доля необнаруженных фруктов, фактически определяющая недобор урожая роботом. Меньшую важность имеет доля объектов, ошибочно принимаемых алгоритмом за фрукты — этот показатель влияет на скорость работы робота.
При этом о репрезентативности результатов оценки качества алгоритмов распознавания плодов возможно говорить лишь в том случае, если показатели качества рассчитываются на тестовом наборе изображений, содержащем хотя бы 1000 фруктов.
1. Bechar, A. & Vigneault, C. (2016). Agricultural robots for fi eld operations: Concepts and components. Biosystems Engineering, vol. 149, pp. 94–111.
2. Ceres, R., Pons, J., Jimenez, A., Martin, J. & Calderon, L. (1998). Design and implementation of an aided fruitharvesting robot (Agribot). Industrial Robot, vol. 25, no. 5, pp. 337–346.
3. Edan, Y., Han, S.F. & Kondo, N. (2009). Automation in agriculture. In: Springer Handbook of Automation. Berlin, Heidelberg, Germany: Springer, pp. 1095–1128.
[4. Krizhevsky, A., Sutskever, I. & Hinton, G.E. (2012). ImageNet classifi cation with deep convolutional neural networks. In: Proceedings of the Advances in Neural Information Processing Systems Conference — NIPS 2012, Harrahs and Harveys, Lake Tahoe, Canada, 3–8 December 2012, pp. 1–9.
5. Simonyan, K. & Zisserman, A. (2015). Very deep con–volutional networks for large–scale image recognition. In: Proceedings of the International Conference on Learning Representations — ICLR 2015, San Diego, California, USA, 7–9 May 2015, pp. 1–14.
6. Williams, H.A.M., Jones, M.H., Nejati, M., Seabright, M.J. & MacDonald, B.A. (2019). Robotic kiwifruit harvesting using machine vision, convolutional neural networks, and robotic arms. Biosystems Engineering, vol. 181, pp. 140–156.
7. Liu, Z., Wu, J., Fu, L., Majeed, Y., Feng, Y., Li, R. & Cui, Y. (2020). Improved kiwifruit detection using pretrained VGG16 with RGB and NIR information fusion. IEEE Access, vol. 8, pp. 2327–2336.
8. Muresan, H. & Oltean, M. (2018). Fruit recognition from images using deep learning. Acta Universitatis Sapientiae. Informatica, vol. 10, no. 1, pp. 26–42.
9. Girshick, R., Donahue, J., Darrell, T. & Malik, J. (2014). Rich feature hierarchies for accurate object detection and semantic segmentation. In: Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition, Columbus, Ohio, USA, 23–28 June 2014, pp. 580–587.
10. Girshick, R. (2015). Fast R–CNN. In: Proceedings of the 2015 IEEE International Conference on Computer Vision — ICCV 2015, Santiago, Chile, 7–13 December 2015, pp. 1440–1448.
11. Ren, S., He, K., Girshick, R. & Sun, J. (2017). Faster R–CNN: Towards real–time object detection with region proposal networks. IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 39, no. 6, pp. 1137–1149.
12. He, K., Gkioxari, G., Dollar, P. & Girshick, R. (2017). Mask R–CNN. In: Proceedings of the 2017 IEEE International Conference on Computer Vision — ICCV 2017, Venice, Italy, 22–29 October 2017, pp. 2980–2988.
13. He, K., X. Zhang, X., Ren, S. & Sun, J. (2016). Deep residual learning for image recognition. In: Proceedings of the 29th IEEE Conference on Computer Vision and Pattern Recognition — CVPR 2016, Las Vegas, Nevada, USA, 26 June — 1 July 2016, pp. 770–778.
14. Zhang, J., He, L., Karkee, M., Zhang, Q., Zhang, X. & Gao, Z. (2018). Branch detection for apple trees trained in fruiting wall architecture using depth features and RegionsConvolutional Neural Network (R–CNN). Computers and Electronics in Agriculture, vol. 155, pp. 386–393.
15. Sa, I., Ge, Z., Dayoub, F., Upcroft, B., Perez, T. & Mc–Cool, C. (2016). DeepFruits: A fruit detection system using deep neural networks. Sensors, vol. 16, no. 8 (Special Issue: Vision–Based Sensors in Field Robotics), pp. 1222–1244.
16. Bargoti, S. & Underwood, J. (2017). Deep fruit detection in orchards. In: Proceedings of the 2017 IEEE International Conference on Robotics and Automation — ICRA 2017, Singapore, 29 May — 3 June, 2017, pp. 1–8.
17. Peebles, M., Lim, S.H., Duke, M. & McGuinness, B. (2019). Investigation of optimal network architecture for asparagus spear detection in robotic harvesting. IFAC PapersOnLine, vol. 52, no. 30, pp. 283–287.
18. Yu, Y., Zhang, K., Yang, L. & Zhang, D. (2019). Fruit detection for strawberry harvesting robot in nonstructural environment based on Mask–RCNN. Computers and Electronics in Agriculture, vol. 163, Article 104846.
19. Jia, W., Tian, Y., Luo, R., Zhang, Zh. & Zheng, Y. (2020). Detection and segmentation of overlapped fruits based on optimized mask R–CNN application in apple harvesting robot. Computers and Electronics in Agriculture, vol. 172, Article 105380.
20. Gene–Mola, J., Gregorio, E., Cheein, F.A., Guevara, J., Llorens, J., Sanz–Cortiella, R., Escola, A. & Rosell–Polo, J.R. (2020). Fruit detection, yield prediction and canopy geometric characterization using LiDAR with forced air fl ow. Computers and Electronics in Agriculture, vol. 168, pp. 105–121.
21. Gan, H., Lee, W.S., Alch anatis, V., Ehsani, R. & Schueller, R. (2018). Immature green citrus fruit detection using color and thermal images. Computers and Electronics in Agriculture, vol. 152, pp. 117–125.
22. Redmon, J., Divvala, S., Girshick, R. & Farhadi, A. (2016). You only look once: Unifi ed, real–time object detection. In: Proceedings of the 29th IEEE Conference on Computer Vision and Pattern Recognition — CVPR 2016, Las Vegas, Nevada, USA, 26 June — 1 July 2016, pp. 779–788.
23. Redmon, J., Divvala, S., Girshick, R. & Farhadi, A. (2018). YOLOv3: An incremental improvement. In: Proceedings of the 31th IEEE Conference on Computer Vision and Pattern Recognition — CVPR 2018, Salt Lake City, Utah, USA, 18–22 June 2018, pp. 1–6.
24. Bochkovskiy, A., Wang, Ch.Y. & Liao, Y.Y.M. (2020). YOLOv4: Optimal speed and accuracy of object detection. Available at: https://arxiv.org/abs/2004.10934 (accessed: 20 May 2020).