Реферат по теме выпускной работы
Содержание
- Введение
- 1. Актуальность темы
- 2. Цель и задачи исследования, планируемые результаты
- 3. Обзор исследований и разработок
- 3.1 Обзор международных источников
- 3.2 Обзор национальных источников
- 3.3 Обзор локальных источников
- 4. Распознавание образов при помощи свёрточной нейронной сети
- 4.1 Архитектура работы свёрточной нейронной сети
- 4.2 Архитектура работы свёрточной нейронной сети YOLO.
- 4.3 Обучение свёрточной нейронной сети
- Заключение
- Список источников
Введение
Нейронные сети сейчас популярное направление в жизни. Многие современные технологии используют нейронные сети для помощи в чём-либо. Основным принципом работы нейронной сети является обучение на математических данных путем точной настройки связей между нейронами. Когда нейронная сеть обучается, она проходит процесс корректировки своих весов и смещений (параметры для составления ответа) с целью минимизации ошибки в прогнозах [1].
Существует множество видов нейронных сетей, например полносвязные нейронных сети, рекуррентные нейронные сети, свёрточные нейронные сети. Для работы с изображениями чаще всего используют свёрточные нейронные сети, так как данный вид нейросетей испольняет свою работу быстро и точно. Для распознавания объектов существует множество моделей свёрточных нейронных сетей. Однако некоторые из них созданы для распознавания только на фотографиях, так как работают недостаточно быстро для работы с видеоизображениями. Одна из причин быстрого распознавания заключается в использовании технологии CUDA, которая позволяет использовать графический процессор для параллельных вычислений.
1. Актуальность темы
Нейронные сети часто помогают людям в различных областях, например, современное развитие нейронных сетей позволяет переводить текст гораздо быстрее. Уже сейчас создаются системы, которые позволят улучшить медицину, путём распознавания человеческих дефектов на медицинских снимках. Современные автомобили с автономным управлением также используют нейронные сети для распознавания объектов вокруг. Особенности распознавания объектов с помощью нейронной сети:
- Наблюдение и безопасность. Обнаружение камеры YOLO в режиме реального времени можно использовать для наблюдения за общественными местами в режиме реального времени, выявления угроз безопасности и обеспечения общественной безопасности [2].
- Медицина. Распознавание дефектов на изображении, слежение за состоянием пациента, анализ пациента до и после лечения, очистка показаний приборов от шумов, мониторинг состояния пациента и постановка диагноза и т. п. [3]
- Автономные транспортные средства. Улучшенное и быстрое обнаружение может улучшить возможности транспортных средств, которые работают без водителя.
- Робототехника. Распознавание позволит технике лучше ориентироваться в пространстве и благодаря этому принимать решения более быстро.
2. Цель и задачи исследования, планируемые результаты
В данной работе будет произведено изучение работы свёрточных нейронных сетей, их возможностей. Будут проанализированы и исследованы архитектуры свёрточных нейронных сетей, которые используются для распознавания образов. В работе будет исследована и изучена свёрточная нейронная сеть YOLO разных версий для распознавания изображений в видеопотоке.
Основные задачи исследования:
- Исследование архитектуры свёрточных нейронных сетей для распознавания образов.
- Исследование архитектуры и алгоритмов разных версий YOLO.
- Исследование работы свёрточной нейронной сети YOLO.
- Исследование методов обучения свёрточной нейронной сети YOLO
Для экспериментальной оценки полученных теоретических результатов планируется разработка системы распознавания заданных объектов на изображении в видеопотоке.
3. Обзор исследований и разработок
Существует множество исследований в области компьютерного распознавания объектов при помощи нейронных сетей. Были рассмотрены и проанализированы некоторые из них.
3.1 Обзор международных источников
В статье «Benchmarking YOLOv5 and YOLOv7 models with DeepSORT for droplet tracking applications», которая была написана в январе 2023 года, автор экспериментально сравнивает точность и скорость двух версий данной нейросети определённым методом [4].
В статье «SOAR: Advancements in Small Body Object Detection for Aerial Imagery Using State Space Models and Programmable Gradients», которая была написана 2 мая 2024 года, автор анализирует обнаружение мелких объектов на аэрофотоснимках с помощью моделей пространства состояний и программируемых градиентов [5].
3.2 Обзор национальных источников
Научная статья Савотиной А.Д. «Нейросети как инструмент по распознаванию образов» [6]. В приведенной статье рассматриваются основы искусственных нейронных сетей и некоторые области их применения, рассматриваются нейросети как инструмент по распознаванию простых образов. В данной статье автор показывает основы нейронных сетей для распознавания объектов. Также исследователь анализирует области применения искусственных нейронных сетей.
Научная статья Глазкова А.В. и Крутова А.В. «Моделирование процессов распознавания и классификации образов на основе нейросетей» [7]. В этой статье рассказывается о моделировании процесса, в ходе которого образы распознаются и классифицируются. Описан метод структурного координатного анализа. Также говорится о трудностях, которые возникают при распознавании и классификации объектов.
3.3 Обзор локальных источников
Научная статья Решетняка Я.А. и Федяева О.И. «ДЕТЕКТИРОВАНИЕ ГРАНИЦ ПРИ НЕЙРОСЕТЕВОМ ОБНАРУЖЕНИИ ОБЪЕКТОВ НА ИЗОБРАЖЕНИИ» [8]. В данной работе исследуется задача поиска и классификации образов на изображении при помощи разных методов компьютерного зрения. Также в статье рассказывается о методах, которые помогают искать изображение.
Научная статья Колбасова С.Ю., Сорокина Р.А., "Решение проблемы распознавания образов при помощи свёрточных нейронных сетей" [9]. Данная работа посвящена обзору решения проблемы распознавания образов при помощи свёрточных нейронных сетей. Данное исследование представляет собой анализу способов решения проблем, которые возникают при распознавании образов с использованием свёрточных нейронных сетей.
4. Распознавание образов при помощи свёрточной нейронной сети
4.1 Архитектура работы свёрточной нейронной сети
Свёрточная нейронная сеть (англ. convolutional neural network, CNN) — специальная архитектура искусственных нейронных сетей, предложенная Яном Лекуном в 1988 году и нацеленная на эффективное распознавание образов, входит в состав технологий глубокого обучения [10]. Для работы свёрточные нейронные сети анализируют изображение, разбирая его на пиксели. Каждый пиксель изображения содержит определённый цвет. Объект в изображении получается, путём объединения нескольких пикселей.
Свёрточные нейронные сети позволяют решить две основные задачи: детектирование и классификацию. Детектирование позволяет определить где может быть расположен объект, а классификация позволяет узнать какой именно объект был найден.
Свёрточная нейронная сеть для детектирования использует два основных слоя, а именно – свёртки и пулинга. Свёртка помогает оптимизировать изображение на изображении, убирая ненужную информацию, но оставляя только то, что поможет распознать детали образов на изображении. В слое свёртки также присутствует фильтр, который необходим для точного распознавания и формирования признаков объектов. После перемещения фильтра и получения признаков каждого положения формируется карта признаков. Пулинг оптимизирует информацию в карте признаков, оставляя только самые важные признаки. Слой пулинга необходим для снижения нагрузки и уменьшения расчётов. После применения пулинга опять применяется слой свёртки. Слой активации ReLU делает модель нелинейной, что позволяет быть ей более гибкой. Таким образом, можно будет последовательно выявлять на изображении более сложные характеристики. К примеру, сначала искусственный интеллект определит контуры цветка, а затем сможет распознать его форму и оттенки лепестков.
После слоя пулинга применяются полносвязные слои: после выделения признаков и снижения размерности данных, полносвязные слои комбинируют признаки для классификации и определения положения объектов; Выходные слои: на последнем этапе, с помощью функции активации, сеть предсказывает вероятности принадлежности выявленных объектов к определенным классам (например, автомобиль, пешеход) и их расположение на изображении. Архитектура работы свёрточной нейронной сети представлена на рисунке 1.

Рисунок 1 – Архитектура работы свёрточной нейронной сети
4.2 Архитектура работы свёрточной нейронной сети YOLO.
Для распознавания изображений на видеопотоке самой современной моделью является YOLO. Эта модель отлично подходит, так как является очень быстрой среди аналогов. Происходит это из-за особенности архитектуры модели.
Описание работы модели YOLO. Перед тем как начать обучение нейронной сети, изображение изменяют до размера 416 x 416 пикселей. Это нужно для того, чтобы его можно было эффективно разделить на разные части для ускорения обучения. Изображение разбивают на квадраты размером AxA. Каждый квадрат становится «якорем», к которому прикрепляется ограничивающая рамка. То есть вокруг квадрата рисуются несколько прямоугольников, которые помогают определить объект. Их положение, ширина и высота рассчитываются относительно центра этого квадрата. Затем изображение из набора данных пропускают через нейронную сеть. Задача YOLO — максимально точно предсказать параметры, чтобы точно определить объект на изображении. Для каждой предсказанной ограничивающей рамки вычисляется балл доверия (confidence score). Он служит фильтром, который отсеивает неточные предсказания. Чтобы отфильтровать ограничивающие рамки, используется техника не-максимального подавления (non-max suppression). Она позволяет оставить только одну предсказанную рамку для каждого объекта. Алгоритм данного процесса представлено на рисунке 2. Изображение данного процесса показан на рисунке 3 [11].

Рисунок 2 – Алгоритм работы свёрточной нейронной сети YOLO

Рисунок 3 – Изображение работы алгоритма свёрточной нейронной сети
У YOLO вышло много различных версий, каждая из которых имеет свои различия. Одной из первых является версия Yolo v3. В YOLOv3 используются якорные рамки для прогнозирования, которые существенно увеличивают точность обнаружения [12].
При распознавании используется сетка, в которой каждая ячейка предсказывает:
- для каждой якорной рамки: 4 координаты (tx , ty , tw , th), 1 ошибку объективности, которая является показателем уверенности в присутствии того или иного объекта;
- некоторое количество вероятностей классов.
Визуализация якорной рамки представлена на рисунке 4. Значения bx, by, bw, bh определяют центр якорной рамки, её координаты. Значения x, y определяют размер прогноза нейронной сети, а именно ширину и высоту. Значения tx, ty, tw, th (xywh) — это результат нейронной сети на выходе. Значения cx и cy определяют размеры сетки, на которую было поделено изображение, а pw и ph показывают размер якорной рамки блока.

Рисунок 4 – Визуализация якорной рамки
Последней на текущей момент является версия YOLO v11. Данная модель может использоваться для различных функций: распознавания, классификации, сегментации, отслеживании объектов, оценки позы.
Архитектура Yolov11:
- Convolution block. Блок свёртки. Состоит из слоя нормализации и функции активации. Параметрами являются значение ядра, количество шагов, значение заполнения.
- Transformer Backbone: усиливает способность модели захватывать глобальный контекст.
- Dynamic Head Design: это позволяет YOLOv11 адаптироваться в зависимости от сложности изображения, оптимизируя распределение ресурсов для более быстрой и эффективной обработки.
- Двойное присвоение меток: улучшает обнаружение перекрывающихся и плотно упакованных объектов благодаря использованию подходов присвоения меток «один к одному» и «один ко многим».
- Neck объединяет различные признаки, полученные из различных слоёв.
- Auxiliary повышает надёжность процессов обучения, предоставляя дополнительную информацию, которая связывает входные данные с конкретными выходными.
- Large Kernel Convolutions: обеспечивает лучшее извлечение признаков при меньших вычислительных ресурсах, повышая общую производительность модели.
Такая архитектура позволяет YOLO11 эффективно работать на системах высокого класса и краевых устройствах, например мобильных телефонах. Подробная схема архитектуры нейронной модели YOLO11 показана на рисунке 1.

Рисунок 5 – Архитектура YOLOv11
Одной из самых важных функций последней версии YOLO является поддержка Object Tracking. Это определение местоположения движущегося объекта во времени с помощью видеокамеры. Такой алгоритм анализирует кадры видео и показывает координаты объектов, которые изменили положение в пространстве. Данная технология помогает запоминать объекты на видео, объединять изображение между двух камер, а также оценивать их действия. Например, с помощью трекинга можно оценивать скорость движения движущихся объектов. Последния версия YOLO поддерживает некоторые алгоритмы трекинга, например Bot-Sort или Byte-Track.
4.3 Обучение свёрточной нейронной сети YOLO
Обучение модели глубокого обучения заключается в подаче ей данных и настройке её параметров таким образом, чтобы она могла делать точные прогнозы. Для каждой эпохи он показывает сводку по фазам обучения и проверки: строки 1 и 2 показывают результаты фазы обучения, а строки 3 и 4 - результаты фазы проверки для каждой эпохи.

Рисунок 6 – Обучение модели YOLO
В процессе обучения важным этапом является подсчёт показателей погрешности в функции потерь, поэтому очень важными метриками в данном случае являются box_loss и cls_loss. box_loss демонстрирует число неточностей при обнаружении в ограничивающих рамках. Показатель cls_loss демонстрирует число неточностей в распознанных категориях классов. Наиболее ценной метрикой качества является mAP50-95, т. е. средняя точность (Mean Average Precision). При обучении и улучшении модели в каждой новой эпохе должна повышаться точность. Если модель обучается и совершенствуется, точность должна расти от эпохи к эпохе. На предыдущем скриншоте можно увидеть, что она медленно растёт: 0,788, 0,788, 0,791.
Для обучения легче всего использовать готовые датасеты, которые уже содержать много изображений конкретных объектов для обучения. Одним из самых популярных датасетов является COCO, который содержит 80 классов для обучения модели. Однако для модели YOLO можно использовать и другие, например, датасет LVIS, который содержит 1203 категорий объектов для обучения.
Заключение
В данной работе проанализировано использование свёрточных нейронных сетей для распознавания изображений на видеопотоке.
В результате исследования можно сделать заключение, что свёрточная нейронная сеть YOLO разных версий хорошо подходит для распознавания объектов на изображении на видеопотоке. Данная нейронная модель является самой быстрой среди аналогов и может использоваться для создания систем распознавания. Самой оптимизированной и быстрой является модель версии Yolo v11.
Список источников
- Что такое нейросеть, как она работает и для чего используется? [Электронный ресурс] / Интернет-ресурс. Режим доступа: https://www.nur.kz/technologies/software/2047505-chto-takoe-neyroset-kak-ona-rabotaet-i-dlya-chego-ispolzuetsya/. – Загл. с экрана.
- YOLO v8: улучшенное обнаружение объектов (живая камера) с точностью в реальном времени [Электронный ресурс] / Интернет-ресурс. Режим доступа: https://skine.ru/articles/727546/. – Загл. с экрана.
- Цаунит, А. Н. Перспективы развития и применения нейронных сетей / А. Н. Цаунит. — Текст : непосредственный // Молодой ученый. — 2021. — № 23 (365). — С. 114-117.
- Mihir Durve, Sibilla Orsini, Adriano Tiribocchi. Benchmarking YOLOv5 and YOLOv7 models with DeepSORT for droplet tracking applications [Электронный ресурс] / Интернет-ресурс. Режим доступа: https://arxiv.org/pdf/2301.08189.pdf. – Загл. с экрана;
- Maritime Search and Rescue Missions with Aerial Images: A Survey [Электронный ресурс] / Juan P. Martinez-Esteso // ArXiv – Электрон. дан. - 2024. – Режим доступа: https://arxiv.org/pdf/2411.07649. - Загл. с экрана.
- НАУКА, ОБЩЕСТВО, ОБРАЗОВАНИЕ В УСЛОВИЯХ ЦИФРОВИЗАЦИИ И ГЛОБАЛЬНЫХ ИЗМЕНЕНИЙ: сборник статей V Международной научно-практической конференции. – Пенза: МЦНС «Наука и Просвещение». – 2022. С. 12-14
- Вестник Воронежского государственного технического университета = Bulletin of Voronezh state technical university : Bulletin of Voronezh state technical university : журнал / учредитель и издатель: ФГБОУ ВО "Воронежский государственный технический университет". - Воронеж : ВГТУ, 2009. С. 240-246.
- Современные информационные технологии в образовании и научных исследованиях (СИТОНИ-2021) : сб. материалов VII Международной науч.-техн. конф., г. Донецк, 23 нояб. 2021 г. / отв. ред. В. Н. Павлыш. – Донецк : ДонНТУ, 2021. - С. 208-215.
- Решение проблемы распознавания образов при помощи свёрточных нейронных сетей // Материалы Х Международной научно-технической конференции Информатика, управляющие системы, математическое и компьютерное моделирование (ИУСМКМ - 2019) - Донецк: ДонНТУ, 2019. - с. 111-114.
- Свёрточная нейронная сеть [Электронный ресурс] / Интернет-ресурс. Режим доступа: https://ru.wikipedia.org/wiki/Свёрточная_нейронная_сеть. – Загл. с экрана.
- You Only Look Once: Unified, Real-Time Object Detection [Электронный ресурс] / Интернет-ресурс. Режим доступа:https://arxiv.org/pdf/1506.02640. – Загл. с экрана.
- YOLOv3: An Incremental Improvement [Электронный ресурс] / Интернет-ресурс. Режим доступа: https://arxiv.org/pdf/1804.02767. – Загл. с экрана.
При написании данного реферата магистерская работа еще не завершена. Окончательное завершение: июнь 2025 года. Полный текст работы и материалы по теме могут быть получены у автора или его руководителя после указанной даты.