EN
ДонНТУ   Портал магистров

Реферат по теме выпускной работы

На момент написания данного реферата магистерская диссертация еще не завершена. Предполагаемая дата завершения: май-июнь 2025 г. Полный текст работы, а также материалы по теме могут быть получены у автора или его руководителя после указанной даты.

Содержание

Введение

Прогнозирование пассажиропотока общественного транспорта является одной из ключевых задач для эффективного управления и планирования транспортных систем. Эффективное прогнозирование пассажиропотока имеет важное значение как с научной, так и с практической точки зрения. С научной точки зрения, это сложная задача, требующая применения передовых методов анализа данных и алгоритмов машинного обучения для обработки большого объема информации и выявления скрытых закономерностей. С практической стороны, точные прогнозы пассажиропотока позволяют оптимизировать расписание движения общественного транспорта, снизить затраты на его эксплуатацию, повысить комфорт пассажиров и уменьшить нагрузку на транспортную инфраструктуру города.

На сегодняшний день существует множество исследований, посвященных прогнозированию пассажиропотока с использованием различных подходов, включая статистические методы, регрессионные модели, методы временных рядов и алгоритмы машинного обучения. Однако большинство существующих решений сосредоточено на краткосрочном прогнозировании (на день или несколько дней вперед) и редко учитывает данные за длительный период, что ограничивает их применимость в долгосрочном планировании. Кроме того, не все подходы в достаточной степени учитывают влияние внешних факторов, таких как погодные условия или городские события, что также может снижать точность прогнозов.

Несмотря на значительные достижения в области прогнозирования пассажиропотока, остаются нерешенными несколько ключевых вопросов:

  1. Адаптация моделей к данным за длительный период – «Как эффективно использовать данные пассажиропотока за некоторый прошлый промежуток времени для повышения точности прогнозов?»;
  2. Интеграция внешних факторов – «Как лучше учитывать влияние внешних факторов, таких как погода и городские события, на пассажиропоток?»;
  3. Выбор и настройка алгоритмов – «Какие алгоритмы машинного обучения и их настройки показывают наилучшие результаты в условиях конкретного города и маршрутов?»

Целью статьи является изучение алгоритмов для построения модели машинного обучения для прогнозирования пассажиропотока общественного транспорта, а также изучение этапов ее разработки. Модель должна учитывать временные и внешние факторы для повышения точности прогнозов на следующее полугодие. Основные задачи исследования включают:

  1. Анализ существующих методов прогнозирования пассажиропотока и выделение наиболее оптимальных алгоритмов для поставленной задачи;
  2. Рассмотрение этапов создания модели, способной обрабатывать большие объемы данных и учитывать различные факторы, влияющие на пассажиропоток;
  3. Изучение способов оценки точности модели, а также методов ее улучшения;
  4. Разработка рекомендаций по применению модели в реальных условиях для улучшения управления городскими транспортными системами.

1. Постановка задачи

Проблема прогнозирования пассажиропотока относится к классу задач временных рядов, а именно к задаче предсказания на основе исторических данных. В рамках данной задачи мы решаем типичную задачу регрессии, где необходимо предсказать числовое значение на основе предыдущих наблюдений.


Входные данные:


  1. Исторические данные пассажиропотока:
    1. Формат: структура данных вида [
      {"date": "2023-01-01", "passengers": 1250, "day_of_week": "Sunday", "holiday": true, "temperature": -2, "precipitation": "Snow", "event": "None"}, {"date": "2023-01-02", "passengers": 1300, "day_of_week": "Monday", "holiday": false, "temperature": 0, "precipitation": "None", "event": "None"}, {"date": "2023-01-03", "passengers": 1275, "day_of_week": "Tuesday", "holiday": false, "temperature": 1, "precipitation": "Rain", "event": "None"},
      ... ]
    2. Период наблюдения: минимум 6 месяцев;
    3. Интервал наблюдения: ежедневно.
  2. Дополнительные данные:
    1. Календарные данные (день недели, праздники);
    2. Метеорологические данные (температура, осадки);
    3. Событийные данные (мероприятия, события в городе).

Исторические данные пассажиропотока - необходимы для обучения модели. Эти данные представляют собой временной ряд, где каждое значение соответствует количеству пассажиров за конкретный день. Период наблюдения должен составлять минимум 6 месяцев, чтобы модель могла учитывать сезонные и долгосрочные тренды.

Календарные данные - день недели, праздники, выходные и другие календарные особенности могут существенно влиять на пассажиропоток. Например, в будние дни пассажиропоток может быть выше из-за рабочих и учебных поездок, тогда как в выходные и праздники количество пассажиров может снижаться.

Метеорологические данные - погодные условия также влияют на поведение пассажиров. Данные о температуре, осадках, ветре и других погодных условиях включаются в модель, чтобы учитывать их влияние на количество пассажиров.

Событийные данные - различные мероприятия в городе (концерты, спортивные мероприятия и т.д.) могут привлекать большое количество пассажиров. Эти данные также учитываются для более точного прогнозирования.


Выходные данные - прогноз пассажиропотока:


  1. Формат: массив с датой и прогнозируемым количеством пассажиров в конкретный день;
  2. Период прогноза: полгода (6 месяцев);
  3. Интервал прогноза: ежедневно.

Прогноз пассажиропотока - модель должна выдавать прогнозируемое количество пассажиров на каждый из дней в течение следующих 6 месяцев. Эти данные будут использоваться для оптимизации маршрутов, планирования ресурсов и улучшения качества обслуживания пассажиров.

Среди ограничений можно выделить следующие:

Возмущающие воздействия:

Разработка модели прогнозирования пассажиропотока с использованием алгоритмов машинного обучения позволит:

  1. Повысить точность прогнозов. Точные прогнозы пассажиропотока позволят лучше планировать работу общественного транспорта.
  2. Оптимизировать ресурсы. Своевременное распределение ресурсов (транспортных средств, персонала) на основе прогнозов повысит эффективность работы транспортной системы.
  3. Улучшить обслуживание пассажиров. Предоставление более точной информации о расписании и количестве транспортных средств улучшит качество обслуживания пассажиров.

Формализованная постановка задачи позволяет четко определить цель исследования, типы данных и методологию, которая будет использоваться для решения задачи прогнозирования пассажиропотока. Ожидаемые результаты и ограничения также описаны, что способствует ясному пониманию проблемы и подходов к ее решению. Прогнозирование на полгода вперед представляет собой сложную задачу, требующую учета множества факторов и особенностей, что делает применение алгоритмов машинного обучения особенно актуальным и перспективным.

2. Обзор исследований и разработок по подобной или схожим темам

2.1. «Прогноз и раннее предупреждение пассажиропотока региональных автобусов на основе машинного обучения»

В статье рассматривается прогнозирование краткосрочного пассажиропотока региональных автовокзалов на основе данных карт автобусных станций с интегральной схемой (IC) и предлагается модель раннего предупреждения для пассажиропотока региональных автобусов[1].

Сначала автобусные станции объединяются в виртуальные региональные автобусные станции. Затем краткосрочный пассажиропоток региональных автобусных станций прогнозируется методом машинного обучения (ML) машины опорных векторов (SVM). На этой основе была разработана модель раннего предупреждения пассажиропотока региональных автобусов на основе анализа пропускной способности региональных автовокзалов.

Результаты показывают, что точность прогнозирования краткосрочного пассажиропотока можно повысить, заменив реальные автобусные станции виртуальными региональными автобусными станциями, поскольку пассажиропоток региональных автобусных станций более стабилен, чем пассажиропоток отдельной автобусной станции.

Точное прогнозирование и раннее предупреждение пассажиропотока региональных автобусов позволяют диспетчерам городских автобусов поддерживать эффективный контроль над городским общественным транспортом, особенно во время специальных и крупномасштабных мероприятий.

2.2. «Сравнительное тестирование моделей ARIMA и LTSM в задачах прогнозирования пассажиропотока»

Также можно рассмотреть содержание еще одной статьи под названием «Сравнительное тестирование моделей ARIMA и LTSM в задачах прогнозирования пассажиропотока»[2]. Введение акцентирует внимание на важности прогнозирования пассажиропотока для оптимизации расписания общественного транспорта. Авторы подчеркивают необходимость разработки эффективных методов прогнозирования на основе исторических данных.

Модель ARIMA используется для анализа временных рядов и является расширением модели ARIMA, применимой для нестационарных временных рядов.

Авторы описывают процесс оценки стационарности временного ряда, тестирование на наличие единичных корней и преобразование ряда до стационарного состояния путем взятия разностей.

LSTM – это разновидность рекуррентных нейронных сетей, предложенная в 1997 году. Основные компоненты LSTM включают ячейку памяти, входной, выходной и забывающий шлюзы.

В статье приводится структура сети и уравнения, описывающие функционирование шлюзов и ячейки памяти.

Для моделирования использовались данные о пассажиропотоке на одной остановке за 12 дней. Данные были разделены на обучающую и тестовую выборки. Прогнозы, полученные с помощью моделей ARIMA и LSTM, сравнивались с реальными значениями пассажиропотока.

Графики, представленные в статье, показывают, что обе модели успешно предсказали тенденцию изменения пассажиропотока. Наибольшие отклонения наблюдались в пиковые моменты и в переходные периоды.

Среднеквадратическая ошибка (MSE) для моделей составила:

ARIMA: 6,2484

LSTM: 3,8764

Среднеквадратическое отклонение (RMSE) составило:

ARIMA: 2,4996

LSTM: 1,9668

Таким образом, модель LSTM продемонстрировала более высокую точность прогнозирования по сравнению с ARIMA.

В заключении авторы подчеркивают важность учета пассажиропотока при оптимизации расписания общественного транспорта. Статья демонстрирует, что оба метода – ARIMA и LSTM – обладают высокой точностью прогнозирования, однако LSTM показывает лучшие результаты. Основным преимуществом ARIMA является скорость вычисления, тогда как LSTM обеспечивает более точные прогнозы.

2.3. «Влияние погодных условий на режим движения автобусов на городских маршрутах»

Статья посвящена исследованию влияния различных погодных условий на режим движения городских автобусов[3]. Авторы подчеркивают актуальность данной темы в связи с необходимостью повышения эффективности и безопасности транспортных перевозок в условиях изменяющихся климатических условий. Особое внимание уделяется влиянию осадков, температуры воздуха и состояния дорожного покрытия на скорость движения и соблюдение графика маршрутов. Исследование включало следующие этапы:

  1. Сбор и обработка данных о погодных условиях и параметрах движения автобусов;
  2. Статистический анализ данных для выявления зависимостей между погодными условиями и изменениями в режиме движения;
  3. Моделирование и прогнозирование влияния погодных условий на движение автобусов с использованием полученных данных

Основные выводы статьи включают следующие аспекты:

Графики и таблицы в статье иллюстрируют, как изменяются параметры движения автобусов в зависимости от различных погодных условий. Например, средняя скорость движения снижается на 20% в условиях сильного снега по сравнению с сухой погодой.

Авторы делают вывод о необходимости учитывать погодные условия при планировании расписания и оптимизации маршрутов движения городских автобусов. Внедрение современных технологий прогнозирования погоды и адаптивных систем управления движением может значительно повысить эффективность работы общественного транспорта.

2.4. «Актуальные методы прогнозирования пассажиропотоков»

Автор в статье рассматривает современные методы прогнозирования пассажиропотоков в различных видах транспорта[4]. Прогнозирование пассажиропотока является ключевым элементом для эффективного планирования и управления транспортными системами.

Основные методы прогнозирования:

Новые подходы:

Прогнозирование пассажиропотоков используется для оптимизации расписания и управления ресурсами, повышения удовлетворенности пассажиров за счет сокращения времени ожидания, снижения операционных затрат через эффективное использование ресурсов.

Автор подчеркивает важность постоянного и систематического прогнозирования пассажиропотоков, выбора моделей, исходя из целесообразности и ресурсов, а также использования новых технологий и данных для улучшения транспортных систем.

2.5. «Экспериментальное исследование вероятности выбора пассажиром маршрута следования»

Статья посвящена исследованию факторов, влияющих на выбор пассажирами маршрутов следования в городском транспорте[5]. Авторы анализируют, какие критерии пассажиры учитывают при выборе маршрута, и как эти критерии могут быть использованы для оптимизации транспортной системы.

Исследование включало несколько этапов:

  1. Проводились опросы пассажиров для выявления их предпочтений и факторов, влияющих на выбор маршрута;
  2. Использовались различные модели для прогнозирования вероятности выбора пассажиром конкретного маршрута;
  3. Данные обрабатывались с использованием статистических методов для выявления значимости различных факторов

Основные результаты:

Авторы подчеркивают важность комплексного подхода к изучению поведения пассажиров и использования полученных данных для улучшения качества обслуживания и эффективности работы транспортной системы. Прогнозирование и моделирование выбора маршрута пассажирами может значительно повысить удовлетворенность пользователей и оптимизировать работу городского транспорта.

3. Предполагаемые методы решения задачи

Для построения модели будут использоваться данные о пассажиропотоке, включающие следующие параметры:

Данные могут быть собраны из различных источников, включая транспортные компании и метеорологические службы. Перед обучением модели должна быть проведена предварительная обработка данных: очистка данных, нормализация данных (приведение всех числовых значений к одному масштабу для улучшения сходимости алгоритмов обучения), интеграция внешних факторов (добавление данных о погодных условиях, праздниках и городских событиях).

Для корректировки и улучшения качества датасета можно использовать следующие алгоритмы и методы:

  1. Методы заполнения пропусков: KNN (метод ближайших соседей) и среднее значение для временных рядов;
  2. Анализ временных рядов: сглаживание (например, метод скользящего среднего) и декомпозиция временных рядов для выявления трендов и сезонных компонентов[6];
  3. Feature Engineering: создание дополнительных признаков, таких как день недели, месяц, сезон, праздники и погодные условия

Для прогнозирования пассажиропотока можно рассмотреть следующие алгоритмы машинного обучения.

Линейная регрессия

Метод анализа данных, который предсказывает ценность неизвестных данных с помощью другого связанного и известного значения данных[7]. Он математически моделирует неизвестную или зависимую переменную и известную или независимую переменную в виде линейного уравнения (рис. 1). Простая модель, подходящая для базового уровня анализа временных рядов.

Линейная регрессия

Рисунок 1 – Линейная регрессия

Рекуррентные нейронные сети (RNN)

Сети с циклами, которые хорошо подходят для обработки последовательностей. Обучение RNN (рис. 2) аналогично обучению обычной нейронной сети. Также используется алгоритм обратного распространения, но с небольшим изменением. Поскольку одни и те же параметры используются на всех временных этапах в сети, градиент на каждом выходе зависит не только от расчетов текущего шага, но и от предыдущих временных шагов. Например, чтобы вычислить градиент для четвертого элемента последовательности, нужно было бы «распространить ошибку» на 3 шага и суммировать градиенты. Этот алгоритм называется «алгоритмом обратного распространения ошибки сквозь время». Сети способны учитывать временные зависимости, что делает их полезными для задач прогнозирования временных рядов.

Они добавляют возможность запоминания в искусственные нейронные сети, но эта память является краткосрочной. На каждом шаге обучения информация в памяти смешивается с новой, что приводит к её полной перезаписи спустя несколько итераций[8].

Рекуррентная нейронная сеть

Рисунок 2 – Рекуррентная нейронная сеть

Долговременная краткосрочная память (LSTM)

LSTM-модули (рис. 3) были разработаны для решения проблемы долгосрочной зависимости, позволяя сохранять информацию как на короткие, так и на длительные промежутки времени. Это достигается благодаря особенностям архитектуры: в рекуррентных компонентах LSTM не используется функция активации, что предотвращает размытие хранимого значения во времени и исчезновение градиента при обратном распространении ошибки.

LSTM-блоки включают три или четыре "вентиля", которые регулируют потоки информации на входе и выходе памяти. Эти вентили реализованы с помощью логистической функции, возвращающей значения в диапазоне [0; 1]. Результат умножается на соответствующий поток данных, что позволяет частично или полностью пропускать информацию внутрь или наружу памяти. На рисунке 3 показаны:

Три основных вентиля:

Пример LSTM-блока

Рисунок 3 – Пример LSTM-блока

Резюмируя, это улучшенная версия RNN, способная запоминать долгосрочные зависимости, что особенно важно при прогнозировании на длительные периоды.

Градиентный бустинг (XGBoost, LightGBM)

Градиентный бустинг — это техника машинного обучения для задач классификации и регрессии, которая строит модель предсказания в форме ансамбля слабых предсказывающих моделей, обычно деревьев решений.

В основе XGBoost лежит алгоритм градиентного бустинга деревьев решений.

LightGBM - это фреймворк, разработанный в Microsoft, который обеспечивает эффективную реализацию алгоритма повышения градиента[9]. Основным преимуществом LightGBM являются изменения в алгоритме обучения, которые значительно ускоряют процесс и во многих случаях приводят к созданию более эффективной модели.

Для повышения точности предсказаний можно также изучить использование ансамблевых методов, которые подразумевают объединение нескольких моделей:

Выбор основного алгоритма для построения модели будет произведен в результате сравнения результатов тестирования вышеописанных алгоритмов на тестовой выборке данных.

Адекватность модели можно оценить по нескольким критериям, используя различные метрики: средняя абсолютная ошибка, среднеквадратичная ошибка, коэффициент детерминации. Использование их комбинации обеспечивает всестороннюю оценку модели.

После оценки модели следует проанализировать ошибки - выявление систематических ошибок поможет понять, где модель допускает наибольшие отклонения, и внести соответствующие корректировки[10].

После успешного тестирования и оценки модель можно интегрировать в систему управления городским транспортом. Это позволит автоматически прогнозировать пассажиропоток и корректировать расписания в реальном времени.

Список источников

  1. Forecast and Early Warning of Regional Bus Passenger Flow Based on Machine Learning URL: https://onlinelibrary.wiley.com/doi/10.1155/2020/6625435 (дата обращения: 28.06.2024).
  2. Якимов М.А., Операйло К.В., Новикова Е.Н. СРАВНИТЕЛЬНОЕ ТЕСТИРОВАНИЕ МОДЕЛЕЙ ARIMA И LTSM В ЗАДАЧАХ ПРОГНОЗИРОВАНИЯ ПАССАЖИРОПОТОКА // Символ науки. 2022. №6-2. URL: https://cyberleninka.ru/article/n/sravnitelnoe-testirovanie-modeley-arima-i-ltsm-v-zadachah-prognozirovaniya-passazhiropotoka (дата обращения: 28.06.2024).
  3. Омонов Б.Ш., Йулдошев Д.Ф., Шомирзаев Э.Х. ВЛИЯНИЕ ПОГОДНЫХ УСЛОВИЙ НА РЕЖИМ ДВИЖЕНИЯ АВТОБУСОВ НА ГОРОДСКИХ МАРШРУТАХ // Экономика и социум. 2023. №2 (105). URL: https://cyberleninka.ru/article/n/vliyanie-pogodnyh-usloviy-na-rezhim-dvizheniya-avtobusov-na-gorodskih-marshrutah (дата обращения: 28.06.2024).
  4. Актуальные методы прогнозирования пассажиропотоков URL: https://irts.su/2022/02/16/current-forecasting-methods/ (дата обращения 20.06.2024).
  5. Нефедов Н. А., Альберт Авуа Дж Экспериментальное исследование вероятности выбора пассажиром маршрута следования // ВЕЖПТ. 2014. №3 (68). URL: https://cyberleninka.ru/article/n/eksperimentalnoe-issledovanie-veroyatnosti-vybora-passazhirom-marshruta-sledovaniya (дата обращения: 21.06.2024).
  6. Воронина В.В, Теория и практика машинного обучения / В.В, Воронина, А.В. Михеев. – Ульяновск : УлГТУ, 2017. – 13-106 с. URL: https://lib.laop.ulstu.ru/venec/disk/2017/191.pdf(дата обращения: 25.06.2024).
  7. Что такое линейная регрессия? URL: https://aws.amazon.com/ru/what-is/linear-regression/ (дата обращения: 25.06.2024)
  8. Долгая краткосрочная память URL: https://neerc.ifmo.ru/wiki/index.php?title=Долгая_краткосрочная_память (дата обращения: 28.06.2024)
  9. LightGBM (Light Gradient Boosting Machine) URL: https://www.geeksforgeeks.org/lightgbm-light-gradient-boosting-machine/ (дата обращения: 30.06.2024).
  10. Введение в машинное обучение URL: https://habr.com/ru/articles/448892/ (дата обращения: 30.06.2024).