Источник: http://www.rgrossman.com/dl/proc-091.pdf
Система
реального времени обнаружения и извещения об изменении интенсивности движения
на автострадах
Авторы: Роберт
Гроссман и др.
Реферат
Система
извлечения знаний содержит: входные данные в реальном времени от 830 сенсоров плотности
движения в районе Чикаго, данные о погоде, и текстовые данные о событиях
которые могли стать причиной затора. Целью было определить в режиме реального
времени интересующие изменения в условиях движения. Для данным строятся большое
количество моделей развития ситуации с движением. Строятся модели каждого часа
ежедневно, для каждого дня еженедельно и для каждых 2-3 сенсоров. В результате
поучается около 42,000 моделей изменения интенсивности движения. также
определяется автоматический выбор базовой модели. Модифицирован аппарат выбора
базовой модели длЯ считывания в режиме реального времени каждого сенсорного
чтения. Если знаничение сенсора отличается от прогнозируемого по базовой модели
то подается сигнал тревоги.
1
Введение и Цели работы
Проблема
обнаружения в реальном времени извлекать знания из многомерных и разнородных
входных сенсорных данных остается открытой и фундаментальной проблемой. Проблема
решения задачи определяется следующими факторами:
- Идентификация
изменений в больших комплексных разнородных наборах данных достаточно трудна.
-
Обнаружение изменений в режиме реального времени увеличивает сложность решаемой
задачи.
- Работа алгоритмов с не устаревшими данными для молниеносно меняющихся данных
является серьезной проблемой.
- Достаточно
трудной задачей является извлечения знаний из комбинированных данных и
определение между этими данными существующих зависимостей.
В этой
статье, мы объединили данные движения по автостраде в режиме реального времени в
В
регионе Чикаго с другими наборы данных и
идентифицированный, идентифицировали интересующие
изменения
в данных.
В общих чертах, наш подход основан
на
следующих идеях:
- Для
того чтобы справиться с первой проблемой нужно уменьшить до небольших размеров
модели данных. Например, мы строятся отдельные базовые модели для каждого часа в дне, каждого
деня
неделе,
и для каждой области шоссе. Это приводит к более 42,000
отдельных моделей, каждая, из которого, - отдельная аналитическая модель.
Отметьте, что число моделей, которые мы используем в этой статье большее, чем
число записей во многих наборах данных. Для решения этой проблемы, мы создали приложение
для строительства эти базовых моделей автоматически. Генерация может осуществляться, как часто, как потребуется, например, каждые несколько дней.
- Чтобы решить вторую проблему, для каждого нового события получения данных,
мы
обрабатываем и оцениваем это событие, в реальном времени используя высокопроизводительный
оценочный аппарат[3]. Данный подход требует, чтобы для каждого события,
мы
а) обратиться и обновить все вектора возможных вариантов
развития событий
b) вычислять каждый вектор возможных вариантов развития
событий, используя соответствующее
модели обнаружения
изменений; и c) для отметок которые превышают порог, послать сообщение предупреждения. Также, мы использовали группы моделей
статической СУММЫ [1]. Когда отклонения от базовой модели было обнаружено, мы
сигнализировали ручной компьютер (PDA) для
информирования необходимого персонала о произошедших изменениях.
- Чтобы
решить третью проблему, мы развили стандарт Xml представления модели обнаружения изменения, также как и механизм
для описания собраний базовой модели. Использую это, мы построили приложение, которое могло бы проанализировать
ежедневные данные и, при необходимости , восстановить
базовая модель и вернуть ее их как файлы Xml оценки аппарата. Таким образом, мы
автоматизировали, в частности, восстановление базовой модели таким образом, что соответствующая базовая
модель всегда соответствовала данным.
- Чтобы
решить четвертую проблему, мы развали интеграцию платформы
таким образом, что различные наборы данных было принесены в общий
формат для последующего анализа.
Это
примечание является предварительным описанием работы и содержит краткий
просмотр подхода. Более полное описание этой работы в
настоящий момент подготавливается.
2 Набор данных «Ворота Пантеона»
Сегодня,
для исследования в интеграции данных, извлечения
знаний из данных в реальном времени, и обнаружение
изменения является препятствием отсутствие пригодных к исследованиям больших
наборов разнородных данных, которые могут использоваться для развития и испытания новых технологий. В Проекте «Ворота
Пантеона» , мы сохраняем данные датчика шоссе,
метеорологические данные, текстовые данные о событиях, которые, возможно,
воздействуют на движение, и текстовые данные о несчастных случаях во время движения. Эти данные
архивируются каждый день и являются доступными для публичного исследования и испытания
новых методов Data Mining, интеграции данных и стратегии
ассимиляции данных.
До
этого проекта, данные датчика шоссе были собраны, но не архивировались, Gateway System представляет
собой 830 датчиков на 15 участках 3 штатов Gary-Chicago-Milwaukee (GCM)
Gateway System использует 830 фиксированых датчиков
движения, в добавление к
другие
источники данных для того, чтобы вычислить условия затора движения в реальном
времени
и,
чтобы опубликовать эти данные на двух веб-узлах
http://www.gcmtravel.com
и http://www.travelinfo.org.
Набор данных «Ворота Пантеона» содержит архив этих данных,
дополнительные наборы данные, и делает этот доступный обществу для исследования как ресурс. Около 173,000 сенсорных замеров добавляются каждый
день. Набор данных в настоящий момент (Июль, 2005) содержит около 53,000,000
сенсорных замеров. Для более подробной информации, посмотрите www.teraflowtestbed.net.
3 Набор входных данных «Ворота
Пантеона»
Данные
для этого приложения состоят из следующего:
- Замеры датчиков реального времени от свыше 830
датчиков в районе Чикаго, обеспечивающая скорость, и объем движения
приблизительно каждые шесть минут. Хотя датчики сообщают данные чаще, мы имеем
право обращаться к база данных каждые шесть минут. Как упомянуто выше, мы добавляем около 173,000
датчик
замеров к нашей базе данных каждый день, и сегодня (Июль,
2005), база насчитывает свыше 53,000,000 сенсорных замеров в нашем наборе
данных.
- Данные Xml, обновляются несколько раз
день, они описывают текущую погоду
в районе Чикаго.
- Сообщения текста, представленные как ленты новостей, описывая
события
в Чикаго, которое, возможно, влияют на движение.
Для приложения, описанного в этой статье, мы
проанализировали приблизительно 750 ГБАЙТ данных, собранных за 11 месяцев.
Эти
данные включают структурированные реляционные данные (сенсорные замеры), полу-структурированные
данные (погодные данные) Xml, и неструктурированные данные е текста (данные,
описывающие события).
Одной
из задач стояла задача комбинации всех этих данных в значимом
пути таким образом, чтобы базовая модель могла быть вычислена, статистически существенные
отклонения от этих базовых моделей могут быть обнаруженными , и самое
быстрое отождествление несчастных случаев и других необычных событий может быть
проинтерпретировано как сигнал тревоги.
4 Подходы к решению задачи
Это
приложение использует разнообразные аналитические методы.
- Наборы базовых моделей. Для
этого проекта, был развит новый метод, чтобы создать и обновить базовая модель для
комплекса разнородных наборов данных, использующие собрание базовых
моделей. В частности, это приложение использует около 42,000 отдельный базовых моделей.
- Обнаружение Изменения Реального Времени. Чтобы обнаружить изменения
базовая
модель мы используем основанный подход события, в котором каждый
сенсорное
чтение полагается быть новым событием. Событие i)
обновляет
постоянную информацию о состоянии, связанную с уместным
модель;
второй) вычисляет отметку; iii) сравнивает отметку с
базовая
отметка; и iv) запускает тревогу, если есть существенный
разница
между вычисленной отметкой и базовой отметкой.
Открытое
исходное событие основанные выигрывающие двигатели используются для вычисления
эти
изменения. Это выигрывающий engine’s поддерживают для изменения
обнаружение
развивалось в части для этого проекта.
- Деревья решений основанные на дереве классификации. Мы используем классификаторов основы дерева для решения вероятно
ли, изменение в условиях движения является результатом несчастного
случая, против других вероятных причин как например погода, специальные
события, или строительство.
- Визуальная Аналитика. Мы
создали объединенную визуализацию все доступные данные, подходящие для 2x2 плиточного показа.
В частности, на различных наборах данных и модальности было слоисто
вершина
друга друг, с кнопками, привыкшими к оверлейным другим данным
установите
и быстро переключите между ними. Оказалось, это есть
эффективное
средство понимания значения изменений
в определенных
областях.
Оказалось,
методы и подходы, описанные здесь, являются гибкими и здравый.
Такой же подход и методы были недавно прикладными чтобы
идентифицировать проблемы качества данных для большой коммерческой системы оплаты.
5 Архитектура системы
Приложение
состоит из следующих компонентов:
- Блок Интеграции Данных. Мы
построили приложение интеграции данных
это
объединяет многоразовые потоки датчика и связанный
данные
в формате назначили на анализ.
- Аппарат работы с базовыми моделями. Мы
развивали приложение, которое строится
деленные
на сегменты собрания базовых моделей, получающих описание Xml
как
данные нужно делить на сегменты в каждом dimension.
Например,
для отдельных базовых моделей, возможно, быть построенным
каждый
час в дне, каждый день в неделе, и каждые два
три
датчика.
- Визуализация. Мы
развивали визуальное приложение аналитики
это
представляет реальное время объединил вид текущих данных
и
связанная предсказывающая аналитика. Это сделано, используя плиточный 2x2
покажите
это проектируется для единой или малой группы аналитиков
для
использования.
- Аппарат оценивания . Мы
приняли открытый исходный выигрывающий двигатель
к
ансамблям отметки моделей статической СУММЫ.
- Аппарат классификации. Мы
построили приложение аналитики что
используемое
дерево основаное классификаторов [2], чтобы обнаружить, изменения ли в
образцы
движения были вероятны благодаря несчастным случаям.
- Сигналы тревоги в реальном времени.
Мы
построили приложение, которое посылает сигнал тревоги на PDAs в реальном времени, когда отметки, производимые
моделями превышают определенные пороги .
6 Тестирование
Для
этого проекта, мы использовали несколько открытых исходных инструментов и
пакеты в том числе Питон, R, и PostgreSQL.
- Подготовка данных, обработка и прогнозирование было сделана
с использованием открытых исходных
инструментов, перечисленных выше.
- Классификация основанная на деревьях решений была построена
с помошью R.
- Мы также использовали открытым кодом стандартный аппарат обнаружение
изменения, который мы развиваем в частности для этого проекта.
- Наконец, мы развивали приложение визуализации, которое
создало
диалоговые
изображения, использующие SVG, Jаvаscript, и яванские Апплеты
это
могло бы быть просмотрен с SVG разрешил браузеры.
7 Визуализация результатов
Мы
развивали браузер основал визуализацию реального времени
изменения
в образцах движения обнаружили использование нашего выигрывающего двигателя.
Это
основанная
визуализация браузера использует SVG основал веб-страницу и
Jаvаscript,
чтобы показать за диалоговой модой следующую информацию:
- Карта Чикагской области.
- Высокоточне фотографии со спутника Чикагской области.
- Условия движения в режиме реального времени, в том числе скорость,
объем.
- Обнаруженые в режиме реального времени изменения в условиях движения
(указаны
маленькими
черными кругами)
- Обнаруженые в режиме реального времени вероятные несчастные случаи
(указаны маленькими прямоугольниками)
- Текст основал сообщения о специальных событиях в Чикагской
области
это,
возможно, производит движение, показанное в резервируемой коробке текста
для
этих видов событий.
- Краткий текстовый отчет о текущих погодных условиях.
Приложение
может быть доступно в highway.ncdm.uic.edu. В настоящий момент поддерживается
только Microsoft Internet Explorer, работающий в ОС Windows
с приложением Adobe SVG .
8 Заключение
Везде,
подход, кажется, обеспечивает хорошее средство идентификации
изменения
в большой, комплекс, мульти-модальные наборы данных.Созданная архитектура
развивались смогла построить базовую модель на около 750 ГБАЙТ
данных,
чтобы обработать каждое новое сенсорное событие в во времени, и для
подачи сигнала тревоги в рехиме реального времени
реального времени к PDAs. В дальнейшем работе, планирется развитие
более
точных алгоритмов для построения базовой модели, особенно
базовой
модели на очень динамичных данных.
9 Ссылки
- M. Basseville and I. V. Nikiforov. Detection of Abrupt
Changes: Theory and Application. Prentice Hall, 1993.
- Leo Breiman, Jerome H. Friedman, Richard A. Olshen and
Charles J. Stone, Classification and Regression Trees, Chapman
and Hall, New York, 1984.
-
Robert L. Grossman, Alert Management Systems: A Quick Introduction, in Managing Cyber Threats: Issues, Approaches
and Challenges, edited by Vipin Kumar, Jaideep Srivastava,
Aleksandar Lazarevic, Kluwer Academic Publisher, 2005, to
appear.
Рисунок 1. На этом рисунке продемонстрировано, как затор указан в прикладной программе.
Красный цвет указывает перегружунные сегменты шоссе, в то врямя как
зеленый
указывает не нагруженные сегменты.
Рисунок
2. На этом рисунке продемонстрировано, как изменения в
скорости указаны
в
прикладной программе. Красный цвет указывает на уменьшение среднюю скорости на определенном участке, в то время как синений цвет указывает на то , что средняя скорость увеличиваеться.
Рисунок
3. На этом рисунке продемонстрировано, как сигналы тревоги были показаны в прикладной программе.
Сгиналы тревоги указаны маленькими черными кругами,
с
белыми центрами. Каждый сигнал тревоги указывает потенциально интересующие
изменения
от нормального поведения.
Рисунок
4. На этом рисунке продемонстрировано, как вероятные несчастные случаи были предсказаны в нашем
прикладном исследовании. Одна точка ровно указывает на вероятный
несчастный случай. Вероятные несчастные случаи вычислены, используя классификациюрующее дерево решений.
Рисунок
5. Этот рисунок демонстрирует, как сигнал тревоги в режиме реального времени поставляется на PDA