Динамическое Распознавание Текстур

Payam Saisan, Gianfranco Doretto, Ying Nian Wu, Stefano Soatto
Источник: www.vision.cs.ucla.eduzSzpaperszSz487_doreetto.pdf/saisan01dynamic.pdf



Резюме

Динамические текстуры - это последовательности изображений, которые показывают некоторую форму временных стационарных процессов, таких как волны, пар и листва. Мы излагаем проблему признания и классификации динамических текстур в течение динамических систем, где каждая динамическая текстура уникально представлена. Так как пространство не линейно, то расстояние между моделями должно быть определено. Мы исследуем три различных расстояния в течение авторегрессивных моделей и оцениваем их мощность.

1. Введение

Распознавание объектов, основанных на их изображениях - это одна из центральных проблем в современном Машинном зрении. Мы рассматриваем объекты, как описываемые их геометрическими, фотометрическими и динамическими свойствами. В то время как обширная литература базируется на распознавании, основанном на геометрии и фотометрии, меньше говорится о признании сцен, основанных на их динамике. В этой статье мы рассматриваем проблему распознавания последовательности изображений, основанной на совместной фотометрической динамической модели. Это позволяет нам распознавать не только след от листвы, но и быстро бурный след от тумана, или обнаруживать присутствие сильных ветров, смотря на деревья.

Мы представляем изображения постоянных процессов как вывод стохастической динамической модели. Модель изучена из данных, и распознавание выполнено в пространстве моделей. Выполнение этой идеи, однако, не просто. Во-первых, карта от последовательности до модели не обязательно взаимно однозначна: совсем другие сцены могут вывестись из той же самой модели. Во-вторых, даже самые простые линейные модели, изученные из данных, представляют собой эквивалентные классы статистики: та же самая сцена может привести к совсем другим моделям в зависимости от начального условия. Распознавание в пространстве моделей доходит до выполнения статистики по факторным пространствам, которые имеют нетривиальную структуру Риманна.

Распознавание комплексных образцов движения в изображениях - активная область исследования в машинном зрении. Была проведена обширная работа для случая человеческого движения и в специфических выражениях лица, например [2, 8, 3, 16, 13]. Некоторые методы основаны на оптическом потоке. Для каждой рамки поток может быть аппроксимирован с помощью маломерного вектора в подходящем базисе, как в [7], и распознавание сделано с помощью скрытых Марковских моделей (СММ), или, как во [2], пространственно-временное представление оптического потока может быть построено. Другие смотрят на различные пространственно-временные особенности [12].

В этой статье мы применяем отличающийся подход: мы не выбираем местные особенности, и при этом мы не вычисляем оптический поток. Вместо этого мы начинаем с предположения, что последовательности изображений являются реализациями стационарных стохастических процессов второго порядка (ковариация конечна и инвариантна к сдвигам). Мы намереваемся классифицировать и распознавать не индивидуальные реализации, а статистические модели, которые их генерируют. Это влечет за собой выбор расстояния между моделями. К этой проблеме сначала обратился Мартин в [11], где было введено расстояние для единственного ввода, единственный вывод (SISO) линейных Гауссовых процессов. Мы предлагаем и анализируем три расстояния. Первое расстояние использует основные углы между определенными подпространствами, полученными из моделей AR1. Второе - расширение расстояния, предложенного Мартином. Оба вытекают из недавних результатов Де Кука и Де Мура [4]. Наконец, мы также смотрим на геодезическое расстояние


2. От последовательности изображений к динамическим моделям

Мы начинаем с предположения, что последовательность изображений - реализация стационарного стохастического процесса второго порядка. Это означает, что совместная статистика между двумя моментами времени инвариантна к сдвигам. Хотя это может походить на строго ограничительное предположение, это показано в [14, 6], что последовательности, такие как листва, вода, дым и пара хорошо фиксируются этой моделью. Эти последовательности называются "динамическими текстурами".

Хорошо известно, что положительно-определенная последовательность ковариации с рациональным спектром соответствует эквивалентному классу стационарных процессов второго порядка [10]. Тогда возможно выбрать, как представителя от каждого класса, модель Гаусса-Маркова - которая является выходом линейной динамической системы, управляемой белым, средне нулевым Гауссовым шумом - с помощью данной ковариации. Другими словами, мы можем предположить, что существует положительное целое число n, процесс {x (t)} ("состояние") с начальным условием и симметрическая положительная полуопределенная матрица

такая, что {y(t)} вывод следующей Гаусс-Марковской модели2 "ARMA":

для некоторых матриц и .

В то время как есть много возможных выборов канонической реализации (см. [9]), мы интересуемся "приспособленными" к данным. Так как мы работаем с изображениями, мы сделаем следующие предположения о модели (1):

и выберем реализацию, которая делает столбцы F ортонормальными:

Это гарантирует, что матрица C является элементом в коллекторе Стивела V (м, n) (набор n ортонормальных векторов в Rm) и что стохастическая реализация, соответствующая данному набору данных, уникально определена. Мы увидим, что проблема классификации/распознавания может быть изложена вычислительной статистикой по такому коллектору.

Проблема перехода от данных к модели может быть сформулирована следующим образом: данные размеры типового пути процесса: оценка каноническая реализация процесса {y(t)}. Как описано в [14], выбор результатов – в канонической реализации. В идеале, мы хотели бы решение для максимальной вероятности из конечного образца, который является параметром

Обратите внимание, что мы не моделируем ковариацию шума измерения, так как это не несет никакой информации относительно основного процесса. Практически, по причинам вычислительной эффективности, мы соглашаемся на подоптимальное решение, описанное в [14]. Поэтому, с этого момента, мы предположим, что мы имеем в наличии - для каждой типовой последовательности - модель в форме {A, C, Q}. Ради распознавания, мы рассматриваем процессы с различной ковариацией входного шума как эквивалентные. Поэтому, проблема признания динамических текстур может быть рассмотрена как проблема признания пар {A, C} оцененных по данным.


2.1. Геометрическая структура пространства моделей

Модели, изученные по данным, как описано в предыдущем разделе, не живут в линейном пространстве. В то время как матрица A только ограничена быть устойчивой (собственные значения в пределах круга модуля), матрица C имеет нетривиальную геометрическую структуру для этой формы столбцов ортогонального набора. Пусть точка коллектора Стивела n-рамок в обеспеченная Евклидовым показателем где тангенсный план на коллекторе Стивела. Это показано в [5], что геодезические траектории в V (м., n) имеют общую форму

и является ассиметрично-симметричной матрицей, имеющей блоки

Отметим, что X принадлежит линейному пространству, которое является изоморфным к , и поэтому может использоваться как локальная координализация коллектора Стивела V(m,n). Мы будем использовать структуру геодезии, чтобы определить расстояние в V(m,n) следующим образом: рассмотрим два пункта и геодезически соединенный с ним:
и
для специфического значения X, t и для любого U, ортогонального завершения C1. Затем мы определяем

где приписка F указывает норму Фробениуса.


2.2 Распределения вероятности на коллекторах Стивела

Чтобы обеспечивать простое статистическое описание на пространстве моделей, мы предполагаем, что A и C независимы, так, чтобы к их статистическому описанию можно обратиться отдельно. Определяя плотность вероятности в пространстве переходов матриц, A является прямым (действительно, мы примем Гауссовскую плотность), делая так для выходных матриц C, не тривиальным с тех пор, поскольку мы только что видели, что пространство имеет нетривиальное искривление. В этом параграфе мы вводим класс плотностей вероятности на коллекторе Стивела, который может использоваться для моделирования статистики C. Рассмотрим следующую функцию p:

где и где с помощью основа (Haar) измерений V(m,n). Мы называем эту функцию плотностью Лангевина (или Гиббса) на V (м., n), вследствие его подобия распределениям Лангевина на сфере. играет роль режима плотности, и играет роль дисперсии. Просто проверить, что вышеупомянутая плотность имеет уникальный максимум для Функциональное выражение p может использоваться, чтобы вычислить отношения вероятности для распознавания, как только параметры будут выведены.

Чтобы оценивать достаточную статистику от образцов, пусть средний образец плотности p (C). Это следует из закона больших чисел, что

Наличие выражения закрытой формы интеграла , образец которого можно использовать, чтобы вычислить и использовать уравнение выше, чтобы вычислить статистику. Однако, мы не преследуем эту цель далее. Вместо этого мы рассматриваем оценку максимальной вероятности достаточной статистики, рассматривая совместную плотность среднего образца который может быть записан как

Например, для случая мы можем найти что решает следующую проблему

Решение это исключительное значение декомпозиции, затем

Это также разъясняет отношения между средним образцом и типовой медианой : последний состоит из ортогональных факторов предыдущего, или другими словами это - ортогональное проектирование на V(m,n).


3. Динамические модели распознавания

Поскольку мы ясно сформулировали в предыдущем разделе, динамическая текстура описана линейной динамической системой и представлена матрицами A, C, Q. Это пространство имеет нетривиальную структуру искривления, которая должна быть принята во внимание, делая статистику или сравнения между моделями.

В этом разделе мы рассматриваем три подхода к распознаванию. Каждый включает в себя вычислительные отношения вероятности, с явной формой для плотности вероятности моделей. Второй включает в себя вычислительные углы между подпространствами промежутка измерения. Третий включает в себя только вычислительные расстояния между моделями.

Предположим, что две группы точек в V(m,n) даны как: , средние образцы распределения Лангевина со средним и дисперсией , and образцы распределения со средним и дисперсией . Учитывая новую точку C, мы хотим решить, какой "группе" она принадлежит. С теоретической решением точки зрения, цель состоит в том, чтобы создать плотность, соответствующую каждой гипотезе, , и вычислить отношение вероятности

где параметры и в вычислены из образцов как показано выше, и таким же образом для и . Решение может быть принято на основании того, является ли отношение большим или меньшим. Эта установка может быть обобщена к решениям среди множества гипотез прямым способом [15].

Во время включения в обсуждение, отношения вероятности не были частью нашей экспериментальной схемы. В наших экспериментах мы сосредоточились главным образом на углах подпространства и расстояниях между моделями.

Пусть и будут двумя матрицами с полным рангом столбцов. Основные углы между range(A) и range(B) определены как

Углы подпространства являются наибольшими из этих углов. Закрытая форма решения представлена в [4]. Мы используем углы подпространства между динамическими моделями текстуры, чтобы вычислить расстояния.

Ради простоты в нашем выполнении мы предполагали, что имеем дело с моделями автоматического восстановления. Так что, мы обсуждали и вычисляли основные углы и расстояния Мартина между AR моделями, определенными парами {A, C}. В то время как это предположение может казаться ограничительным, результаты тем не менее обнадеживающие (см. Раздел 4.2).


НАВЕРХ

В БИБЛИОТЕКУ