Автор: Пшеничная Е. О.
Источник: Сибирский федеральный университет г. Красноярск.
В данной статье рассматривается современные подходы к моделированию и анализу человеко-машинного взаимодействия. Особое внимание уделено обработке информации, полученной на основе использования технологии Leap Motion. Более подробно описан метод гистограмм.
Человеко‑машинное взаимодействие, Leap Motion, распознавание жестов, численный вероятностный анализ, метод гистограмм.
Проблема человеко-машинного взаимодействия берет начало еще с зарождения информационных технологий и появления первых ЭВМ. Самым популярным средством взаимодействия с компьютером является «мышь». За десятилетия прогресса она сильно поменялась:лазеры сменили механические компоненты, манипулятор стал беспроводным. Многое усовершенствовалось, но концепция осталась прежней, так же как и недостатки.
В последнее время появилась новая технология реализации интерфейсов – распознавание жестов. Основная идея этой технологии заключается в том, чтобы максимально приблизить взаимодействие человека и компьютера к естественному взаимодействию между людьми.
Распознавание жестов имеет много преимуществ перед другими средствами управления, такими как клавиатура, мышь или сенсорный экран: большее количество степеней свободы для управления, отсутствие механического износа устройств управления, удобная возможность одновременной работы нескольких пользователей.
По мере развития технологии распознавания жестов можно выделить несколько основных методов:
Скелетный метод использует математическую модель человеческой руки. Преимуществом этого метода является скорость работы, так как он использует высоко детализированную модель, которая описана с помощью длин сегментов и углов между ними.
Следующий метод использует 3D‑модель для идентификации жеста. Такие модели могут быть представлены в виде сложных трехмерных поверхностей и классифицироваться с помощью нейронных сетей. Недостатком этого метода является его ресурсоемкость. Построение модели, обучение нейронной сети и ее использование могут потребовать значительных ресурсов.
Метод 2D‑распознавания схож с предыдущим методом, но оперирует двумерными изображениями вместо объемных моделей. Как следствие, снижается вычислительная сложность и отпадает необходимость в специальном оборудовании, так как для получения изображений может быть использована обычная веб‑камера. Основным недостатком этого метода является низкая точность [1]. В табл. 1 приводится сравнительный анализ методов распознавания жестов.
Таблица 1
Сравнительный анализ основных методов распознавания
Метод распознавания | Используемая модель | Устройство ввода/вывода | Преимущества | Недостатки |
---|---|---|---|---|
Скелетный метод | Математическая модель человеческой руки | Перчатки с датчиками | Скорость работы | Использование устройств‑посредников |
2D‑распознавание | Модель двумерного изображения | Веб‑камера | Снижение вычислительной сложности, необходимость в специальном оборудовании | Низкая точность |
3D‑распознавание | Модель трехмерной поверхности | Специальные контроллеры (Leap motion, Kinect и др.) | Отсечение заднего фона, сегментация объектов | Ресурсоемкость |
Следует отметить, что некоторые источники делят алгоритмы на 2 категории:
Алгоритмы, основанные на 3D-моделировании жестов, используют шарнирную модель человеческой руки для определения ключевых параметров. На основе этих параметров затем производится классификация жестов. Алгоритмы, использующие внешнее подобие, напрямую соотносят образ руки, ладони и их движения с определенными жестами. Основываясь на этих определениях, можно сделать вывод, что первая категория алгоритмов соответствует скелетному методу, а вторая категория объединяет методы 2D‑ и 3D‑распознавания из первой классификации[1].
Все вышеописанные методы используют различные устройства ввода. Они могут быть разделены на 2 группы. Первая группа устройств (взаимодействующие) включает:
Отличительной особенностью этих устройств заключается в том, что пользователь напрямую взаимодействует с ними, и жесты выполняются пользователем и устройством совместно. Основным недостатком этой группы является некоторая «неуклюжесть» таких жестов. Это объясняется тем, что человеку неудобно использовать устройства‑посредники для жестового общения. Эту неловкость можно преодолеть с помощью неконтактных подходов, основанных на видео. Они подразумевают использование нескольких видеокамер и алгоритмов компьютерного зрения для интерпретации жестов. Поэтому вторая группа (наблюдающие устройства) – это:
Одним из ярких представителей второй группы является контроллер Leap Motion (LM). LM представляет собой технологию, основанную на захвате движения для взаимодействия человека с компьютером. The Leap – это периферийное USB-устройство ввода, которое позволяет пользователям взаимодействовать с ПО через жесты. Принцип работы контроллера простой – Leap Motion создает 3D‑область взаимодействия объемом около 227 куб. дц., в которой располагаются руки для работы.
С помощью двух камер и трех инфракрасных светодиодов система следит за движениями рук, пальцев или других объектов в метровом радиусе сверху и по сторонам от себя. В отличие от камеры Kinect, реагирующей на движения тела и конечностей, Leap Motion Controller распознает движения малозаметных предметов с точностью 0,01 мм.
В некоторых жестикуляционных системах применяются камеры большого разрешения, получающие массу информации из области своего обзора. Анализ всех этих данных требует внушительного объема вычислений, а контроллер LM отличается низкой задержкой, поскольку в нем используется упрощенная камера, а его алгоритмы извлекают только те данные, которые требуются для текущей задачи. Здесь программно реализованы механизмы распознавания мелких объектов и их движений, благодаря чему регистрируются даже незначительные жесты, что вместе с компактностью системы позволяет внедрить интерфейс во многих типах устройств.
Принцип работы устройства прост: инфракрасные (ИК) диоды подсвечивают руки, а инфракрасные камеры делают их захват передавая изображения программному обработчику Leap Motion. На программном уровне в бой вступают математические алгоритмы, которые выделяют контуры рук, и отслеживают координаты пальцев. Начиная с версии SDK 2.0., Leap Motion научился выделять составные части руки, проще говоря, алгоритм определяет кости рук и запястье, отслеживает их перемещение в пространстве. Таким образом, открываются новые горизонты для расширения базы распознаваемых жестов.
LM собирает информацию в кадры, полученные с двух камер и тр?х
инфракрасных светодиодов внутри контроллера. Это позволяет рассчитывать
скорость и другие данные, зависимые от времени (например, жесты),
как последовательную смену кадров, зависящую от частоты кадров.
Этот параметр можно регулировать на панели управления Leap Motion, однако
сбалансированные
значения отслеживания по умолчанию Windows 7 пода?т
10 кадров в секунду со средним временем обработки кадра 4 миллисекунды.
Обработка информации, полученной на основе использования технологии Leap Motion, представляет собой еще одну важную проблему.
Вычислительные алгоритмы, применяемые в настоящее время для этой цели, характеризуются высокой сложностью, что существенно сказывается на времени и качестве обработки информации, особенно в условиях жестких требований к быстродействию элементов вычислительной системы, в условиях, когда необходимо выполнить действие за доли секунды.
В работе [2] рассматриваются некоторые вычислительные алгоритмы выделения руки человека. Особый интерес представляет метод гистограмм, который заключается в построении двух гистограмм изображения и их анализа. Как исследует из описания метода, отсекается фоновое изображение. Изображение переводится в полутоновое изображение (Gray Scale). Строится две гистограммы (по оси Х и Y) оставшегося изображения руки. Принцип построения гистограммы следующий: изображение разбивается на N частей (по горизонтали или вертикали, в зависимости от необходимой гистограммы), в каждой части вычисляется среднее значение оттенков серого по всем пикселям области проводится процедура нормализации полученных значений по максимальному значению из всех областей и проводится анализ гистограммы. В качестве недостатка этого метода авторы отмечают, что метод зависим от освещения, методов фильтрации, и, следовательно, система обработки должна иметь хорошую приспосабливаемость к изменению внешней среды. Отмечается, что в некоторых случаях достаточно сложно отследить логику изменения гистограммы при изменении исследуемых частей изображения (положения руки в пространстве, относительно камеры), что делает анализ гистограммы слишком трудоемкой задачей.
Для преодоления указанных недостатков предлагается использовать численный вероятностный анализ (ЧВА) [3, 4]. Применение разработанных на основе ЧВА процедур позволяет агрегировать данные, снижает уровень информационной неопределенности в данных и существенно повышает эффективность численных расчетов. Для этого предлагается разнообразный инструментарий, включающий такие понятия как гистограммная арифметика, вероятностные, естественные и гистограммные расширения, гистограммы второго порядка. ЧВА представляет собой непараметрический подход и может успешно применяться для анализа и численного моделирования разнообразных процессов и систем в рамках визуально‑интерактивного моделирования, повышая тем самым качество исследования систем [4].
1. Кладов С. А. Распознавание жестов // Электронный журнал Молодежный научно‑технический вестник
.
2. Катаев М. Ю., Широков Л. В. Методика определения жестов руки наблюдаемых с помощью видеокамеры // Доклады ТУСУРа. – 2013. – № 1 (27), март. – С. 45-49.
3. Dobronets B. S., Popova O. A. Numerical probabilistic analysis under aleatory and epistemic uncertainty // Reliable Computing. – 2014. – Т. 19, № 3. – С. 274-289.
4. Добронец Б. С., Попова О. А. Гистограммный подход к представлению и обработке данных космического и наземного мониторинга // Известия Южного федерального университета. Технические науки. – 2014. – № 6 (155). – С. 14-22.