Распознавание русского и индийского языков жестов глухих
Авторы: Р. Элаккия, М.Г. Гриф, А.Л. Приходько, М.А. Бакаев
Источник: Научный вестник Новосибирского государственного технического университета
№2-3(79), 2020 г., стр. 57–76
Аннотация
Рассматриваются подходы к распознаванию жестовых языков глухих на примере русского и индийского жестовых языков. Предлагается структура системы распознавания отдельных жестов на основе выявления пяти его компонент - конфигурации, ориентации, локализации, движения и немануальных маркеров. Приведен анализ применяемых методов распознавания отдельных жестов и непрерывной жестовой речи для индийского и русского языков жестов. Рассматривается проблема построения корпусов жестовых языков, а также наборов обучающих данных (Датасет). Отмечается сходство отдельных жестов русского и индийского жестовых языков. Приводится структура локального Датасет для статичных жестов русского жестового языка. Было собрано 927 файлов видеоизображений со статическими одноручными жестами. После преобразования видеофайлов в формат JSON с использованием библиотеки OpenPose и анализа 21 точек скелетной модели правой руки была получена достоверность выбора точек 0.61, что было признано недостаточным. Отмечается, что распознавание отдельных жестов и жестовой речи в целом осложняется необходимостью точного отслеживания различных компонентов жестов, которые выполняются достаточно быстро и осложняются перекрытием рук и лиц. Для решения этой проблемы мы предлагаем подход, связанный с разработкой биоподобной нейронной сети, которая должна обрабатывать визуальную информацию аналогично коре головного мозга человека: идентификация линий коры головного мозга человека: идентификация линий, построение краев, распознавание движений, идентификация геометрических фигур, определение направления и скорости движения объектов. В настоящее время мы тестируем биологически подобную нейронную сеть, предложенную А.В. Кугаевских, на видеофайлах из датасета русского жестового языка.
Ключевые слова:
Русский жестовый язык, индийский жестовый язык, распознавание жестов, компоненты жестового языка глухих, искусственная нейронная сеть, машинное обучение, наборы обучающих данных
Введение
Общение и сотрудничество между глухонемыми и слышащими людьми затруднено из-за отсутствия общего языка. Несмотря на то, что в этой области было проведено много исследований, еще есть над чем работать, чтобы создать систему, которая будет повсеместной, неинвазивной, работающей в режиме реального времени и поддающейся интерактивному обучению пользователя. Язык жестов служит средством общения между глухими и слабослышащих людей. В целом, СЖ используется не только в основном глухими и сообщество людей с нарушениями слуха, но и слышащие люди, которые не могут говорить или испытывают некоторые трудности. не могут говорить или испытывают некоторые трудности с разговорным языком из-за других инвалидности (аугментативная коммуникация). Также СЛ используется людьми, которые могут слышать, но не могут говорить из-за других заболеваний, таких как болезнь Паркинсона. Языки жестов не являются международными и не одинаковы во всем мире. В настоящее время нет четкого представления о количестве используемых в мире жестовых языков - В каждой стране есть свой родной СЛ, а в некоторых странах их может быть несколько В некоторых странах может быть более одного языка. К числу существующих языков жестов относятся американский язык жестов (ASL), британский язык жестов (BSL), китайский язык жестов (CSL), немецкий язык жестов (DSL), индийский язык жестов (DSL). язык жестов (DSL), индийский язык жестов (ISL), русский язык жестов (РСЖ) и т.д. Кроме того, некоторые языки жестов получили юридическое признание, в то время как другие не имеют такого признания во всем мире. Проблема распознавания SLs с помощью компьютера имеет большое социальное значение, и над ней работают многие исследователи по всему миру. Тем не менее, в настоящее время она не может не может считаться удовлетворительно решенной, в основном из-за низкой точности распознавания СЛ распознавания.
1. Общий обзор русского и индийского жестовых языков, используемых глухонемыми людьми
По данным переписи населения, проведенной Всемирной организацией здравоохранения в 2011 году, общее число глухих в Индии составляет около 5 миллионов человек, а глухонемых - около 2 миллионов. Индийский язык жестов (ИЖС) используется в сообществе глухонемых по всей Индии. Однако в школах для глухих детей ISL не используется для обучения. Программы подготовки учителей не ориентируют преподавателей на методы обучения с использованием ИСЛ. Не существует учебных материалов, включающих язык жестов. Родители глухих детей не знают о существовании языка жестов и его способности устранять коммуникационные барьеры. Переводчики ИСЛ срочно требуются в институтах и местах, где происходит общение между глухими и слышащими людьми, но в Индии всего менее 300 сертифицированных сурдопереводчиков [1]. Существует даже аргумент, что другие страны, такие как Непал, Шри-Ланка, Бангладеш и некоторые приграничные районы Пакистана [2], также используют ИСЛ.
Язык жестов, как правило, имеет значительное сходство с разговорной речью, однако у СЖ есть своя структура и грамматика, которая варьируется в зависимости от эффективности и беглости жестов. Хотя общая лингвистика рассматривает жестовый и разговорный языки как различные типы естественного языка, жестовый язык не следует считать языком тела только потому, что он является еще одним способом неязыковой коммуникации. Аналогично, ИСЛ также имеет свою структуру, синтаксис, морфологию, фонологию и грамматические вариации. В ИСЛ вместо устных слов используется визуальная передача смысла. Такая коммуникация включает в себя одновременное сочетание как ручных, так и неручных средств выражения. К ручным параметрам относятся форма руки, положение руки, ориентация руки, траектория движения руки и движения рук, а к неручным - выражение лица, положение головы и тела, направление рта и взгляда. Все эти выражения вместе передают предполагаемый смысл и информацию о жесте в терминах визуальной проекции. ИСЛ состоит как из отдельных слов [3], так и из непрерывных предложений, как и другие жестовые языки. На рис. 1 представлены алфавиты ИСЛ. Официальный словарь ISL постоянно обновляется, начиная с 1 000 слов в первоначальном выпуске и заканчивая 3 000 слов во втором выпуске, а в настоящее время словарь состоит из 6 000 слов в различных категориях. В отличие от ASL и других языков, ISL очень сложен, потому что:
- Он состоит из комбинации жестов одной и двух рук и часто состоит из большего количества знаков двумя руками даже для отдельных слов.
- Когда речь идет о двуручных знаках, высока вероятность перекрытия рук и наложения рук на мимику.
- Расположение рук по отношению к лицу и телу подразумевает различные знаки в разных местах.
По оценкам, в Индии более миллиона глухих взрослых и более полумиллиона глухих детей используют ИСЛ [4]. Но все же существуют определенные ограничения для разработки словаря для ИСЛ, которые возникают из-за культурных факторов и влияния общества. Вот некоторые из них [2]:
- В сельских районах Индии к инвалидам относятся плохо, а жесты не вызывают у людей мотивации.
- До конца 1990-х годов считалось, что ISL не существует, поэтому в индийской системе не было исследований по лингвистике ISL.
- Недоступность стандартизации лексики, синтаксиса и грамматики ISL с документацией и недоступность средств автоматизации обучения ISL.
- Наличие переводчиков ISL часто бывает проблематичным.
Изучением ИСЛ начали заниматься с 1978 года, и в конце концов использование ИСЛ было признано во всем мире. ИСЛ стал самостоятельным языком, и несколько сотен языков жестов используются в таких городах, как Дели, Мумбаи, Калькутта и Бенгалуру [5]. Позже Университет Вивекананды Миссии Рамакришны [6] собрал знаки из 42 мест в стране и выпустил словарь знаков на 1600 слов. Распознавание ISL (ISLR) - это прорыв для помощи слабоумным (глухонемым) людям, и в последние годы оно стало предметом исследований. К сожалению, каждое исследование имеет свои ограничения и пока не может быть использовано в коммерческих целях. Некоторые из исследований достигли определенных успехов в распознавании СЛ, но для их коммерциализации требовались большие затраты. В настоящее время исследователи уделяют больше внимания разработке ИСЛР, которые могут быть использованы на коммерческой основе. Отслеживание и распознавание специализированных мультимодальных жестовых знаков имеет решающее значение, особенно в распознавании знаков и жестов.
Русский жестовый язык используется слабослышащими людьми в Российской Федерации - 120,5 тысяч пользователей, по данным переписи 2010 года - и в некоторой степени в бывших советских республиках. Несмотря на значительное число пользователей, официальное признание РСЛ получил совсем недавно, после подписания в конце 2012 года президентом В.Путиным поправок к Федеральному закону "О социальной защите инвалидов в Российской Федерации". В них РСЛ определяется как "язык общения,используемый при нарушениях слуха и (или) речи, в частности при устном использовании государственного языка Российской Федерации".
Всесторонний обзор и сравнение словарей для трех различных вариантов (диалектов) РСЛ - петербургского, московского и сибирского - можно найти, например, в [7]. На первом этапе исследования из четырех словарей РСЛ [8-11] была сделана сплошная выборка, в результате которой знаки были проанализированы и упорядочены по алфавиту. Общее количество знаков в полученной выборке составило около 13 000 лексических единиц. На втором этапе был составлен составлена сравнительная таблица знаков, ключенных в указанные лексикографические источники, и проведен сопоставительный анализ. В результате исследования был составлен объединенный список знаков, содержащихся в рассматриваемых словарях, включающий в общей сложности 6 200 позиций.
Последующий анализ языкового материала был направлен на выявление количества знаков, соответствующих омонимам и полисемантичным словам в русском языке [12], а также на уточнение представлений об исполнении знаков, соответствующих омонимам [13], из которых было выявлено 54 знаковые пары. В отличие от разговорных омонимов, знаки изображаются по-разному, но их исполнение позволяет точно передать смысл. Для полисемантичных слов было выявлено 280 знаков, особенность которых заключается в том, что разное исполнение соответствующих знаков позволяет передать значение, не опираясь на контекст. Некоторые знаки из этой группы являются имитационными, а некоторые имеют исполнение, сходное с невербальным компонентом, сопровождающим соответствующие термины в русском языке.
Особенности словообразовательной системы RSL заключаются в следующем:
- Основными единицами словообразовательной системы являются цепочки, парадигмы и гнезда, в которых выделяются мотивирующие и мотивированные жесты, причем отивирующие слова русского разговорного языка не всегда являются названиями мотивирующих жестов.
- Система не обладает средствами, полностью соответствующими словообразовательным формантам русского языка. Однако в этой системе есть свои специфические средства формирования новых жестов. Поскольку в жестовом языке для передачи информации вместо звуков используется визуально-кинестетический канал, жесты, аналогичные однокоренным словам, можно создавать, используя комбинацию двух самостоятельных жестов РСЖ, добавляя к номинативному жесту специальные дополнительные жесты (например, жест, обозначающий человека), повторяя дополнительный жест, изменяя амплитуду/интенсивность жеста, его локализацию, превращая одноручный жест в двуручный, используя мимику и/или повороты корпуса при выполнении жеста. Перечисленные средства применяются системно, что свидетельствует о существовании в РСЛ оригинальных словообразовательных моделей, некоторые из которых имеют аналоги в русском разговорном языке.
- Техники формирования знаков в RSL могут быть разными:
- аналогичное выполнение жестов, которые являются однокоренными с точки зрения словообразования русского языка, но не входят в словообразовательные цепочки;
- идентичное выполнение жестов, аналоги которых являются однокоренными в русском языке;
- несхожесть в исполнении жестов, названия которых в русском языке являются однокоренными.
В РСЛ есть жесты, схожие с классами слов, которые в русскоязычном языке называются частями речи. В РСЛ преобладают жесты существительные (не менее 66 %), в то время как в XXth веке было больше жестов прилагательных. Доля глагольных жестов практически одинакова во всех имеющихся словарях (9-11 %), а в целом данные о количестве жестов имеют незначительные различия по нюансам, местоимениям, наречиям, причастиям, союзам, междометиям, предлогам и частицам. Например, словарь И.Ф. Гейльмана не содержит предикатов, а в видеословаре, разработанном Институтом социальной поддержки населения НГТУ, отсутствуют модальные слова.


Рисунок 1 – SL-алфавиты
2. Структура системы распознавания жестовых языков
Основная цель системы распознавания СЛ (SLR) - распознать большой словарный запас в неограниченных условиях, что облегчит общение между людьми с нарушениями слуха и нормально слышащими людьми. Лингвистика СЛ в основном состоит из трех компонентов, а именно: ручных сигналов, неручных сигналов и пальцевого письма. Ручные сигналы подаются только жестами рук, использующими форму, положение, ориентацию и траекторию движения рук, неручные сигналы - это сигналы, подаваемые мимикой, позой тела и положением головы, которые используются как часть знака или для изменения значения ручных сигналов, а пальцевая орфография - это жесты, которые произносят слова в виде отдельных букв, используя местный вербальный язык.
Мануальная лингвистика - важнейший компонент, необходимый для распознавания языка жестов. Мануальные сигналы подразделяются на три основных компонента: форма руки, движение руки и место артикуляции. Если рассматривать ручные сигналы без учета неручных компонентов, то они рассматриваются как подмножество элементов жестовой коммуникации. Кроме того, ручные сигналы сильно структурированы, ограничены и более сложны по сравнению с двуручными знаками.
Тем не менее, анализ ручных подсказок рассматривается как часть жестовой коммуникации и требует более персонализированных методов в случае решения системы распознавания знаков с большим словарным запасом или при анализе корреляции рук. Многие из существующих подходов в SLR фокусируются на позах рук, которые представляют собой статичные формы рук, игнорируя тот факт, что многие жестовые языки содержат знаки с инвариантами движения. Когда речь идет о системе распознавания с большим словарным запасом, распознать все знаки только с помощью статичных поз крайне нецелесообразно. На рис. 2 показаны различные методы извлечения ручных сигналов в системах SLR.
Неручные сигналы в зеркальных фотоаппаратах играют важную роль в передаче значительного количества значимой информации в дополнение к ручным сигналам. Наиболее полезными неручными сигналами являются выражение лица, движения губ и оценка положения головы. К неручным сигналам относятся поднятие или опускание бровей, взгляд, кивки и покачивания головой, сморщивание носа, движения губ и различные степени открытия глаз. Эти сигналы служат индикаторами и предоставляют дополнительную информацию для работы в качестве модуляционной функции, участвующей в добавлении лексических и семантических свойств знаков. Сочетание этих выражений лица и оценки положения головы помогает понять определенный грамматический статус, который включает в себя вопросы, отрицания, клаузы "когда" и относительные клаузы.
Исследования в области СЛР в основном сосредоточены на двух аспектах, а именно на изолированном распознавании знаков и непрерывном распознавании предложений. Изолированное распознавание слов включает в себя распознавание статических поз одной и двух рук, которые сурдопереводчик использует для передачи информации, в то время как непрерывное распознавание включает в себя идентификацию последовательности жестов, подписанных сурдопереводчиком один за другим.

Рисунок 2 – Распознавание ручного жеста в зеркальном фотоаппарате
Среди этих двух проблем распознавания CSR отличается тем, что при распознавании жестов рук она рассматривается как распознавание жестов, а при распознавании языка жестов - как проблема коартикуляции. Проблема ко-артикуляции усложняет распознавание, поскольку восходящий знак влияет на нисходящий, а переход между знаками, т.е. движения эпентезы (EM), должны быть явно или неявно смоделированы для интеграции в системы распознавания.
Исследования ISLR начались с распознавания ISR и CSR на основе подходов De- vice-Based с использованием датчиков и трекеров. Несмотря на то что эти подходы дают точные результаты при отслеживании и указании жестов, сурдопереводчик теряет естественную манеру жестикуляции, поскольку ему постоянно приходится носить на руках обременительные устройства или трекеры. С другой стороны, подходы к распознаванию языка жестов, основанные на видении, обеспечивают удобство для сурдопереводчиков. Тем не менее, этот подход также сталкивается с рядом проблем в CSR, которые заключаются в обработке окклюзии рук над лицом, проблеме коартикуляции, сегментировании, обнаружении конфигурации рук и пальцев и моделировании переходных движений между знаками. Чтобы преодолеть эти проблемы, многие подходы, основанные на зрении, используют различные цветные перчатки на руках или цветные маркеры для пальцев. Несмотря на все это, распознавание, распознавание и классификация языка жестов без маркеров в загроможденном и неограниченном окружении остается открытой исследовательской проблемой.
Рассмотрим распознавание отдельных знаков ИСЛ. Система ISLR была предложена Нанди и др. [14] и распознала 22 знака ISL с точностью 92.29 %. Реха и другие [15] получили точность 91,30 % для 26 жестов ISL, используя методы 2D компьютерного зрения. Однако предложенный ими подход страдал от переменной освещенности. Лилха и Шивмурти [16] разработали систему распознавания ИСЛ для распознавания статических и динамических жестов. Их система достигла точности 98,1 %, но при этом жестикулирующий теряет естественность жестов из-за необходимости носить браслет для различения ладони и предплечья. Адитхия и другие [17] использовали искусственные нейронные сети (ИНС) для распознавания алфавитов и цифр ISL. Их система показала точность 91,1 %, но не справилась с задачей в условиях реального времени. Диксит и Джалал [18] предложили подход для распознавания одноручных и двуручных жестов ISL из 720 изолированных слов и достигли точности 96,2 %.
Ананья и др. [4] адаптировали условные случайные поля (CRF) для сегментации одноруких и двуруких знаков изолированного ИСЛ и получили точность 90 % и 86 % соответственно. Саху и Равулаколлу [19] разработали систему распознавания изолированных знаков с использованием классификаторов K-Nearest Neighbour (KNN) и ANN. Они достигли 95 % точности для знаков с одной рукой и 96 % для знаков с двумя руками. Сингх и др. [20] разложили изображения одной и двух рук с помощью гистограммы градиентов (HOG) и геометрических дескрипторов и классифицировали их с помощью машины опорных векторов (SVM) и ANN. Их система показала точность 94,23 %. Гангрейд и др. Авторы [21] распознавали числа ISL от 0 до 9 с помощью мешка слов и достигли точности 93,26 %. Однако все разработанные системы распознают только отдельные слова и включают в себя только ручные признаки. Для получения точного результата необходимо, чтобы система SLR включала как ручные, так и неручные параметры.
Далее рассмотрим реальное распознавание ИСЛ. Бхуян и другие [22] представили новый метод распознавания переходных движений между непрерывными знаками в распознавании жестов на основе траектории. Они использовали концепцию распознавания точек коартикуляции между быстрыми и медленными кадрами, чтобы отделить переходные движения от жестов. Ли и Гринспен [23] предложили более эффективный метод сегментации жестов для непрерывного распознавания жестов ИСЛ с использованием непрерывного динамического программирования и получили точность 95 %. Бхуян и другие [24] предложили модель траектории жеста для идентификации динамических жестов, и их подход позволил достичь точности 95 %. Кишор и Кумар [25] разработали систему распознавания жестов ИСЛ по видеозаписям в различных сложных условиях и достигли точности 96 % для 351 знака.
Нанивадекар и другие [26] предложили пошаговый алгоритм, учитывающий отслеживание движений, распознавание образов и отслеживание рук. Их система работала на видео с динамическими жестами, но не учитывала фразы и движения лица. Кишор и др. [27] предложили 4- камерную модель для сегментации жестов рук с использованием признаков, полученных из эллиптических дескрипторов Фурье, и ассифицировали их с помощью ANN. Скорость распознавания в их системе составила около 92,23 %. Трипатхи и другие [28] разделили непрерывные жесты с помощью градиентного метода, рассчитав градиент для каждого кадра и проверив перекрытие между непрерывными кадрами. Прасад и др. [29] разработали систему ISLR с показателем распознавания 92,34 % для 80 самостоятельно отобранных идеопоследовательностей, состоящих из 59 букв и цифр, а также 20 слов. Атира и др. [28] разработали независимую от сурдопереводчика модель ISLR с пальцевым написанием алфавитов и динамическими одноручными знаками с точностью распознавания 91 % и 89 % соответственно.
Давайте рассмотрим особенности распознавания на основе зрения и сенсоров. Большинство исследователей сосредоточились на подходах,основанных на зрении, для распознавания ИСЛ. Реха и др. [15] использовали разложение вейвлет-пакетов и основную кривизну в качестве региональных детекторов для распознавания поз рук ИСЛ и получили точность 93,1 %. Bhuyan & Bora [30] распознали динамические и статические жесты ИСЛ с помощью техники абстрагирования видео, ориентированной на руки, на основе форм, траектории и движения рук. Агарвал и другие [31] адаптировали алгоритм слияния признаков для распознавания жестов путем извлечения геометрических признаков, HOG и Scale Invariant Feature Transform (SIFT) и достигли точности 93 %. Джоши и др. [32] считают ручные признаки важными и уделяют особое внимание границам фигуры. Замечено, что улучшение достигается только до определенного уровня, поэтому точность насыщается при более высоких порядках. Кумар и другие [33] проанализировали эффективность комбинации различных векторов признаков, а Каур и другие [34] предложили систему распознавания ISL, которая достигла высокой точности для вектора признаков размером 638. Большой размер вектора признаков создает проблемы с точки зрения требуемого объема памяти и времени на обработку вектора признаков.
Мехротра и другие [20] распознали 37 знаков ISL и достигли точности 86,16 % на основе 3D-функций точек скелета с датчика Kinect с использованием SVM. Рахеджа и др. [35] предложили систему ISLR, основанную на информации о глубине, используя Kinect, и применили SVM для классификации знаков. Кумар и другие [36] предложили мультимодальную систему с использованием Leap Motion Controller (LMC) и сенсора Kinect для ИСЛР на основе классификаторов, объединяющих оба сенсора для обнаружения признаков. Они распознали 50 знаков ISL и достигли точности 40,23 % для всех жестов. Джоши и другие [37] разработали унимодальное слияние признаков, которое помогает минимизировать размер вектора признаков, а также повышает производительность для всех наборов данных, но не справляется с распознаванием сложного фонового набора данных индийского языка жестов (ISL). Рагхувира и другие [38] предложили ансамблевый метод для распознавания одноручных, двуручных и пальцевых знаков ISL на 4 600 изображениях и получили точность 71,85 %. Кроме того, все эти датчики имеют свои преимущества с точки зрения низкой стоимости и недостатки, связанные с данными о движении. Однако все эти методы использовали датчики для распознавания знаков, и решение проблемы движения эпентеза остается нерешенной задачей.
Рассмотрим распознавание RSL. Исследования в этой области [39, 40] начались с перевода русского разговорного языка на жестовый с использованием дифференциальной маркировки объектов [41, 42]. В последнее время подход к переводу был скорректирован вместе с распознаванием РСЛ с помощью динамического программирования [43] и конволютивных нейронных сетей (CNN) [44]. Однако эти методы опираются на сенсор Kinect для распознавания признаков [45]. В работах [46-48] предпринимаются попытки распознавания знаков RSL и нерукотворных компонентов. Общее требование заключается в том, что алгоритмы распознавания должны работать в реальном времени и распознавать знаки по мере их разворачивания в пространстве знаков [49].
Знаки тела
Для индийского языка жестов, IITA-ROBITA ISL [50], существует словарь, разработанный Индийским технологическим институтом Аллахабада, с 23 жестами, подписанными одним сурдопедагогом. Словарь из 140 символов [51], созданный с помощью 18 испытуемых, состоит из 5041 изображения, большинство из которых - жесты двух рук, и еще один набор из 24 статических жестов. Используются формы рук из ISL [52]. Набор данных из 3000 изображений, состоящих из букв, цифр, слов и эмоций, используется для распознавания знаков в различных областях, таких как спорт и дорожные символы. Однако наборы данных, приведенные в статье, не были доступны для скачивания в открытом виде. Тот же автор создал новый набор данных, состоящий из 100 знаковых предложений ISL, подписанных двумя носителями языка, и в настоящее время проводится предварительная обработка собранных данных с использованием методик, рассмотренных в [53]. Изначально планировалось перейти к классификации [54], но, основываясь на современных достижениях технологий глубокого обучения в современных системах распознавания знаков, классификация будет проводиться с помощью тонко настроенных конволюционных нейронных сетей и долговременной памяти. После предварительной обработки и классификации данные будут выложены в открытый доступ, чтобы ими могли воспользоваться другие исследователи.
Применение методов глубокого обучения, которые в настоящее время демонстрируют свою эффективность в общем визуальном распознавании, остается проблематичным для СЛ из-за ограниченности наборов данных с метками. По сравнению с разговорными языками их мало, а для некоторых национальных жестовых языков они практически отсутствуют. Одним из направлений нашей работы является создание датасета СЛ для русского языка, для которого уже собрано 927 файлов видеоизображений со статичными одноручными знаками (рис. 3). Каждый жест демонстрируют 2-3 разных человека с 5 повторами. После конвертации видеофайлов в JSON с помощью библиотеки Open Pose и анализа 21 точки скелетной модели правой руки, мы получили доверительную вероятность выбора точки, равную 0,61. Итак, на рис. 4 представлен исходный жест, его разметка в Open Pose и оценки вероятности выбора каждой из 21 точки скелетной модели суставов пальцев. Такая точность пока недостаточна для распознавания статических жестов одной руки, поэтому мы рассматриваем другие подходы, описанные в данной статье.

Рисунок 3 – Выдержка из набора данных с одноручными знаками, который мы разрабатываем для русского СЛ

Рисунок 4 – Процедура определения открытой позы для оценки вероятности (уверенности) выбора 21 точки скелетной модели суставов пальцев
При разработке набора данных для русского языка было выявлено сходство жестов русского жестового языка и индийского жестового языка. Некоторые из них представлены в табл. 1.
5. Биоподобный нейросетевой подход
Распознавание отдельных знаков и СЛ в целом представляет собой сложную задачу из-за необходимости точного отслеживания различных компонентов знаков, которые делаются быстро и осложняются наложением рук, лица и т. д. Для решения этой проблемы особенно перспективным представляется подход, основанный на биоподобных нейронных сетях [55].
Зрительная кора головного мозга человека отвечает за обработку визуальной информации [56] и включает в себя 5 зон, функционирование которых можно описать следующим образом:
- V1 - идентификация линий, механизм которой функционально схож с фильтром Габора [57];
- V2 - это строительство краев;
- V3 - обнаружение движений;
- V4 - идентификация геометрических форм;
- V5 - определение направления и скорости движения объектов.
Следует отметить, что приведенные выше цифры не отражают реальный порядок обработки сигнала, поскольку зоны имеют как прямые, так и обратные взаимосвязи.
Дорсальный и версальный пути распространения сигналов в коре головного мозга имеют свои особенности. Первый проходит через зоны V1, V2 и V5 и отвечает за пространственные суждения и оценки. Второй проходит через зоны V1, V2 и V4 и считается связанным с распознаванием формы, пониманием объекта и долговременной памятью [58].
В настоящее время мы проводим тестирование сети, предложенной А.В. Кугаевских, на видеофайлах датасета RSL. Архитектура сети (модель нейронов) организована аналогично зрительной коре головного мозга человека.
ISL | RSL | |||
---|---|---|---|---|
Название жеста | Начало жеста | Конец жеста | Начало жеста | Конец жеста |
Book (Книга) | ![]() |
![]() |
![]() |
![]() |
Man (Мужчина) | ![]() |
![]() |
![]() |
![]() |
Internet (Интернет) | ![]() |
![]() |
![]() |
![]() |
Clean (Школа) | ![]() |
![]() |
![]() |
![]() |
Child (Низкий) | ![]() |
![]() |
![]() |
![]() |
Заключение
В нашей статье мы рассматриваем доступные методы распознавания как отдельных знаков, так и жестовых языков в целом. Исследование было проведено для индийского и русского жестовых языков. Мы также рассмотрели структуру системы распознавания индивидуальных знаков, которая включает пять компонентов: форму руки, ориентацию, локализацию, движение и неручные маркеры. Мы также рассмотрели доступные наборы данных для этих двух языков, в частности статические знаки RSL. Наконец, мы кратко описываем новый подход к быстрому и точному распознаванию различных компонентов знака на основе биоподобной нейронной сети.
Финансирование: Исследование выполнено при финансовой поддержке РФФИ и DST в соответствии с научно-исследовательским проектом № 19-57- 45006.
Список литературы
- Индийский центр исследований и обучения языку жестов (ISLRTC). История. - URL: http://www.islrtc.nic.in/history-0 (дата обращения: 13.10.2020).
- Многоязычный мультимедийный словарь индийского жестового языка / Т. Дасгупта, С. Шукла, S. Kumar, S. Diwakar, A. Basu // The 6th Workshop on Asian Language Resources (ALR 6): Proceedings of the Workshop. - Hyderabad, India, 2008. - P. 57-64.
- Выпуск словаря ISL / Indian Sign Language Research and Training Centre. - URL: http://www.islrtc.nic.in/isl-dictionary-launch (accessed: 13.10.2020). - Пер. загл.: Запуск словаря ИСЛ.
- Тавари Н.В., Деоранкар А.В., Чатур П.Н. Распознавание жестов рук на индийском жестовом языке для помощи физически ослабленным людям // Международный журнал инженерных исследований и приложений. - 2014. - Spec. iss. ICIAC, vol. 5. - P. 60-66.
- Васишта М., Вудворд Дж., Сантис С. де. Введение в индийский язык жестов: (Фокус на Дели). - Нью-Дели, Индия: All India Fedeartion of the Deaf, 1980. - 176 p.
- Словарь индийского языка жестов. - URL: http://indiansignlanguage.org/dictionary/ (accessed: 13.10.2020). - Пер. загл: Словарь индийского языка жестов.
- Королькова О.О. Определение объема "Полного словаря русского языка жестов" // Современные исследования социальных проблем. - 2014. - № 3 (19). - С. 69-74.
- Видео словарь русского языка жестов // Институт социальной реабилитации НГТУ: сайт. - Новосибирск, 2011. - URL: http://www.nisor.ru/snews/oa-/ (дата обращения: 13.10.2020).
- Гейльман И.Ф. Специфические средства общения глухих: дактилология и мимика: в 4 ч. - Л.: ВОГ, 1975-1979. - 4 ч.
- Словарь русского жестового языка / В.З. Базоев и др. - М.: Флинта, 2009. - 525 с.
- Фрадкина Р.Н. Говорящие руки: тематический словарь жестового языка глухих России. - М.: МосгорВОГ, 2001. - 598 с.
- Королькова О.О. Особенности омонимии и полисемии в русском жестовом языке (на материале видеословаря русского жестового языка) // В мире научных открытий. - 2013. - № 5-1 (41). - С. 169-184.
- Королькова О.О. Особенности жестов русского жестового языка, названиями которых являются омонимы русского языка // В мире научных открытий. - 2015. - № 7-8 (67). - С. 2931-2942.
- Tripathi K, Baranwal N, Nandi GC. Непрерывное динамическое распознавание жестов на индийском жестовом языке с инвариантным фоном // 2015 International Conference on Advances in Computing, Communications and Informatics (ICACCI). - Kochi, India, 2015. - P. 2211-2216.
- Rekha J., Bhattacharya J., Majumder S. Shape, texture and local movement hand gesture features for Indian sign language recognition // 3rd International Conference on Trendz in Information Sciences & Computing (TISC 2011). - Chennai, India, 2011. - P. 30-35.
- Лилха Х., Шивмурти Д. Оценка характеристик для автоматической транскрипции алфавитов языка жестов двух рук // 2011 Международная конференция по обработке информации об изображениях. - Shimla, India, 2011. - P. 1-5.
- Adithya V., Vinod P.R., Gopalakrishnan U. Artificial neural network based method for Indian sign language recognition // 2013 IEEE Conference on Information & Communication Technologies. - Thuckalay, Tamil Nadu, India, 2013. - P. 1080-1085.
- Диксит К., Джалал А.С. Автоматическая система распознавания индийского жестового языка // 2013 3rd IEEE In- ternational Advance Computing Conference (IACC). - Ghaziabad, India, 2013. - P. 883-887.
- Sahoo A.K., Ravulakollu K.K. Распознавание символов индийского жестового языка на основе зрения // Journal of Theoretical & Applied Information Technology. - 2014. - Vol. 67, iss. 3.
- Классификация жестов на индийском жестовом языке как жесты одной или двух рук / А. Сингх, S. Arora, P. Shukla, A. Mittal // 2015 Third International Conference on Image Information Processing (ICIIP). - Waknaghat, India, 2015. - P. 378-381.
- Ганград Дж., Бхарти Дж., Мулье А. Распознавание индийского жестового языка с помощью ORB с мешком визуальных слов по датчику Kinect // Научный журнал IETE. - 2020. - 15 March. - P. 1-5. - DOI: 10.1080/03772063.2020.1739569.
- Бхуян М.К., Гхош Д., Бора П.К. Сегментация непрерывного жеста руки и обнаружение ко-артикуляции // Компьютерное зрение, графика и обработка изображений: 5th Indian conference, ICVGIP 2006, Madurai, India, December 13-16, 2006: proceedings. - Berlin; New York: Springer, 2006. - P. 564-575.
- Li H., Greenspan M. Сегментация и распознавание непрерывных жестов // 2007 IEEE In- ternational Conference on Image Processing. - 2007. - Vol. 1. - P. I-365-I-368.
- Бхуян М.К., Бора П.К., Гхош Д. Траекторное распознавание жестов рук с использованием только глобальных движений // Всемирная академия наук, инженерии и технологий. - 2008. - Том 2, N 9. - С. 2012-2023.
- Кишор П.В., Кумар П.Р. Сегментирование, отслеживание, извлечение, распознавание и преобразование видео на языке жестов в голос/текст // Международный журнал передовых компьютерных наук и приложений. - 2012. - Vol. 3, N 6. - P. 35-47.
- Nanivadekar P.A., Kulkarni V. Распознавание индийского языка жестов: создание базы данных, отслеживание рук и сегментация // 2014 International Conference on Circuits, Systems, Communication and Information Technology Applications (CSCITA). - Mumbai, India, 2014. - P. 358-363.
- 4-камерная модель для распознавания языка жестов с использованием эллиптических дескрипторов Фурье и ANN / P.V. Kishore, M.V. Prasad, C.R. Prasad, R. Rahul // 2015 International Conference on Signal Processing and Communication Engineering Systems. - Guntur, India, 2015. - P. 34-38.
- Athira P.K., Sruthi C.J., Lijiya A. Распознавание независимого от сурдопереводчика языка жестов с устранением ко-артикуляции из видеозаписей в реальном времени: индийский сценарий // Журнал Университета короля Сауда - Компьютерные и информационные науки. - 2019. - DOI: 10.1016/j.jksuci.2019.05.002.
- Система распознавания индийских жестовых языков с использованием нового краевого оператора на основе слияния / М.В. Прасад, П.В. Кишор, Е.К. Кумар, Д.А. Кумар // Journal of Theoretical & Applied Information Technology. - 2016. - Vol. 88 (3). - P. 574-584.
- Bhuyan M.K., Ghosh D., Bora P.K. A frame work of hand gesture recognition with applications to sign language // 2006 Annual IEEE India Conference. - New Delhi, India, 2006. - P. 1-6.
- Agrawal S.C., Jalal A.S., Bhatnagar C. Recognition of Indian Sign Language using feature fusion // 2012 4th International Conference on Intelligent Human Computer Interaction (IHCI). - Kharagpur, India, 2012. - P. 1-5.
- Джоши Г., Виг Р., Сингх С. Анализ признаков на основе момента Зернике для распознавания языка жестов // Интеллектуальные коммуникации, управление и устройства. - Singapore: Springer, 2018 г. - P. 1335-1343.
- S3DRGF: пространственные 3-D реляционные геометрические признаки для 3-D представления и распознавания языка жестов / D.A. Kumar, A.S. Sastry, P.V. Kishore, E.K. Kumar, M.T. Kumar // IEEE Signal Processing Letters. - 2019. - Vol. 26 (1). - P. 169-173.
- Каур Б., Джоши Г., Виг Р. Идентификация алфавитов ISL с помощью дискретных ортогональных моментов // Беспроводные персональные коммуникации. - 2017. - Vol. 95 (4). - P. 4823-4845.
- Raheja J.L., Mishra A., Chaudhary A. Indian Sign Language recognition using SVM 1 // Pattern Recognition and Image Analysis. - 2016. - Vol. 26 (2). - P. 434-441.
- Мультимодальная структура для сенсорного распознавания языка жестов / П. Кумар, Х. Гауба, P.P. Roy, D.P. Dogra // Нейрокомпьютинг. - 2017. - Vol. 259. - P. 21-38.
- Joshi G., Vig R., Singh S. DCA-based unimodal feature-level fusion of orthogonal moments for Indian sign language dataset // IET Computer Vision. - 2018. - Vol. 12 (5). - P. 570-577.
- Распознавание индийского языка жестов на основе глубины с помощью Microsoft Kinect / Т. Рагхувира, R. Deepthi, R. Mangalashri, R. Akshaya // Sadhana. - 2020. - Vol. 45, N 1. - P. 34.
- Гриф М.Г., Приходько А.Л. Подход к созданию системы распознавания жестов на языке жестов на основе анализа HamNoSys // Актуальные проблемы электронного приборостроения (АПЭП-2018): материалы. - Новосибирск, 2018. - Том 1, т. 4. - С. 426-429. - DOI: 1109/APEIE.2018.8545086.
- Гриф М.Г., Лукоянычев А.В. Локализация жестов в тестовом режиме в интегральной системе обучения жестовому языку // Журнал "Физика": Серия конференций. - 2019. - Vol. 1333. - P. 032023.
- Бёрстелл К. Дифференциальная объектная маркировка в жестовых языках // Glossa: журнал общей лингвистики. - 2019. - Vol. 4 (1).
- Polinsky M. Языки жестов в контексте языка наследия: новое направление в исследованиях языка // Исследования языка жестов. - 2018. - Vol. 18 (3). - P. 412-428.
- Рюмин Д., Карпов А.А. К автоматическому распознаванию жестов жестового языка с помощью kinect 2.0 // Международная конференция по универсальному доступу в человеко-компьютерном взаимодействии. - Cham: Springer, 2017. - P. 89-101.
- Распознавание жестов на языке жестов с помощью конволюционной нейронной сети / И. Грубер, D. Ryumin, M. Hruz, A. Karpov // Interactive Collaborative Robotics. - Cham: Springer, 2018 г. - P. 70-77.
- Розалиев В.Л. Автоматизация распознавания кистей рук человека с помощью Kinect для перевода жестового языка // Известия Волгоградского государственного технического университета. - 2015. - № 6 (163). - C. 74-78.
- Распознавания дактильных жестов русского языка глухих / Н.С. Дорофеев, В.Л. Розалиев, Ю.А. Орлова, А.Н. Солошенко // Известия Волгоградского государственного технического университета. - 2013. - № 14 (117). - C. 42-45.
- Константинов В.М., Орлова Ю.А., Розалиев В.Л. Разработка 3D-модели тела человека с использованием MS Kinect // Известия Волгоградского государственного технического университета. - 2015. - № 6 (163). - C. 65-69.
- Климов А.С., Розалиев В.Л., Орлова Ю.А. Автоматизация построения объемной модели головы человека // Известия Волгоградского государственного технического университета. - 2014. - № 25 (152). - C. 67-71.
- Фан Н.Х., Спицын В.Г. Распознавание формы рук на видеопоследовательности в режиме реального времени на основе Surf-дескрипторов и нейронной сети // Электромагнитные волны и электронные системы. - 2012. - Т. 17, № 7. - С. 31-39.
- База данных жестов индийского языка жестов IIITA-ROBITA. - URL: https://robita.iiita.ac.in/ dataset.php (дата обращения: 14.10.2020).
- Ansari Z.A., Harit G. Классификация жестов индийского языка жестов по ближайшим соседям с использованием камеры Kinect // Садхана. - 2016. - Vol. 41 (2). - P. 161-182.
- Сингха Дж., Дас К. Распознавание индийского языка жестов в живом видео // arXiv preprint. - arXiv:1306.1301, 2013.
- Elakkiya R., Vanitha V. Interactive real time fuzzy class level gesture similarity measure based sign language recognition using artificial neural networks // Journal of Intelligent & Fuzzy Systems. - 2019. - Vol. 37, N 5. - P. 6855-6864.
- Elakkiya R., Selvamani K. Усовершенствованный подход динамического программирования для моделирования субъединиц с целью устранения неоднозначностей сегментации и распознавания в языке жестов // Журнал параллельных и распределенных вычислений. - 2018. - Vol. 117. - P. 246-255.
- Кугаевских А.В., Согрешилин А.А. Анализ эффективности обнаружения границ сегментов с помощью нейронных сетей // Оптоэлектронные приборы и обработка данных. - 2019. - Vol. 55, N 4. - P. 414-422. - DOI: 10.3103/S8756699019040137.
- Зрительная кора // WikipediA. - URL: https://en.wikipedia.org/wiki/Visual_cortex (дата обращения: 14.10.2020).
- Джонс Дж.П., Палмер Л.А. Оценка модели двумерного фильтра Габора простых рецептивных полей в стриарной коре кошки // Journal of Neurophysiology. - 1987. - Vol. 58 (6). - P. 1233- 1258.
- Гипотеза двух потоков // WikipediA. - URL: https://en.wikipedia.org/wiki/Twostreams_hypothesis (дата обращения: 14.10.2020).