Формализация лексикона системы компьютерного синтеза языка жестов

Авторы: А.А. Карпов, И.А. Кагиров
Источник: Статья из журнала Труды СПИИРАН №1(16), 2011 г., стр. 123–140

Аннотация. В статье дан аналитический обзор особенностей русского жестового языка и калькирующей жестовой речи, в том числе жестовых лексиконов и грамматических конструкций данного языка, а также возможных методов формализованного представления элементов словаря жестов. В ходе междисциплинарных исследований была адаптирована для задачи синтеза русского жестового языка виртуальная трехмерная модель аватара человека и предложена модель универсального многомодального аудиовизуального синтезатора русской звучащей речи и калькирующей жестовой речи по тексту.

Ключевые слова: жестовый язык глухих, аудиовизуальный синтез, ассистивные информационные технологии.

Введение

Жестовый язык (ЖЯ) является способом межчеловеческой коммуникации, в котором для передачи информации используются только визуально-кинетические средства (жесты рук, артикуляция губ, мимика и эмоции, проявляющиеся на лице). В настоящее время жестовые языки используются в основном как специфическое средство коммуникации людей с нарушениями речи и слуха. ЖЯ не является универсальным во всех странах мира, так как он возникает и развивается естественным путем в разных локальных сообществах и изменяется со временем с появлением новой лексики. ЖЯ состоит из разных знаковых систем, совмещая в себе язык глухих людей и жесты, используемые в обществе в целом. Русский жестовый язык (РЖЯ) объединяет в себе несколько разновидностей жестовой коммуникации. Выделяют так называемую ручную азбуку (дактильную азбуку), использующуюся для жестовой передачи букв русского алфавита, и собственно жестовую речь, ориентированную на передачу не графем (букв), а слов, языковых конструкций и семантических концептов. Дактильная азбука (воспроизводящая буквы посредством пальцев) используется, как важный вспомогательный инструмент. В том случае, если говорящий не знает знака для какого-либо понятия или ему необходимо передать точное звучание некоторого слова, он прибегает к дактильной азбуке, она используется также для передачи различных имен собственных, аббревиатур и редко встречающихся слов, слов иностранного происхождения. На рис. 1 слева показана дактильная азбука РЖЯ, а справа - дактильная азбука британского варианта ЖЯ. Американский вариант ЖЯ отличается от британского полностью, в отличие от английской разговорной и письменной речи; такая же ситуация и в испаноязычных латиноамериканских странах, каждая из который имеет свой ЖЯ.

все буквы русской азбуки показываются одной рукой, а британской — двумя руками;
ряд букв русской азбуки отображается посредством динамических жестов, в то время как жесты британской азбуки — статические;
конфигурации кисти и пальцев рук в русском дактиле более сложны.

Рисунок 1 – Русский дактильный алфавит (слева) и британский алфавит (справа) [2].

Большинство стран имеет свою оригинальную дактильную азбуку, зависящую от социокультурных особенностей их народов, причем по численности одноручные азбуки (в Германии, Франции, Америке, Китае, Индии и т. д.) преобладают над двуручными (в Великобритании, Турции, Чехии, Новой Зеландии и т. д.) [7].

Основным же способом межчеловеческой коммуникации в среде глухих является непосредственно ЖЯ, в котором каждому смысловому понятию (или группе синонимичных понятий) соответствует определенный уникальный жестовый эквивалент. Причем система ЖЯ распадается на две подсистемы жестовой речи: 1) национальную и 2) калькирующую [3]. Калькирующая жестовая речь полностью копирует речь звучащую, в которой один-в-один воспроизводятся слова разговорной речи и их порядок в предложениях.

Различия в ЖЯ вызывают неоднозначности при экспертном переводе с языка на язык, а также при разработке автоматических компьютерных систем синтеза и сурдоперевода. Анализ показывает, что менее 30 % наиболее распространенных жестов одинаковы для разных языков, это большинство простых жестов, показывающих объекты в поле зрения («Ты», «Голова», «Нос»), абстрактные же понятия зависят от культур и обычаев обществ. Вышесказанное о функциях ЖЯ можно подытожить табл. 1.

Таблица 1 - Жестовые системы, их функции и основные характеристики
Жестовая система	Сфера применения	Характеристика
Дактильная азбука	Применяется во всех жестовых системах как средство передачи редких и незнакомых слов; тесно связана с вербальным языком и письменностью	Аналог национального письменного алфавита
Калькирующая жестовая речь	Точная передача естественного вербального языка и речи при помощи жестов	Вторичная по отношению к вербальному языку система
ЖЯ	Основное средство общения между глухонемыми	Отдельный язык со своей грамматикой и лексикой

Основное, что объединяет все жестовые системы, — это способ передачи и восприятия информации. В качестве базовой смысловой единицы здесь служит жест (визуально-кинетический акт), в котором участвуют в первую очередь руки, а также часто мимика лица и артикуляция губ. Кинетическая природа жеста и его визуальное восприятие обусловливают особенности ЖЯ: возможность определенным образом расположить жест в пространстве (ближе к телу, дальше, правее, левее и т. д.), исполнить одновременно два жеста двумя руками и т. д.

Грамматические особенности РЖЯ

Калькирующая жестовая речь не имеет собственной грамматики, она копирует структуру вербального разговорного языка, поэтому является вторичной знаковой системой. В отличие от нее, РЖЯ обладает собственной грамматикой и выразительными средствами, причем по своей структуре грамматика ЖЯ значительно отличается от грамматики литературного или разго- ворного языка. Подобно тому, как ЖЯ развиваются и существуют отдельно от вербальных, так и их грамматики слабо связаны друг с другом. Например, в [3] приведен пример фразы: «В левом углу находятся стул и торшер, стул находится под торшером» на РЖЯ, где понятия «Торшер» и «Стул» демонстрируются одновременно во времени и пространственно одно под другим на разных уровнях с левой стороны от диктора.

РЖЯ обладает также средствами для передачи разнообразных морфологических значений и четко оформленным синтаксисом, отличающимся от синтаксиса вербального русского языка. В качестве примера морфологии ЖЯ можно привести глагольные показатели. Глагол в ЖЯ, так же как и в вербальном языке, обладает грамматическими категориями времени, аспекта и модальности [12]. Для выражения временных значений используются вспомогательные слова «Было», «Будет», т. е., к примеру «Читать было» — читал, «Читать» — читает, «Читать будет» — прочитаю. Также довольно широко используются такие темпоральные модификаторы глаголов, как «Сегодня», «Вчера», «Скоро», «Недавно», «Давно». В целом темпоральную систему РЖЯ можно сравнить с так называемыми предметно-ориентированными языками [12], в которых временные категории передаются при помощи лексических средств, т. е. они не являются частью грамматики языка, а относятся только к словарю.

Аспектуальные категории распадаются на два семантических класса (аспекта): 1) количественный и 2) фазовый. Фазовые значения передают различные стадии действия (завершенность, начало и т. п.), а количественные — повторяемость, характер длительности действия. Для фазовых значений используются слова-модификаторы «Готово», «Закончено», «Еще не» (например, «Писать готово» — написал, «Писать еще не» — еще не написал и т. п.), а количественные значения выражаются простым повторением жеста нужное число раз. Модальные значения также передаются лексически, при помощи таких вспомогательных слов, как «Бы», «Если» и т. п.

Синтаксис является наиболее специфической чертой РЖЯ. Упрощенно можно считать, что фразы РЖЯ коротки и просты по структуре, а синтаксис описывается всего тремя типами структур:

SOV (субъект—объект—глагол);
SVO;
VSO.

Однако некоторые исследователи отмечают [3], что классический анализ высказываний РЖЯ в терминах субъекта, предиката, объектов, адъюнктов и т. п. невозможен в силу нелинейности синтаксиса РЖЯ. Так в высказывании «Стул находится под торшером» точно сказать, где находится субъект, а где объект, просто невозможно. В качестве альтернативы выдвигается анализ на основе функционального подхода и учета специфики субстанции жеста, равно как и естественной конситуативности ЖЯ.

На настоящее время грамматика РЖЯ еще недостаточно изучена и формализована, чтобы вести разговоры об автоматическом сурдопереводе из произвольного русскоязычного текста на ЖЯ. Ряд исследователей РЖЯ утверждают [1], что серьезные различия в семантикосинтаксической структуре письменного и жестового языков не позволяют выполнять однозначный машинный перевод русскоязычных текстов на РЖЯ, и действующих автоматических систем сурдоперевода на данный момент не существует. Для создания такой полноценной модели необходимо производить глубокий семантический анализ и разбор письменных фраз, а это пока возможно лишь на поверхностном уровне из-за несовершенства алгоритмов и баз знаний. Однако калькирующая жестовая речь непрямую отражает разговорную звучащую речь, поэтому компьютерный синтез калькирующей жестовой речи намного проще. Примером компьютерной системы распознавания перевода разговорной речи (английской) в калькирующую жестовую речь с элементами ЖЯ (Амслен) может служить американская разработка iCommunicator [8], лексикон которой состоит более чем из 9 тыс. видеофрагментов жестов.

Лексикон русского РЖЯ

РЖЯ распространен не только в России, но и на территории бывшего Советского Союза, в Белоруссии, Казахстане, Украине, причем в разных регионах страны существуют несколько различающихся диалектов РЖЯ, но использующих практи- чески единую дактильную азбуку. Причем зачастую члены одного общества не приемлют жесты, принятые в другом сообществе, хотя многие из них являются интуитивно понятными. По результатам ана- лиза мультимедийных жестовых словарей можно сказать, что круп- нейшие диалекты РЖЯ — петербургский и московский — различают- ся примерно в 30–40 % жестов-слов, хотя иногда расхождения незна- чительны.

Среди существующих мультимедийных компьютерных словарей РЖЯ отметим следующие:

мультимедийный видеословарь «Толковый словарь русского жестового языка — RuSLED». Программа является интерактивной оболочкой к видеословарю РЖЯ, записанному в 2002 г. в Межрегио- нальном центре реабилитации лиц с проблемами слуха г. Павловск;
видеословарь «Тематический словарь русского жестового языка», созданный Московской городской организацией Всероссий- ского общества глухих (ВОГ);
мультимедийная электронная обучающая система «Русский же- стовый язык. Базовый курс», созданная в 2001 г. центром «Истина» при поддержке центрального правления ВОГ;
интерактивный видеословарь «DigitGestus», созданный в Ново- сибирске в 1996–1997 гг., содержит несколько сотен элементов;
интерактивный видеословарь жестового языка европейского проекта Spreadthesign («Распространим жест»), поддерживается Евро- пейской комиссией в лице Шведского международного отделения об- разования и обучения;
интерактивный видеословарь проекта «Сурдосервер 2.0» [7], содержащий те же самые видеоматериалы, что и электронная обучаю- щая система (ЭОС) «Русский жестовый язык. Базовый курс» 2001 г., а также оригинальный жестовый словарь по направлению «Информаци- онные технологии».

Лексические жестовые элементы и в самом РЖЯ, и в дактильной азбуке формируются практически одинаково и могут быть формализо- вано описаны сходным образом:

по конфигурации (форма руки или рук),
по месту исполнения (где находятся руки, выполняющие жест),
по характеру движения (как именно движутся руки; что они делают).

Такое описание впервые предложено американским исследовате- лем жестовой речи У. Стоуки в 1960-х гг. [17]. В своем описании аме- риканского ЖЯ (Амслен) он применял фонологический принцип для транскрибирования жестов. Под фонологическим принципом понима- ется разложение любого жеста на минимальные регулярно повторяющиеся жестовые примитивы (хиремы). Иными словами, хиремы — это минимальные единицы, из которых строится жест. Однако специфика структуры жеста заключается в своеобразии связей между его компо- нентами: все они воплощаются в жесте одновременно. Этим жест принципиально отличается от слова, в котором звуковые элементы — фонемы реализуются последовательно во времени. Прямому отож- дествлению хиремы с фонемой мешает множество различных факто- ров, среди которых на первом месте стоит кардинальное различие аку- стического и кинетического планов человеческой коммуникации, од- нако и хиремы описываются по тем же принципам, что и фонемы. Так, традиционно фонемы характеризуются по месту образования и спосо- бу образования (традиция, заложенная Н.С. Трубецким [11]), т. е. по тому, в какой области речевого тракта находится язык и тому, как именно артикулируется фонема. Хиремы, по концепции Стоуки, опре- деляются по тому, где они жестикулируются (например, у лба, у щеки, на уровне груди и т. п.), и как именно они жестикулируются (напри- мер, рука движется вперед, совершает волнообразные движения и т. п.). Кроме того, для хирем необходим третий признак — форма руки или рук. Эти три признака (место образования, способ образования и форма руки) используются во всех современных системах нотации ЖЯ, которые предназначены для формализации элементов жестового лексикона.

Способы формализации лексикона ЖЯ

Специфика челове- ко-машинного взаимодействия состоит в том, что ЖЯ и жестовый сло- варь должны быть определенным образом записаны, чтобы компьютер мог обрабатывать и синтезировать жесты. Для описания жеста по его признакам существуют несколько различных систем нотации (жесто- вой транскрипции), позволяющих зафиксировать представление жеста в записи. Первая система нотации, разработанная У. Стоуки, базирова- лась на латинской системе письма. Для кодирования хирем использо- вались буквы латинского алфавита, вспомогательными элементами были арабские цифры и различные диакритики. Однако предложенная запись плохо подходит для образовательных целей, так как совершен- но не наглядна, поэтому разрабатываются другие системы нотации ЖЯ, использующие символы, более наглядно демонстрирующие по- ложения рук и их перемещения.

Насколько известно, в России на сегодня не существует закончен- ных систем транскрибирования и формализации РЖЯ. Многие иссле- дователи обращаются к уже зарекомендовавшим себя универсальным зарубежным системам нотации, применяя их опыт на русском материале. Среди таких систем нотации популярностью пользуется програм- ма транскрипции ELAN [13], с помощью которой экспертами анноти- руются и транскрибируются корпуса аудиовизуальных и жестовых данных, в том числе артикуляция и эмоциональные характеристики.

Для практического, в том числе компьютерного применения в ми- ре разработаны несколько систем нотации, обладающих наглядностью и в то же время унифицированностью для быстрого ввода жестов в словарь. Одна из самых известных систем нотации, широко распро- страненная в Америке (в частности, для Амслена), называется SignWriting [10] и разработана В. Саттон. Знаки в SignWriting симво- лизируют мимику, движения рук и тела ЖЯ и пишутся сверху вниз. На рис. 2 показан пример записи известного английского четверостишия Матушки Гусыни «Jack and Jill went up the hill to fetch a pail of water. Jack fell down and broke his crown and Jill came tumbling after» в данной нотации [10].

Рисунок 2 – Пример записи четверостишия в нотации SignWriting [10].

SignWriting базируется на принципах, предложенных У. Стоуки, однако имеет конкретное иконическое воплощение жестов при записи. Этот ЖЯ отличается большей проработанностью и однозначностью записи. Однако у него весьма велик набор знаков (свыше тысячи), что делает его малопригодным для применения в компьютерных техно- логиях даже с использованием возможностей Unicode-кодировки. Например, в нем каждой специфической форме руки соответствует отдельный знак (рис. 3). Поэтому запомнить и использовать на прак- тике их трудно.

Рисунок 3 – Пример кодировки конфигурации руки в SignWriting [10].

Но намного практичнее сократить число частных случаев конфи- гурации руки, описывая их как переменные (например, число показы- ваемых пальцев) при одной константе (форме ладони). Такому требо- ванию, например, удовлетворяет система нотации жестов, предложен- ная Л. Димскис [2]. В ее нотации выделяется более 30 конфигураций рук, около 50 характеристик места исполнения жеста и более 70 харак- теристик локализации. В нотации Димскис структура жеста состоит из отдельных элементов и имеет следующие постоянные характеристики:

форму руки (рук);
место расположения жеста (жестовое пространство);
характер движения.

Первый элемент — форма руки предполагает строго опре- деленное положение ладоней и направление пальцев, он состоит из трех частей — формы руки, положения ладони, направления пальцев, необходимых для правильного кодирования (записи) и декодирования (воспроизведения) отдельных хирем.

Второй элемент структуры — место расположения жеста в про- странстве. Жест может исполняться над головой, у лица, на уровне плеч, шеи и т. д. Локализация каждого жеста строго постоянна и изме- нение жестового пространства влияет на смысловое значение жеста в РЖЯ.

По характеру исполнения жесты подразделяются на одноручные; двуручные с одинаковой формой рук; двуручные с разной формой рук. На рис. 4 приведен пример кодирования двух числительных посред- ством данной нотации [2]. Для числительного «Четыре» выполняется следующее:

первый знак (буква П) указывает на то, что жест выполняется правой рукой;
второй знак иконографически указывает форму руки — четыре оттопыренных пальца;
третий символ схематически изображает разворот ладони — она направлена к себе, к корпусу говорящего;
четвертый знак указывает на ориентацию ладони — пальцами вверх;
последний символ означает, что жест исполняется на уровне груди человека.

Для числительного «Двадцать» различие состоит лишь в несколь- ких элементах:

неподжатыми остаются только два пальца, а не четыре;
кисть указывает налево;
в конце записи добавлен элемент, описывающий кинетику же- ста: в конце исполнения жеста кисть руки опускается вниз, делая «стряхивающее» движение.

Рисунок 4 – Пример записи двух жестов-чисел в нотации Димскис: «Четыре» (слева) и «Двадцать» (справа) [2].

Наиболее широкое распространение в мире за последние годы по- лучила гамбургская система нотации (основатель и основной разра- ботчик — Т. Ханке), более известная под сокращенным названием HamNoSys (от англ. Hamburg Notation System) [16], разработанная в конце XX века в Германии. На начало 2011 г. актуальна система Ham- NoSys версии 4.0 [9]. Она отличается наибольшей проработанностью и пригодна для использования в компьютерных приложениях за счет того, что ее знаки переведены в систему кодировки Unicode с соответ- ствующими компьютерными шрифтами. Инвентарь HamNoSys позво- ляет записать практически любой жест, что делает эту систему уни- версальной и пригодной для любых ЖЯ мира. Фактически, по своим функциям HamNoSys является аналогом международного фонетиче- ского алфавита (МФА) и используется многими лингвистами, занима- ющимися исследованием ЖЯ. В системе HamNoSys сначала задается форма кисти; затем ее ориентация по двум параметрам (направление пальцев и разворот кисти); место, где располагается рука во время же- ста и характер самого движения. Жесты могут быть одноручными и двуручными, поэтому во втором случае в запись добавляются операто- ры для двуручных жестов, позволяющие совместить действия обеих рук в рамках одного выражения. Форма кисти, т. е. конфигурация пальцев и ладони, задается несколькими простыми знаками, представ- ленными на рис. 5, символически изображающими ладонь и пальцы.

Рисунок 5 – Символы HamNoSys, предназначенные для формальной записи конфигураций пальцев и ладони руки [16].

Рисунок 6 – Примеры записи конфигурации кисти руки в HamNoSys [9].

Рисунок 7 – Примеры записи конфигурации пальцев руки в HamNoSys [9].

На рис. 6 показаны несколько примеров кодирования конфигура- ции кисти и пальцев руки, в том числе большого пальца, который за- дается отдельно. При помощи особых диакритических символов мож- но задать форму ладони, характер складывания пальцев и т. п.

Отметим способы указания отдельных пальцев на руке. В базовых символах нет элементов для, например, отдельно отставленного безы- мянного или указательного пальцев. В этом случае используется чис- ловое обозначение пальцев рук:

большой палец,
указательный палец,
средний палец,
безымянный палец,
мизинец.

Соответственно, для точной кодировки пальцев следует всего лишь задать их число и точное значение цифрами (рис. 7). Такой под- ход позволяет сократить набор знаков, сделать его менее громоздким и удобным в использовании по сравнению с SignWriting. Ориентация кисти руки задается по кончикам пальцев; она определяется в трех плоскостях в зависимости от специфики жеста (рис. 8). Центром коор- динат всегда является сам человек-демонстратор.

Рисунок 8 – Описание ориентации руки в нотации HamNoSys [9].

Рисунок 9 – Примеры записи нелинейных дугообразных движений в HamNoSys [9].

Кроме того, в HamNoSys существуют разнообразные знаки прак- тически для всех возможных движений, которые могут осуществлять руки, для примера на рис. 9 показаны некоторые нелинейные дугооб- разные движения. Их более сотни в версии 4.0, и этот набор постоянно расширяется и совершенствуется разработчиками [9], чтобы соответ- ствовать новой лексике, постоянно появляющейся в ЖЯ.

Таблица 2 — Запись числительного «Один» РЖЯ в нотации HamNoSys
Изображение жеста	Нотационная запись HamNoSys

	Форма кисти — выставлен указательный палец
	Ориентация кисти — пальцы вверх, кисть правой руки обращена к себе
	Место выполнения — на уровне правого плеча
	Тип движения руки — вверх

В качестве примера использования данной нотации рассмотрим числительное «Один» общепринятого варианта РЖЯ, каждая характеристика которого расписана при помощи знаков HamNoSys (табл. 2). Это понятие записывается следующей цепочкой знаков:

Компьютерный синтез жестовой речи

Одним из наиболее эффективных средств обучения и человеко-машинного взаимодей- ствия являются мультимедийные компьютерные программы, поэтому, создание информационных приложений, способных работать с ЖЯ (синтезировать и распознавать), является одной из приоритетных задач при работе с глухими и слабослышащими людьми. Возможным вари- антом компьютерного синтеза ЖЯ является использование анимиро- ванного аватара человека, который управляется посредством символов жестовой нотации, описывая требуемые конфигурации рук и различ- ные типы движений. Жесты из лексикона в такой системе синтеза представляют собой цепочку символов в выбранной нотации, поэтому словарь может легко модифицироваться и расширяться без использо- вания специального оборудования.

Лаборатория речевых и многомодальных интерфейсов СПИИРАН совместно с Западно-Чешским университетом в рамках совместного проекта ведет разработку и исследование системы синтеза РЖЯ (каль- кирующей жестовой речи). За основу в системе взята модель синтеза чешского ЖЯ [15], использующая систему жестовой транскрипции HamNoSys. Нами разрабатывается не просто система синтеза жестов из видеофрагментов, а универсальная многомодальная система [4] для аудиовизуального синтеза русской звучащей и жестовой речи. Архи- тектура системы синтеза представлена на рис. 10.

Основными компонентами многомодальной системы синтеза яв- ляются:

имитационная модель головы/лица человека, в которой настра- иваются управляющие параметры для передачи мимики, выражения лица и движений губ при говорении [18];
компьютерная система акустического синтеза разговорной рус- ской речи, осуществляющая преобразование текст-речь по произволь- ному входному русскоязычному тексту [6];
русскоязычная бимодальная система «говорящая голова» на осно- ве виртуальной 3D-модели головы/лица человека и компьютерного синтеза речи по произвольному тексту, моделирующая естественную асин- хронность звуковой и визуальной модальностей речи при синтезе [5];

Рисунок 10 – Архитектура универсальной многомодальной системы аудиовизуального синтеза русской звучащей и жестовой речи.

виртуальная 3D-модель верхней части туловища и рук челове- ка, в которой настраиваются управляющие параметры движения рук для синтеза элементов РЖЯ глухих на основе управляющих символов международной нотации HamNoSys [15];
многомодальная система синтеза, объединяющая компоненты генерации русской визуальной речи, звучащей речи и калькирующей жестовой речи.

На текущем этапе разработки производится создание и экспертное наполнение словаря ЖЯ системы (дактильной азбуки, цифр и наиболее употребительных жестов РЖЯ) посредством специального редакто- ра [14], анализирующего на входе символы HamNoSys и трансформи- рующего их в соответствующие движения органов виртуального 3D- аватара.

Заключение

В данной статье проанализирована специфика РЖЯ и калькирующей жестовой речи, включая словари жестов, грам- матические особенности данного языка и способы формализованного представления лексикона.

В ходе исследований для РЖЯ и разговорной речи адаптирована виртуальная трехмерная модель компьютерного синтеза и подготовлена демонстрационная версия универсального многомодального синте- затора аудиовизуальной русской речи и РЖЯ.

Мультимедийную демонстрацию показа текущего времени в фор- мате XX час(-а,-ов) YY минут(-а,-ы) на РЖЯ можно посмотреть на веб-сайте лаборатории речевых и многомодальных интерфейсов СПИИРАН: www.spiiras.nw.ru/speech/demo/signlang.avi

Литература

Воскресенский А.Л., Гуленко И.Е., Хахалин Г.К. Cловарь RuSLED как инструмент семантических исследований // Материалы Междунар. конф. «Диалог-2009», 2009. С. 64–68.
Димскис Л.С. Изучаем жестовый язык. М.: Академия, 2002. 128 c.
Зайцева Г.Л. Жестовая речь. Дактилология: Учебник для студентов. М.: ВЛАДОС, 2000. 192 с.
Карпов А.А., Ронжин А.Л. Многомодальные интерфейсы в автоматизированных системах управления // Известия высших учебных заведений. Приборостроение. 2005. Т. 48, №7. С. 9–14.
Карпов А.А., Цирульник Л.И., Железны М. Разработка компьютерной системы говорящая голова для аудиовизуального синтеза русской речи по тексту // Информационные технологии. 2010. №8, т. 9. С. 13–18.
Лобанов Б.М., Цирульник Л.И., Железны М., Крноул З. и др. Система аудиовизуального синтеза русской речи // Информатика. 2008. № 4. С. 67–78.
Проект «Сурдосервер 2.0» // Электронный ресурс [http://surdoserver.ru].
Проект iCommunicator» // Электронный ресурс [http://www.icommunicator.com].
Система жестовой нотации Hamburg Notation System // Электронный ресурс [http://www.sign-lang.uni-hamburg.de/projects/hamnosys.html].
Система жестовой нотации SignWriting // Электронный ресурс [http://www.signwriting.org/about/].
Трубецкой Н.С. Основы фонологии. М.: Аспект Пресс, 2000. 352 с.
Bybee J.L., Perkins R., Pagliuca W. The Evolution of Grammar: Tense, Aspect, and Modality in the Languages of the World. University of Chicago Press, 1994.
Hellwig B. et al. ELAN — Linguistic Annotator (version 4.0). 2010. 236 p.
Kanis J., Krnoul Z. Interactive HamNoSys Notation Editor for Signed Speech Annotation // Proc. of the 6th Intern. Conf. on Language Resources and Evaluation LREC-2008. Paris: ELRA. 2008. P. 88–93.
Krnoul Z., Kanis J., Zelezny M., Muller L. Czech Text-to-Sign Speech Synthesizer // Proc. of the Intern. Conf. on Machine Learning for Multimodal Interaction MLMI-2007. LNCS 4892. 2008. P. 180–191.
Prillwitz S., Hanke T., et al. HamNoSys. Version 2.0; Hamburg Notation System for Sign Languages. An introductory guide. Hamburg: Signum, 1989. 46 p.
Stokoe W.C. Sign Language Structure: An Outline of the Visual Communication Systems of the American Deaf // Studies in Linguistics: Occasional papers. 1960. №8. 78 p.
Zelezny M., Krnoul Z., Cisar P., Matousek J. Design, implementation and evaluation of the Czech realistic audio-visual speech synthesis // Signal Processing. 2006. Vol. 86, N 12. P. 3657–3673.