Назад в библиотеку

Эргономичный голосовой интерфейс управления антропоморфным роботом

Авторы: М В. Михайлюк, М А. Торгашев, Д В. Омельченко.
Источник: Журнал Модели, системы, сети в экономике, технике, природе и обществе

Антропоморфные роботы (роботы, по своему строению похожие на человека) находят широкое применение в различных областях научной и хозяйственной деятельности. Это объясняется не только психологическими моментами, но и тем, что многие объекты, созданные человеком, приспособлены для манипулирования именно его руками. Однако эргономичное управление такими роботами является серьезной и актуальной проблемой. Стандартные компьютерные интерфейсные устройства (клавиатура, мышь, джойстик и т.д.) не обеспечивают достаточный уровень эргономики. Использование пультов управления тоже затруднительно, так как каждый управляющий элемент пульта обычно воздействует на один шарнир робота. В качестве альтернативы для управления часто используют экзоскелеты, представляющие собой жесткие шарнирные конструкции, надеваемые оператором и соответствующие строению человеческого тела. С помощью экзоскелета можно реализовать так называемый копирующий режим управления, при котором робот будет в точности повторять движения оператора. Тем не менее, использование экзоскелета часто затруднительно в силу либо его большого веса, либо невозможности работы с ним в скафандре. В данной работе предлагается голосовой интерфейс управления роботом. Идея заключается в том, что при произнесении оператором команды производится ее распознавание и в случае успеха запускается на выполнение заранее подготовленный скрипт, в соответствии с которым робот выполняет заданное действие. Апробация предложенных методов и алгоритмов показала возможность их успешного использования в качестве эргономичного интерфейса голосового управления антропоморфными роботами.

Ключевые слова: голосовой интерфейс, антропоморфный робот, имитационно‑тренажерные комплексы, виртуальное моделирование.

Широкое применение в различных областях научной и хозяйственной деятельности находят антропоморфные роботы, по своему строению похожие на человека. Это объясняется и психологическими моментами, и тем, что многие созданные человеком объекты приспособлены для манипулирования именно его руками. Однако эргономичное управление этими роботами является серьезной проблемой. Стандартные интерфейсные устройства (клавиатура, мышь, джойстик и т.д.) не могут обеспечить достаточный уровень эргономики. Затруднительно и использование пультов управления, так как каждый их элемент обычно воздействует на один шарнир робота. Такое пошарнирное управление не только занимает длительное время, но и является неточным и неудобным. В качестве альтернативы для управления часто используют экзоскелеты – жесткие шарнирные конструкции, надеваемые оператором и соответствующие строению человеческого тела [2]. Движение рук оператора вызывает соответствующие сгибы в шарнирах экзоскелета. Если в масштабе реального времени передавать углы поворота во всех шарнирах экзоскелета в систему управления реальным роботом, то робот будет повторять движения оператора. Мы получим так называемый копирующий режим управления. Тем не менее, использование экзоскелета часто затруднительно либо из‑за его большого веса, либо из-за невозможности работы с ним в скафандре. В работах [3‑6]. для управления роботом предлагается использовать устройство Кинект. Таким образом, возникает задача поиска новых видов интерфейса для эргономичного управления роботом.

В данной работе предлагается использовать устройство Кинект для голосового управления роботом в командном режиме. Идея заключается в следующем: когда оператор голосом произносит команду, устройство Кинект [7] записывает ее и передает в систему управления, которая инициирует процесс распознавания этой команды. Если команда распознана, система управления запускает на выполнение заранее подготовленный скрипт, в соответствии с которым робот выполняет заданное действие.

Cистема управления голосовым интерфейсом

Система управления включает функциональную схему и модуль расчета управляющего сигнала. Функциональная схема создается в специальном визуальном редакторе, включающем поле редактора и библиотеку функциональных блоков. Блоки разбиты на группы (логические, арифметические, алгебраические, дифференциальные и т.д.). Пользователь может перемещать блоки из библиотеки на поле редактора и присоединять входы одних блоков к выходам других. Многие блоки имеют индивидуальные параметры настройки, которые задаются через отдельное диалоговое окно. Например, для блока Сумматор через диалог настройки можно задать количество входов. Кроме этого, сами блоки, а также их входы и выходы в редакторе имеют всплывающие подсказки, что позволяет быстро получить краткую информацию о них. Все это в целом дает возможность быстро разрабатывать, анализировать и выявлять ошибки функционирования структурной схемы системы управления.

Для рассматриваемой задачи созданы два новых функциональных блока: VoiR (Voice Recognition), в котором в качестве параметра может быть записана произвольная фраза, и Script, в котором в качестве параметра записано имя скрипта. Работа блока VoiR заключается в том, что он вызывает систему распознавания речи и получает от нее фразу, распознанную системой в текущий момент времени. Далее он сравнивает эту фразу со своей фразой‑параметром и в случае совпадения выдает управляющий сигнал 1. Блок Script, получая на входе 1, запускает скрипт, имя которого записано в его параметре и в соответствии с которым робот выполняет необходимые действия. На рисунке 1 показан пример функциональной схемы, включающей или выключающей лампочку по голосовой команде.

pic1

Рисунок 1 – Пример функциональной схемы включения/выключения света


Cистема распознавания речи

Важнейшая составляющая в идеологии управления робототехническими системами – работа со скриптовыми командами. Скриптовая команда представляет собой совокупность текстовой строки, задающей назначение и тип команды, и связанных с ней данных произвольного формата и размера. Формат команды имеет вид Command = data, data, …, где Command задает назначение и тип команды, а data, data, … – набор связанных с ней данных. Такой язык дает возможность изменить практически любые параметры виртуальной сцены с помощью универсального механизма. Кроме того, эта схема позволяет организовать эффективный обмен данными произвольного типа.

Система включает большое количество поддерживаемых команд:

  • системные команды – регулирование обслуживания общей очереди и поступающих блоков команд: задержка выполнения команд на заданное время, формирование отдельных блоков из команд, ожидающих наступления определенных событий, сброс и генерация событий и т.д.;
  • команды работы с материалами – изменение параметров материала, назначение новых текстурных карт;
  • команды управления узлами сцены – изменение текущей камеры и текущего объекта для управления, управление видимостью объектов, изменение положения, ориентации и масштаба объектов;
  • команды работы с анимационными треками – запуск анимации в определенном диапазоне кадров, остановка анимации, переход к некоторому кадру, создание и удаление именованных анимационных треков с привязкой к определенным узлам сцены, задание флага зацикленного воспроизведения и скорости анимации и другие;
  • команды конфигурирования управления от клавиатуры, мыши и джойстика;
  • команды работы со звуком;
  • команды работы с выводом изображения – конфигурирование общих параметров визуализации, задание эффектов постобработки, настройка портов вывода;
  • команды записи и воспроизведения лог‑файлов.

В задаче голосового управления наиболее востребованными и удобными являются команды последнего типа. С их помощью можно полностью записать движение робота при выполнении операции как в случае управления с экзоскелета, так и в результате решения задачи обратной кинематики. Затем с помощью голосовой команды можно вызвать проигрывание записанной операции. Логфайлы реализованы в подсистеме визуализации виртуальных сцен и предназначены для хранения и записи всех необходимых в симуляторе параметров – в них фиксируются положение и ориентация всех управляемых объектов, а также такие параметры, как флаги активности источников света, параметры виртуальных камер, систем частиц и других виртуальных объектов. В данной работе подготовлены лог‑файлы для изменения роботом состояния интерьера космического модуля путем нажатия на соответствующие кнопки пульта управления. На рисунке 2 проиллюстрировано такое действие: включение света внутри модели модуля СО‑1 осуществляется по голосовой команде оператора Робби, включи свет.

В заключение отметим, что в статье рассмотрен разработанный в НИИСИ РАН программный пакет для реализации эргономичного интерфейса управления антропоморфным роботом с помощью голоса. Пакет включает в себя систему управления голосовым интерфейсом, систему распознавания речи и систему создания и выполнения скриптов. Для тестирования был использован имитационнотренажерный комплекс, включающий виртуальную модель антропоморфного робота SAR‑401, модель интерьера космического модуля СО‑1, а также подсистемы расчета динамики и визуализации трехмерных виртуальных сцен в масштабе реального времени. Апробация предложенных методов и алгоритмов показала возможность их успешного использования в качестве эргономичного интерфейса голосового управления антропоморфными роботами.

pic2

Рисунок 2 – Выполнение моделью робота голосовой команды оператора


Литература

1. Михайлюк М. В. Виртуальные панели управления в космических тренажерах // Наука и технологии в промышленности. 2014. № 3–4. С. 36–39.
2. Бурдин Б. В., Михайлюк М. В., Сохин И. Г., Торгашев М. А. Использование виртуальных 3D-моделей для экспериментальной отработки бортовых полетных операций, выполняемых с помощью антропоморфных роботов // Робототехника и техническая кибернетика. 2013. № 1. С. 42–46.
3. Михайлюк М. В., Мальцев А. В. Реализация эргономичного интерфейса управления виртуальной моделью антропоморфного робота с использованием Kinect // Программная инженерия. 2015. № 10. С. 12–18
4. Oikonomidis I., Kyriazis N., Argyros A. Efficient model based 3D tracking of hand articulations using Kinect. Proc. 22nd British Machine Vision Conf. 2011, pp. 101.1–101.11.
5. Нагапетян В. Э., Толмачев И. Л. Бесконтактное управление роботизированной рукой посредством жестов человека // Вестн. РУДН. Сер. Математика. Информатика. Физика. 2014. № 2. С. 157–163. 6. Kinect for Windows SDK 1.8. [Электронный ресурс]. – Режим доступа: Kinect for Windows SDK (дата обращения: 10.07.2015).
7. CMUSphinx. [Электронный ресурс]. – Режим доступа: CMUSphinx (дата обращения: 10.07.2015).
8. Pocketsphinx. Распознавание речи и голосовое управление в Linux. [Электронный ресурс]. – Режим доступа: Pocketsphinx (дата обращения: 10.07.2015).
9. Холоденко А. Б. О построении статистических языковых моделей для систем распознавания русской речи. [Электронный ресурс]. – Режим доступа: Холоденко А.Б. О построении статистических языковых моделей для систем распознавания русской речи (дата обращения: 09.07.2015).