Назад в библиотеку
Использование динамических портретов звука при распознавании речевого сигнала
Автор: Данченков О.И., Николаенко Д.В.
Источник: Государственный университет информатики и искусственного интеллекта, г. Донецк,  Автомобильно-дорожный институт государственного высшего учебного заведения «Донецкий национальный технический университет», г. Донецк. Научный журнал «Штучний інтелект» 1'2008.
http://www.nbuv.gov.ua/portal/natural/ii/2008_1/JournalAI_2008_1/Razdel3/00_Danchenkov_Nikolaenko.pdf
 
                  
Общая постановка проблемы
 
Дальнейшее распространение использования различных информационных систем приводит к необходимости предоставления пользователю максимальных удобств при работе с компьютером в режиме диалога. Тенденции совершенствования коммуни-кационного интерфейса ведут к упрощению диалога пользователя с ЭВМ. В последние годы разработке удобного интерфейса уделяется пристальное внимание со стороны ведущих производителей программных продуктов. Привычным стандартом стали много¬оконные системы, оснащенные визуальными средствами управления в соответствии с принципами GUI (Graphical Users Interface). Управление информационными системами больше не требует поиска нужной клавиши на клавиатуре. Все осуществляется наглядно, и пользователь видит результаты своих действий на мониторе компьютера, в любой момент он может обратиться к системе помощи, которая стала неотъемлемым компонентом любой информационной структуры.
В конечном итоге интерфейс пользователя компьютерной системы должен обеспечивать возможность общения с ней на естественном языке, в том числе и с помощью речи. На рис. 1 приведена возможная структура вычислительной системы со звуковым интерфейсом.
 
Рисунок 1 - Структура звукового интерфейса
В настоящее время следует отметить преимущественные успехи в решении задач синтеза звука по сравнению с распознаванием звуковых образов и понимания речи.
Тем не менее, уже сейчас можно выделить ряд областей, где применяется анализ звука и речи. Упомянем лишь некоторые из них, где производится измерение параметров речи: биометрия, судебная экспертиза, медицина. Голос человека можно использовать как пропуск в системах с ограничением доступа (например, в автоматическом контрольно-пропускном пункте, КПП). При производстве судебной экспертизы материалов звукозаписи часто нужно провести идентификацию личности. Можно определять эмоциональное состояние (уровень стресса) по параметрам устной речи. Такой способ имеет то преимущество, что к человеку не нужно присоединять датчики.
Анализ современных средств речевого управления
 
Существует ряд программных продуктов, позволяющих  пользователю осуществлять ввод текста голосом; управлять голосом периферийным  оборудованием; осуществлять голосовое управление отдельными функциями  операционных систем; осуществлять голосовое управление функциями текстовых  редакторов и прикладных программ; оформлять документы (включая формулы). Среди  таких программ можно выделить:
  - Aria  Listener фирмы Prometheus  products;
 
  - «Горыныч» фирмы VoiceLock; 
 
  - IN3  Pro Voice Command корпорации Command Corp;
 
  - Listen  компании Verbex Voice  Systems;
 
  - QuickSwitch  фирмы BitWare Consulting. 
 
Также имеется ряд программ для диктовки - речевой  ввод текстовой и цифровой информации, например:
  - NaturallySpeaking  Preferred (Dragon Systems); 
 
  - Via  Voice 98 Executive Edition (IBM);
 
  - Voice  Xpress Professional (Lernout & Hauspie);
 
  - FreeSpeech  98 (Philips). 
 
К основным недостаткам этих программ можно отнести следующие [1, с 5]:
  - диктовка должна осуществляться по  словам, то есть после каждого слова нужно делать паузу, что не совсем удобно и  понижает скорость набора текста;
 
  - длительная настройка программы  интерфейса на конкретного диктора, обучение системы, для получения некоторой  базы слов (иногда достаточно большой). Например, для программы «Горыныч» фирмы VoiceLock этот объем составляет 5000  слов, а в коммерческой версии - 10000, причем эта база может постоянно  пополняться;
 
  - достаточно высокая цена.
 
Существует множество подходов и методов решения  задачи распознавания речи. Выделим из них три основных метода [2-4]:
  - использование искусственных  нейронных сетей как мощного средства распознавания образов;
 
  - использование спектрального  представления сигнала для выделения фонем звуков в слитной речи;
 
  - метод линейного предсказания.
 
Актуальным является вопрос первичного описания речи, поиска таких форм его представления, которые обеспечивали бы простое и надежное выделение информативных признаков сигнала.
Для эффективного акустического анализа важно, с каким представлением исходного сигнала работает система автоматического распознавания речи, какие параметры выделяются для последующей фонетической обработки и как эти параметры могут быть надежно выделены в речевом сигнале.
Основной идеей настоящей работы является использование динамических портретов звука как составной части процесса автоматического распознавания речи и позволяющих решить научно-техническую задачу определения основных параметров анализируемого звукового сигнала.
Построение динамических портретов звука
Динамические портреты звукового сигнала - достаточно  удачная форма представления речи, позволяющая выявить наиболее характерные,  сравнительно инвариантные свойства звуков, различительные признаки отдельных  звуков и их классов [4].
Динамический портрет звука состоит из трех  составляющих:
  - массив максимальных значений  (контур интенсивности) - все значения отчетов (выборок) параметрического кода  сигнала заменяются значением максимального отсчета на интервале времени Т  определенной длительности. Полученный массив нормируется по амплитуде для всего  анализируемого отрезка речевого сигнала;
 
  - контур числа переходов через ноль  - подсчитывается число переходов через ноль на том же интервале времени Т, что  и в случае контура интенсивности;
 
  - контур числа нулей -  подсчитывается число нулей на интервале времени Т.
 
Алгоритм распознавания звукового образа с  использованием динамических портретов звука можно представить в виде  последовательности следующих этапов:
    - Аналоговый сигнал из микрофона попадает на вход звуковой карты.
 
    - В звуковой карте аналоговый сигнал преобразуется в цифровой. При этом  программа звукозаписи при помощи драйвера звуковой карты генерирует звуковой  файл формата WAV. 
 
    - Данные из этого файла с помощью специальной программы обрабатываются и на основании этих данных строится динамический портрет, который может быть выведен на экран.
 
    - Дальнейшая обработка состоит в анализе динамических портретов звука с целью выделения образов фонем по специальному алгоритму.
 
    - По выделенным фонемам может быть восстановлен текст, который диктовался человеком.
 
Если первые две задачи решаются стандартными  программными средствами, то для разработки алгоритма в задаче 4 необходимо  создание специального АРМа, который бы позволял исследовать динамические  портреты звука.
Такая программа должна позволять на базе современных  технических средств и стандартов представления акустической информации в  персональном компьютере создавать динамические портреты из любого оцифрованного  звука для последующего анализа речевых сигналов и выявления информативных  признаков фонем звучащей речи и построения технических систем, использующих  речевое управление.
В качестве технических средств исследования речевого  сигнала может быть выбран мультимедийный набор персонального компьютера, в  состав которого входит звуковая карта, позволяющая оцифровывать любой звук в  диапазоне частот от 8000 Гц до 48000 Гц.
В результате проведенных экспериментальных  исследований была выбрана частота дискретизации сигнала 44100 Гц, что  объясняется психофизическим эффектом сглаживания в слухе [4]. 16-битная  оцифровка в совокупности с частотой дискретизации, равной 44100 Гц, дает  предельное соотношение «сигнал/шум» около 98 дБ.
Дискретизация сигнала позволяет осуществлять  комплексное исследование речевого сигнала, в частности, решение задачи  идентификации по голосу, предполагающее обработку тонкой временной структуры  сигнала. Нижний порог частоты дискретизации определяется на основании теории В.А. Котельникова и не превышает 20 кГц [5].
Для хранения оцифрованного звука был выбран формат файла WAV, преимущества которого заключаются в отсутствии  компрессии файла, что позволяет осуществлять прямой доступ к данным без  предварительной декомпрессии, а также распространенности формата, надежности  хранения данных, наличии наиболее полной технической документации. Структура  формата WAV-файла приведена в табл. 1.
Таблица 1 - Структура WAV-файла
  
    Смещение  | 
    Длина  | 
    Описание  | 
  
  
    0h   | 
    4h   | 
    Идентификатор    формата ('RIFF')   | 
  
  
    4h   | 
    4h   | 
    Длина блока    данных (длина файла - 8h)   | 
  
  
    8h   | 
    4h   | 
    Идентификатор    блока звуковых данных ('WAVE')   | 
  
  
    0ch   | 
    4h   | 
    Идентификатор    подблока заголовка ('fmt" - с пробелом в конце)  | 
  
  
    10h   | 
    4h   | 
    000ch/0010h - длина подблока заголовка  | 
  
  
    14h   | 
    2h   | 
    01h - тип формата    представления данных  | 
  
  
    16h   | 
    2h   | 
    Число каналов (1    - моно, 2 - стерео)  | 
  
  
    18h   | 
    2h/4h   | 
    Частота    дискретизации, Гц  | 
  
  
    1ah/1ch   | 
    2h/4h   | 
    Скорость передачи данных, байт/с (произведение числа каналов, частоты    дискретизации и разрядности в байтах)  | 
  
  
    1ch/20h   | 
    2h   | 
    Число байт для представления одного отсчета (1 - 8 бит моно, 1 - 16    бит стерео)  | 
  
  
    1eh/22h   | 
    2h   | 
    Разрядность, бит    (8, 16)  | 
  
  
    20h/24h   | 
    4h   | 
    Идентификатор    подблока данных ('data')   | 
  
  
    24h/28h   | 
    4h   | 
    Длина звуковых    данных  | 
  
  
    28h/2ch   | 
       | 
    Звуковые данные  | 
  
 
В качестве языка программирования был выбран язык высокого уровня Delphi 6, что объясняется наличием в этом языке программирования всех необходимых библиотек и методов для объектов, используемых в программе. Для исследования была написана программа, позволяющая получать динамические портреты речевого сигнала. Полученные портреты совпадают с динамическими портретами, полученными в работе [4]. На рис. 2 представлена исходная форма звукового сигнала. В качестве звукового сигнала было использовано слово «сочиться».
АРМ имеет окно с двумя закладками. Одна - для отображения динамического портрета, другая - для отображения исходной (реальной) волны речевого потока. АРМ позволяет сохранять полученный динамический портрет в формате BMP- файла, распечатывать на принтере, масштабировать изображение динамического портрета, отображать экстремумы либо точками, либо в виде числовых значений для удобства анализа и восприятия.
Рисунок 2 - Исходная форма слова «сочиться»
Заключение
Проведенный анализ существующих методов распознавания речи показал, что  одним из возможных методов распознавания звукового образа является алгоритм с  использованием динамических портретов речевых сигналов. Полученные результаты  построения динамических портретов позволили на практике определить параметры  дискретизации речевого сигнала с учетом психофизического эффекта их сглаживания  в слуховом аппарате человека. Результаты работы в перспективе могут быть  использованы при решении научных проблем акустического анализа речи.
Литература
  - Режим доступу: www.art.bdk.com.ru/govor. 
 
  - Федяев О.И., Гладунов С.А. Речевая  компонента в интерфейсах информационных систем // Сб. научных трудов Донецкого  национального технического университета. Серия «Информатика, кибернетика и  вычислительная техника». - 2001. - С. 100-105.
 
  - Доросинский Л.Г., Николаев А.Н.  Особенности применения методов распознавания речи в задачах анализа дефектов  речи. - Режим доступа: http://www.sakrament.com/it-rus/index.htm. 
 
    - Николаенко В.Л. Математические  модели согласных сегментов речевого потока и их использование в системах  автоматической обработки речи. - Харьков, 1988.
 
    - Технология распознавания голоса. - Режим доступа: http://www.cs.msiu.ru/proiects/kurs/1999/9311/AI_CURSOVIK/kozlowa/docum2.html.