Сергей Колесников
http://www.ci.ru

Распознавание звуков

Общие сведения

В настоящее время можно выделить три основных типа аутентификации: «человек – компьютер», «компьютер – компьютер» и «человек – человек».

Аутентификация «Человек – компьютер»

   Распознавание звуков - это процесс преобразования акустического сигнала различной природы в некоторую необходимую абстрактную, часто характерную для данного типа сигнала, форму. Поясним данное определение на примерах. Простейшим примером для иллюстрации может служить задача распознавания голоса (распознавание речи). В этом случае человеческий голос может преобразовываться, например, в текст, использоваться для интерактивного управления системой или помочь идентифицировать личность. В качестве второго примера может быть приведена следующая постановка задачи: автоматически расставить ноты на нотном стане и определить длительность, тональность при подаче на вход распознающей системы музыкального произведения. В настоящее время есть программная оболочка, позволяющая относительно точно восстанавливать текст, набираемый на соседнем компьютере, используя уникальность звуков, создаваемых клавишами клавиатуры.
   Однако, несмотря на многообразие таких задач, остановимся на проблеме распознавания человеческой речи, как наиболее сложной, актуальной и широко распространенной.
   Понятно, что весь технический прогресс в сфере IT направлен на повышение удобства, скорости и упрощение работы человека. Поэтому, если рассматривать программный интерфейс, то компании-разработчики стараются сделать его интуитивно понятным и простым для неподготовленных пользователей. Одним из таких средств является внедрение голосового управления программными продуктами. И несмотря на то, что этой проблемой занимаются более тридцати лет, ее решение находится еще в зачаточном состоянии. Какие сложности возникают в этом процессе и какие принципы используются, сделаем попытку описать ниже.

Основные этапы

Процесс состоит из этапа преобразования голоса в текст и из этапа автоматической интерпретации семантики (смысл слова или предложения; раздел языкознания, исследующий значения слов и словосочетаний) речи. Иногда под распознаванием голоса подразумевают лишь задачу идентификации говорящего. Но часто эта задача неотделима от проблемы распознавания речи, так как эти процессы связаны и вместе обеспечивают дружественность интерфейса к пользователю.
   В процессе распознавания голоса могут присутствовать следующие этапы:

    1. Преобразование голоса в текст. Примером может служить задача перевода устной речи в электронный текст.
    2. Автоматическое определение смысла слова. Необходимо в процессе интерактивного управления.
    3. Идентификация личности. Может использоваться в различных системах контроля, а также для реализации дружественного интерфейса.

   В общем случае, реализация распознавания голоса происходит следующим образом: при получении датчиком (например, микрофоном) акустического сигнала, происходит его преобразование в электрический, затем с помощью аппаратной обработки и оцифровывающих устройств сигнал дискретизируется и представляется в цифровой форме. Затем следует разбиение сигнала на неделимые участки, представляющие собой элементарные единицы звука. Дальнейший анализ этих интервалов позволяет выделить слоги, затем слова, словосочетания, предложения (распознавание речи, задача интерактивного голосового управления). В случае, если необходима только идентификация говорящего (распознавание голоса), вышеописанный этап не обязателен.
   Следующий этап представляет собой обработку естественного языка. На основании речевых идиом, контекста, выделяются логические единицы, которые впоследствии транслируются в действительные команды, понятные системе или приложению.
   Отметим основные требования к идеальной системе распознавания речи:
   Независимость от диктора - способность системы распознавать слова без персональной адаптации системы к конкретному человеку.
   Обработка непрерывной речи - возможность, позволяющая пользователям говорить естественно, не делая паузы между словами.
   Наличие полных словарей - способность обрабатывать большое количество слов как общей, так и специальной тематики из технических и гуманитарных баз знаний с целью увеличения мощности и эффективности систем распознавания голоса.

Методы распознавания
   Следует выделить несколько основных технологий распознавания голоса.
   Голосозависимые - принцип функционирования системы, зависящий от конкретного пользователя, требующий предварительной адаптации к диктору. Такие системы обладают более высокой точностью и относительно просты в разработке, однако отсутствие необходимой гибкости в использовании затрудняет повсеместное распространение.
   Голосонезависимые - такая технология подразумевает независимость от говорящего человека, однако обладает противоположными свойствами. При высокой гибкости имеем пониженную точность, высокую стоимость и сложность в разработке.
   мешанный тип или адаптивные системы. Как понятно из названия, эта технология предполагает подстройку к новым пользователям. Это делает ее достаточно гибкой, однако практически исключает возможность инсталляции в широкодоступных информ-системах.
   По типу входного сигнала различают дискретные и непрерывные системы.
   Диктор должен выдерживать определенные промежутки между словами в дискретном случае. Реализация системы такого типа не представляет особых сложностей, однако создает вполне понятные неудобства.
   Системы распознавания непрерывного речевого сигнала работают с привычным для человека речевым потоком. При этом наблюдаются сложности по определению отдельных слов, так как между словами отсутствует конкретная пауза, и проблемы с их распознаванием, вследствие зависимости произношения от рядом стоящих букв и соседних слов. Существенное влияние на точность распознавания оказывают скорость и четкость произношения.
   Далее возникают проблемы с полнотой словарей. Естественно, в зависимости от конечного назначения приложения, объем словарей может варьироваться, но в любом случае, остро стоит проблема разработки словарей, в том числе и тематических, вкупе с обеспечением их доступности. Следующим этапом распознавания, происходит тематический анализ текста и проверка структур предложений, что также обеспечивает дополнительные трудности.
   Что касается цифровой обработки сигнала - тут тоже не все так гладко. К входному сигналу примешиваются шумы различной природы, несомненно, возникают искажения при оцифровке и преобразовании звука.
   Область применения
   Интерактивный интерфейс между человеком и вычислительной системой. Задача упрощения взаимодействия человека с компьютером, как мы уже отмечали, присутствует уже давно и в настоящее время, с повсеместным появлением ИТ-сектора, стоит достаточно остро. Многим трудно заучивать принципы поведения с вычислительными системами, а некоторые просто физически не имеют такой возможности. Взять, к примеру, пожилых людей или инвалидов по зрению.
   Информационные услуги. Внедрение систем распознавания речи обеспечит удобный и быстрый доступ к нужной информации. Конечно, можно проснуться, на одном сайте посмотреть погоду, на другом почитать новости, по радио узнать о пробках на дорогах и т. д., или установить специальные программы-клиенты в режиме реального времени предоставляющие необходимые сведения. А можно просто задать вопрос, и через некоторое время получить ответ в исчерпывающем объеме. Система проведет анализ и интерпретацию запроса и предоставит данные в нужной для пользователя форме.
   Бизнес и поддержка. Во многих сферах бизнеса применение таких технологий распознавания речи позволит сократить время и повысить качество обслуживания. Например, службе поддержки достаточно установить такую систему, которая будет проводить анализ запроса и обеспечивать необходимую реакцию, что позволит обслуживать большее количество клиентов и обеспечить им удобство. В сфере образования возможно упрощение проведения промежуточных тестов. Про сферу безопасности, думаю, можно умолчать.

   Основные методы распознавания голоса
   Рассмотрим более подробно методы распознавания речи. Как мы уже отметили ранее, этот процесс можно разбить на три этапа:
   получение голосового сигнала и предварительная обработка речи, распознавание фонем и слов, понимание речи.
   На каждом из этих этапов применяются свои методики.
   Получение голосового сигнала и предварительная обработка речи. Этот процесс характеризуется получением речевого сигнала или дискретизацией голоса путем преобразования акустического сигнала в диапазоне примерно от 70 Гц до 7 кГц. Известно, что есть два типа звуков: звонкие и глухие. Оба вида звуков рассматриваются как временные ряды данных, взятые за регулярные интервалы времени. Для изоляции нужного интервала используются пространственные окна. Затем применяются специальные функции, как правило, рассчитывающие среднюю амплитуду, выполняющие преобразования Фурье на каждом интервале. Предварительно могут применяться различные фильтры шумоподавления, как аналоговые, так и цифровые.
   Распознавание неделимых звуковых интервалов (фонем) и слов. Для распознавания фонем, групп фонем и слов используются такие методы, как скрытая марковская модель или НММ (Hidden Markov Modelling) и/или искусственные нейронные сети (ИНС).
   Наиболее распространено применение скрытой марковской модели (НММ). Эта модель представляется множеством состояний и переходов из одного состояния в другое. Каждый переход из одного состояния в другое характеризуется распределением результирующих вероятностей. Этим определяется вероятность того, что при этом переходе произойдет событие из пространства наблюдений. Другими словами, при появлении в определенном порядке фонем, мы можем с определенной вероятностью ожидать появления какой-то заранее известной фонемы. При появлении, к примеру, последовательности "инфо" затем ожидаем появление "рм". В этом методе существует множество начальных и множество конечных состояний. Любая последовательность наблюдений является результатом перехода из одного из начальных состояний в одно из конечных. Пусть в предыдущем примере начальное состояние будет "информ", а согласно HMM, у нас определяются вероятности перехода в конечное состояние, которое может быть "информация", "информирование" и т. д. Утверждается, что скрытая марковская модель хорошо описывает временные ряды со стохастическими воздействиями, поэтому становится возможным обеспечивать довольно естественное представление речи. НММ можно использовать для представления любой составляющей речевого сигнала - фонемы или слова.

   Широкий спектр решаемых задач с помощью ИНС мы описывали ранее. Отметим, что комплексные ИНС/НММ-распознаватели речи повышают точность традиционной скрытой марковской модели за счет моделирования зависимостей между одновременными параметрами речевого сигнала, между текущими и последующими параметрами.
   Понимание речи. Наиболее сложный этап, на котором происходит преобразование последовательности слов в представление о предмете или задаче высказывания. В этом процессе необходимо грамотно применить огромный объем лингвистических тематических знаний, на которых основана человеческая речь. В случае специализированной справочной системы, система априори знает, о чем речь, в случае интерактивного управления каким-либо объектом - все гораздо сложнее. Данный этап в задаче распознавания голоса может представлять собой идентификацию или верификацию личности диктора. В первом случае проводится анализ на предмет наличия каких-либо устойчивых выражений, соответствующих манере разговора диктора. Под задачей верификации подразумевается проверка на соответствие личности говорящего, путем анализа тембра голоса, скорости разговора и другим голосовым параметрам. В любом случае, требуется наличие конечного множества, предварительного занесения в систему каждого диктора. Существуют как аппаратные, так и программные реализации данного этапа по различным технологиям распознавания речи.
   Примером голосонезависимой программной реализации может служить новое ПО IBM Embedded ViaVoice 4.4, представленное 24 января 2006 г. в городе Армонк (штат Нью-Йорк), которое исключает необходимость в заучивании заранее определенных команд, обеспечивая возможность управления электронными системами автомобиля и КПК естественным языком. Пакет включает компонент freeform command recognition (распознавание команд в свободной форме), использующий средства статистического языкового моделирования и семантической (смысловой) интерпретации, чтобы обеспечить взаимодействие между пользователем и системой распознавания голоса в радиоприемниках, навигационных системах автомобиля или КПК на естественном языке. Интересной особенностью указанной системы является многоязыковая поддержка.
Задачи и перспективы
   Итак, выделим основные препятствия на пути внедрения систем распознавания голоса и речи:
   Необходимость наличия больших объемов словарей и обеспечение к ним доступа, что требует высоких вычислительных мощностей;
   Наличие базы данных, состоящей из шаблонов непрерывной речи различных тематик;
   Реализация ожидаемой реакции системы на различные акценты и произношения;
Понимание семантики речи
   Несмотря на хорошую математическую и аппаратную базу, не решена проблема шумоподавления, что вынуждает пользователей работать в условиях минимального шумового фона, либо использовать гарнитуру с микрофоном у самого рта.
   По словам профессора Quiming Zhu (University of Nebraska At Omaha), в университете ведутся работы по созданию человеко-машинных диалоговых систем. Разработанные системы способны работать с непрерывным речевым потоком в реальном времени и с неизвестными дикторами, понимать значения фрагментов речи и предпринимать ответные действия.