Надежность систем распознавания речи – актуальная задача или мода
Валентин Смирнов
http://www.dialog-21.ru

Введение

   Задача технологии автоматического распознавания речи – предоставить пользователю естественный интерфейс взаимодействия с компьютером или механическим устройством. Первыми о такой возможности задумались писатели-фантасты, которые наделили роботов будущего способностью понимать людей. Начиная с середины прошлого столетия ученые приложили немало усилий для того, чтобы это будущее стало реальностью. И пусть машины по-прежнему не наделены полноценным искусственным интеллектом, технология распознавания речи уже сегодня способна решать повседневные задачи не менее эффективно, чем человек.

Технология распознавания речи: составные элементы и методы

    Процесс разработки технологии распознавания речи ученые начали с освоения методики выделения информативных признаков, описывающих речевой сигнал (спектральный анализ Фурье, метод линейного предсказания). Затем приступили к решению задачи распознавания фиксированного набора голосовых команд путем попарного сравнения входящего звукового сигнала с базой данных эталонов, хранящихся в памяти компьютера. (Кстати, именно такая технология сейчас применяется в большом количестве «бюджетных» мобильных телефонов: вы заранее записываете в память телефона команды, а затем, повторяя их, можете вызвать ту или иную функцию.) В силу своей простоты описанный метод хорошо подходил только для распознавания команд, произнесенных голосами ученых, ее создававших, т. е. был дикторозависимым. К тому же большое количество сравнений существенно повышало ресурсоемкость данного подхода.
   Решение проблемы зависимости от диктора, конечно, было найдено. На первый план вышли статистические алгоритмы, основанные на обработке большого количества звуковых данных – записей голосов десятков и сотен дикторов.
   Ученые предложили несколько подходов, среди которых широкое распространение получили нейронные сети и скрытые марковские модели. Нейронные сети обладают большой статистической силой, поскольку позволяют автоматически настроить систему для эффективного различения набора распознаваемых слов, однако цепочки слов, а также слова, произносимые с разным темпом, нейронные сети идентифицируют плохо. Скрытые марковские модели, напротив, успешно моделируют последовательность из нескольких слов и практически не зависят от темпа произнесения. Другой плюс марковских моделей – высокое быстродействие. Кроме того, они позволили ученым подойти к решению более сложной задачи – распознавание произвольной слитной речи. Из науки о языке известно, что наша речь строится из ограниченного набора минимальных звуковых составляющих – фонем (фонов, трифонов), а значит, каждое слово можно представить в виде последовательности из нескольких фонем. Таким образом, не нужно хранить записи каждого слова – достаточно создать значительный корпус записей речи немалого количества дикторов, который бы позволил получить статистически достоверное описание всех звуков, встречающихся в речи. В 1980-х – 1990-х гг. были накоплены огромные речевые корпусы, однако в основном для английского языка.
   На сегодняшний день большинство коммерческих систем распознавания речи опираются именно на описанную выше технологию. Есть также удачные примеры объединения марковских моделей с нейронными сетями.
   Было бы весьма опрометчиво утверждать, что статистическая модель – единственно необходимый компонент системы распознавания речи. Структура системы распознавания подразумевает наличие многих других важных составляющих, в частности, грамматики или языковой модели, определяющей допустимые последовательности слов и их вероятность. Неотъемлемая часть любой системы распознавания – это словарь, в котором содержатся транскрипции распознаваемых слов.
   С другой стороны, необходимы процедуры, которые бы помогали распознавать речь в сложных условиях (помехи в канале связи, внешние шумы, невысокое качество телефонного аппарата).
   Создание технологии распознавания речи – достаточно кропотливая работа, включающая в себя, с одной стороны, детальный анализ звуковых явлений конкретного языка, создание словарей и языковых моделей, с другой – глубокое знание математических алгоритмов анализа и обработки звуковых сигналов, а также построения статистической модели на базе обширных речевых корпусов.

Продолжение читайте в печатной версии журнала