Email: ismirv@gmail.com
ОГЛАВЛЕНИЕ
Распознавание речи - сложная и актуальная тема, занимающая достойное место среди компьютерных наук. Этот процесс состоит из этапа преобразования голоса в текст и из этапа автоматической интерпретации семантики речи. Иногда под распознаванием голоса подразумевают лишь задачу идентификации говорящего. Но часто эта задача неотделима от проблемы распознавания речи, так как эти процессы связаны и вместе обеспечивают дружественность интерфейса к пользователю. Проблема речевого ввода информации осложняется рядом факторов: различием языков, спецификой произношения, шумами, акцентами, ударениями и т.п. Данная работа посвящена разработке приемов и алгоритмов распознавания речи на русском языке.
Распознавание голоса можно разделить представить : получение речевого сигнала и преобразования его в цифровую форму. Далее сигнал разбивается фонемы (неделимые интервалы, элементарные единицы звука). С помощью последовательности фонем составляют слоги, слова, предложения, сообщения, идеи и команды. Можно выделить ряд моментов, характерных для систем распознавания голоса:
Независимость от диктора - способность системы распознавать слова без персональной настройки компьютера путем повторения одного и того же речевого сигнала. Непрерывная речь - возможность, позволяющая пользователям говорить естественно (непрерывно), не делая паузы между словами (дискретный ввод речи). Большие словари - способность обрабатывать большое количество слов как общей, так и специальной категории из технических и предметных областей знаний с целью увеличения мощности и эффективности систем распознавания голоса.
Сегодня существуют два основных вида технологий распознавания голоса. Один из них - это распознавание речи. Зависящее от диктора, т. е. пользователь должен сначала научить систему распознавать его голос, и только после этого система может функционировать. Второй - это распознавание речи не зависящее от диктора, т. е. система способна распознать любую речь, независимо от того, кто говорит. Такие системы разрабатываются для любого пользователя конкретного типа. Это самые сложные в разработке и самые дорогие системы, а точность распознавания у них ниже. Однако эти системы более гибки. Адаптивные системы приспосабливаются к характеристикам нового диктора. Уровень их сложности лежит где-то посередине между первыми двумя системами. Системы распознавания изолированных слов работают с дискретными словами - в этом случае требуется пауза между словами. Это самая простая форма распознавания, так как в этом случае легко определяется конец речевого сигнала, а произношение слова не затрагивает другие слова. Поскольку в этих системах количество слов постоянно, то их легче проектировать. Системы распознавания непрерывного речевого сигнала работают с речевым потоком, в котором слова сливаются, т. е. не разделены паузой. Непрерывную речь обрабатывать гораздо сложней по целому ряду причин, например, трудно определить начало и конец слова.
Можно выделить следующие области применения систем распознавания голоса:
1. Интерфейс между человеком и компьютером: очевидно, что многие люди испытывают трудности в общении с машиной, необходим новый способ общения с компьютером - простой, быстрый, интуитивный. Системы распознавания голоса заставляют машину приспосабливаться к человеку, а не наоборот. Огромное преимущество систем распознавания голоса в том, что они намного быстрее любых других типов интерфейсов. Голосовая программа электронной почты позволяет включить компьютер, продиктовать и послать сообщения не прикасаясь к мыши и клавиатуре. Также люди с физическими недостатками получат более эффективный способ взаимодействия с компьютером.
2. Информационные услуги. Речь - это идеальный инструмент для получения информации. И речь позволяет наладить взаимодействие с компьютером. При помощи систем разговорного языка пользователь и машина могут вступить в непосредственный диалог, постепенно, шаг за шагом, приближаясь к искомой информации. Например, разработаны системы распознавания голоса для обеспечения доступа к базам данных, содержащим оцифрованные клипы новостей телерадиовещания, систем заказа авиабилетов.
3. Другие человеко-машинные интерфейсы - системы распознавания лиц и сенсорные экраны, способствуют ускорению внедрения систем речевого общения - наблюдается тенденция к созданию комбинированных систем. Технологии распознавания лиц и голоса проникли и в банковский мир - вместе с банкоматами. За последнее десятилетие области применения систем распознавания речи значительно расширились и будут продолжать расширяться.
Основные методы распознавания голоса
Процесс распознавания голоса можно разбить на следующие этапы: 1. получение голосового сигнала, предварительная обработка речи Получение голосового сигнала или дискретизация голоса определяется как процесс получения и преобразования акустического сигнала. Голос представляется как колебания акустического давления в микрофоне.
Рисунок 1. Представление сигнала
Есть два типа звуков: звонкие и глухие. Звонкие порождаются вибрацией голосовых связок при прохождении воздуха. Этот акустический сигнал модулируется напряжением голосовых связок. Вибрации резонируют в речевом канале (это нос, горло и полость рта). Поток воздуха, создающий звук, называется "волной, образованной в голосовой щели". Этот сигнал квазипериодический, а его период называется периодом основного тона
2. распознавание фонем (слов) Для распознавания фонем, групп фонем и слов используются такие методы, как скрытая марковская модель, нейронные сети или их комбинации. Наиболее часто и успешно при распознавании фонем и слов используется скрытая марковская модель, она определяется как множество состояний и переходов из одного состояния в другое. Если происходит переход, то с определенной вероятностью будут наблюдаться некие выходные данные. Кроме того, с каждым переходом связана вероятность, представляющая собой вероятность перехода из некоторого состояния в следующее состояние. Существует множество начальных и множество конечных состояний. Любая последовательность наблюдений является результатом перехода из одного из начальных состояний в одно из конечных. Эта модель обеспечивает довольно естественное представление речи.
3. Понимание речи. "Понять" речь - это самое трудное. На этом этапе последовательности слов (предложения) должны быть преобразованы в представления о том, что хотел сказать говоривший. Задача, связанная с распознаванием голоса - распознавание говорящего, т. е. процесс автоматического определения "кто говорит" на основе входящей в речевой сигнал индивидуальной информации. При этом речь может идти об идентификации или о верификации говорящего. Идентификация - это нахождение в известном множестве контрольных фраз экземпляра, соответствующего манере данного диктора говорить. Верификация диктора - это определение идентичности говорящего: тот ли это человек? Технология распознавания диктора позволяет использовать голос для обеспечения контроля доступа; например, телефонный доступ к банковским услугам, к базам данных, к системам электронной коммерции или голосовой почте, а также доступ к секретному оборудованию.
Также необходимо отметить существование разных подходов к построению самих систем распознавания речи.
Одноуровневые - сигнал делится на два слова (для уверенного деления в простейших случаях достаточно полуторносекундной задержки между словами при произношении). Слова, в свою очередь, распознаются как единое целое. При этом используются различные методы сравнения с эталонами, вид которых зависит от методики распознавания: при использовании методов динамического программирования эталоны представляются в том же виде, что и поступающий сигнал (с учетом деления на слова), при применении методов разложения в ряды, эталоны представляют из себя наборы параметров этого ряда.
Результатом работы этой схемы является слово из списка присутствующих в множестве эталонов или сообщение об ошибке, если полученный образ не соответствует в достаточной мере ни одному эталону.
Недостатки: необходимость создания совокупности эталонов фактически для каждого человека (так называемый процесс обучения системы распознавания), невозможность создания автоматической системы коррекции эталонов, пропорциональность времени, затрачиваемого на распознание слова, количеству эталонов, и необходимость конечного выбора из нескольких возможных вариантов. Схема может применяться только при необходимости распознавания ограниченного списка слов одного или нескольких операторов. Например, в различных системах управления с небольшим количеством команд.
Многоуровневые. Предполагаемое слово анализируется с точки зрения фразы в целом. В результате, за счет синтаксических и семантических свойств языка приобретается дополнительная информация, повышающая качество распознавания.
Производится фонемный разбор речевого образа, то есть деления выделенных слов на фонемы с последующим их распознаванием. Это позволяет производительно использовать распознавание по иерархической схеме: из списка фонем, распознанных с определенной точностью, составляется шаблон, который передается на следующий уровень, где по нему происходит подбор наиболее подходящего слова, передача информации о выборе на более высокий уровень, для дальнейшего анализа, и на нижний, для подстройки системы на конкретного пользователя. Достоинством это схемы является высокая адаптивность, дающая возможность динамической самоподстройки системы на оператора, и многоуровневая система проверок, повышающая точность работы.
Рисунок 2. Представление многоуровневой схемы
Сравнивая распознавание речевого потока методом распознавания целых слов и распознавание фонем, можно сделать вывод: при небольшом количестве слов, используемых оператором, более высокую надежность и скорость можно ожидать от распознавания целых слов, Но при увеличении словаря скорость резко падает и рекомендуется сменить модель схему распознавания.
Основные проблемы, стоящие на пути развития систем распознавание речи:
Это основные препятствия для автоматизированных систем распознавания. Кроме того, пользователям приходится "информировать" компьютер о том, что они к нему обращаются. Для этого обычно надо нажать кнопку или сделать что-то в этом роде. Это не самый лучший вариант пользовательского интерфейса.
В передовых системах приветствуется использование диалогового интерфейса, что позволяет человеку разговаривать с машиной, создавать и получать информацию, решать свои задачи. Системы с диалоговым интерфейсом различаются по уровню инициативности человека или компьютера. Исследования фокусировались на "смешанно инициативных" системах, в которых и человек, и компьютер играют одинаково активную роль в достижении цели посредством диалога.
Целью работы является исследование, посвященное проблеме сегментации слитно произносимых фраз, изучение и применение наиболее перспективные методы. Разработка программного продукта посвященного данной проблеме на момент написания автореферата (июнь 2006) не является законченной. Планируемое время окончания работы - октябрь 2006.