Веренич Иван ВладимировичТема магистерской диссертации: Анализ методов построения систем распознавания речи на основе гибрида скрытой марковской модели и нейросетиРуководитель: к.т.н. Федяев О.И.ENGВ последние годы с увеличением производительности вычислительных машин актуальной задачей становится разработка новых, более простых, понятных и дружественных интерфейсов программ с пользователями. В частности – это синтез и распознавание человеческой речи. Такой интерфейс поможет человеку, не имеющему навыков работы с компьютером, быстрее его освоить, а также будет экономить время из-за упрощения подачи команд. Также технология распознавания речи будет незаменима и для людей-инвалидов с нарушениями опорно-двигательной системы. Так человек может выполнять какую-либо работу, оставаясь на месте. Процесс распознавания голоса проходит в несколько этапов. На каждом из этапов для обработки речевого сигнала используется целый ряд различных методов. Процесс распознавания голоса можно разбить на три этапа:
Распознавание фонем и слов. Для распознавания фонем, групп фонем и слов используются такие методы, как скрытая марковская модель или НММ (hidden Markov modelling), искусственные нейронные сети (ИНС) или их комбинации. Понимание речи. «Понять» речь — это самое трудное. На этом этапе последовательности слов (предложения) должны быть преобразованы в представления о том, что хотел сказать говоривший. Хорошо известно, что понимание речи опирается на огромный объем лингвистических и культурных знаний. Большая часть систем распознавания голоса учитывает при этом знания о естественном языке и конкретные обстоятельства. Задача, связанная с распознаванием голоса — распознавание говорящего, т. е. процесс автоматического определения «кто говорит» на основе входящей в речевой сигнал индивидуальной информации. При этом речь может идти об идентификации или о верификации говорящего. Идентификация — это нахождение в известном множестве контрольных фраз экземпляра, соответствующего манере данного диктора говорить. Верификация диктора — это определение идентичности говорящего: тот ли это человек? Технология распознавания диктора позволяет использовать голос для обеспечения контроля доступа; например, телефонный доступ к банковским услугам, к базам данных, к системам электронной коммерции или голосовой почте, а также доступ к секретному оборудованию. Обе технологии требуют, чтобы пользователь был «занесен в систему», т. е. он должен оставить образец речи, по которому система может построить шаблон. Предпринимались попытки разработать и аппаратную реализацию систем распознавания голоса. Некоторые продукты обеспечивают как голосонезависимое, так и голосозависимое распознавание речи на одном чипе. Чип поддерживает голосозависимое распознавание на базе словаря, хранимого в постоянном запоминающем устройстве чипа (ROM, read only memory). Словари голосозависимых систем хранятся вне чипа и могут быть загружены во время работы системы. В работе решаются следующие 3 задачи: Первичная обработка звукового сигнала, применение к полученному сигналу аппарата скрытых марковских моделей, применение нейросети для получения выходной сигнальности
Три основных барьера стоят на пути развития систем распознавание речи:
Не решена окончательно и проблема отделения речевого сигнала от шумового фона. В настоящее время пользователи систем распознавания голоса вынуждены либо работать в условиях минимального шумового фона, либо носить шлем с микрофоном у самого рта. Кроме того, пользователям приходится «информировать» компьютер о том, что они к нему обращаются. Для этого обычно надо нажать кнопку или сделать что-то в этом роде. Конечно, это не самый лучший вариант пользовательского интерфейса. Решение этих проблем началось, и уже получены много-обещающие результаты. Одна из долгожданных разработок в области распознавания голоса — это человеко-машинные диалоговые системы; такими системами занимаются во многих университетских исследовательских лабораториях. Системы «умеют» работать с непрерывным речевым потоком и с неизвестными дикторами, понимать значения фрагментов речи (в узких областях) и предпринимать ответные действия. Эти системы работают в реальном времени и способны выполнять пять функций по телефону:
Литература:
|