Системы распознования речи

Авторы:Кандасами Сукумаран

Автор перевода:Константинов В.С.

Источник: http://www.doc.ic.ac.uk/~nd/surprise_95/journal/vol1/ks4/article1.html

Вступление

Мы, люди говорим и слушаем друг друга в форме общения друг с другом. Теперь были предприняты попытки разработать возможность общения человека с машиной, в котором люди и машины могут общаться неквалифицированным способом. Очевидно, что такой интерфейс взаимодействия даст большие преимущества. Реализация рукописного ввода не смогла осуществить эту мечту. Но теперь были предприняты попытки разработать компьютеры, которые могут работать на основании распознавания речи для реализации этой мечты. т. е. компьютер, который может выдавать речь в качестве выходных данных при вводе текста (синтезатор речи) и распознавать речь, которая подается в качестве ввода (распознаватель речи). Распознаватель речи в целом распознает речь и голоса, но эта статья посвящена распознаванию речи, а не распознаванию голоса.

Как это работает

Чтобы понять, как работает распознавание речи, желательно иметь знания о речи и ее особенностях, которые используются в процессе распознавания. В человеческом мозге мысли состоят из предложений, а нервы управляют формой голосового тракта (челюсти, язык, рот, голосовые связки и т. Д.) Для получения желаемого звука. Звук звучит в фонемах, которые являются строительными блоками речи. Каждая фонема резонирует на основной частоте и ее гармониках и, следовательно, обладает высокой энергией на этих частотах. Первые три гармоники имеют значительно более высокие уровни энергии и известны как формантные частоты. Каждая фонема имеет уникальную основную частоту и, следовательно, уникальные формантные частоты, и именно эта функция позволяет идентифицировать каждую фонему на этапе распознавания. В общем, системы распознавания речи хранят эталонные шаблоны фонем или слов, с которыми сравнивается входная речь и выдается самое близкое слово или фонема. Поскольку необходимо сравнивать частоты (на которых энергия высока), сравниваются спектры входного и эталонного шаблонов, а не фактическая форма волны.

Классификация распознавания речи

Распознавание речи можно классифицировать как распознавание изолированных слов и непрерывное распознавание речи. В первом варианте речь произносится изолированными словами, тогда как во втором речь произносится непрерывно, что затрудняет распознавание. Последние могут быть далее классифицированы на распознавание связанных слов и распознавание разговорной речи. Первый распознает каждое слово, но имеет ограниченный словарный запас, тогда как второй фокусируется на понимании предложений и имеет большой словарный запас. Распознавание речи также может быть зависимым от говорящего (в этом случае шаблоны должны меняться каждый раз при смене говорящего) или независимым от говорящего (распознает речь, не относящуюся к говорящему). Независимые от динамиков системы более привлекательны с коммерческой точки зрения, чем зависимые, но их трудно внедрить. Это потому, что речь каждого человека имеет уникальные спектральные особенности. Таким образом, в системах, независимых от говорящего, коммерчески доступно только изолированное распознавание слов.

Справочные шаблоны: слова или фонемы

Как упоминалось ранее, шаблоны ссылок могут быть в фонемах или словах. В системах с словом в качестве единицы эталонного шаблона при увеличении размера словаря размер эталонного шаблона увеличивается и, следовательно, увеличивается среднее время сравнения. В системах, в которых имеются фонемы, сравниваются входные речевые фонемы, и с этими результатами в сочетании со словарем слов выдается слово. В этом случае, когда словарь необходимо расширить, слова могут быть добавлены в словарь слов, и шаблон фонемы не нужно изменять. Следовательно, требуется память и время сравнения не увеличивается так сильно, как в предыдущем случае.

Преимущества и недостатки

Речь предпочтительнее в качестве входных данных, потому что она не требует обучения, и это намного быстрее, чем любой другой ввод. Также информация может быть введена, в то время как лицо, занимающееся другими видами деятельности, и информация может быть передана через телефон или микрофон, которые относительно дешевле по сравнению с существующими системами ввода. Но есть несколько недостатков в процессе распознавания. Обозначенные фонемы записываются изолированно, и их спектр отличается от фонем во входной речи, поскольку на них влияют соседние фонемы. Такая же помеха возникает, когда слова сохраняются в эталонном шаблоне при непрерывном распознавании речи. Как уже упоминалось, в системах, не зависящих от говорящего, коммерчески доступно только изолированное распознавание слов. Большинство покупателей хотели бы, чтобы система была независимой от говорящего, и произнесение слов в отдельности может быть довольно раздражающим, особенно когда ввод большой, а скорость обработки может быть не очень высокой. Даже в системе распознавания слов, связанной с динамиком (ограниченный словарный запас), скорость ввода составляет всего до 50 слов в минуту, что не очень быстро.

Будущее

Как и в случае любых систем автоматизации, системы автоматического распознавания речи (ASR) будут использоваться, когда их скорость и эффективность выше, чем у текущего метода ввода. Но, как уже упоминалось выше, системы ASR не достигли этой конкурентной позиции. С другой стороны, системы ASR теперь более доступны, чем когда-либо. Например: Power Mac за 1495 фунтов для MacOS, Kurzweil для Windows за 895 фунтов и DragonDictate для Windows за 859 фунтов. Когда будут разработаны независимые от говорящего системы непрерывного распознавания речи, распознавание речи станет одним из популярных методов ввода данных и приведет к развитию компьютеров с голосовым управлением.