Веренич И.В. Распознавание речи. Реферат по ораторскому искусству

Распознавание речи

Введение

Искусство - высокая, может быть, даже высшая степень умения, мастерства в любой сфере человеческой деятельности: в литературе, музыке, живописи, танце, архитектуре, но искусство человеческого общения - это особо сложная и весьма ответственная сфера бытия. Слово имеет безграничную власть над человеком, над обществом. Лишь позже, в зрелые годы, мы начинаем понимать, что за словом должен стоять и поступок, дело... Но "вначале было Слово...", и слово, речь могут вдохновить, позвать на подвиг, а могут и убить. Вдумайтесь в проникновенные слова Иисуса Христа о добре, любви, терпимости, служении... Но вспомните и о речах вождей мирового пролетариата или борцов за чистоту арийской расы - сколько миллионов жизней уничтожено и искалечено ими!

Многочисленные тесты, опросы, эксперименты доказали, что человека больше всего волнуют два вопроса: его здоровье и вопрос о том, как разбираться в людях, как воздействовать на них, как руководить ими, их поступками? Интерес к своему здоровью понятен, и именно эту слабинку души человеческой так успешно эксплуатируют колдуны, шаманы, "народные целители" и экстрасенсы всех мастей. А вот с умением разбираться в людях дело обстоит сложнее, хотя на обладание этим искусством претендуют все! Что тут сложного? Мудро замечено, что любой человек немного недоволен своей внешностью, но вполне удовлетворен своим умом. А раз человек умен, то оценить другого, посплетничать о нем - любимое и увлекательное занятие для развития аналитических талантов, и этого достаточно для самоутверждения (cogito, ergo sum - я мыслю, следовательно, я существую). Но проблема, увы, очень сложна, и понять человека, убедить его, повлиять на его поступки совсем непросто.

Эссе на тему «Распознавание речи»

Что понимается под распознаванием речи? Это может быть преобразование речи в текст, распознавание и выполнение определенных команд, выделение из речи каких либо характеристик (например, идентификация диктора, определение его эмоционального состояния, пола, возраста, и т.д.) – все это в разных источниках может попасть под это определение. В моей работе под распознаванием речи понимается отнесение звуков речи или их последовательности (фонем, букв, слов) к какому-либо классу. Затем этому классу могут быть сопоставлены символы алфавита – получим систему преобразования речи в текст, или определенные действия – получим систему выполнения речевых команд. Вообще этот способ обработки речевой информации может использоваться на первом уровне какой-либо системы с гораздо более сложной структурой. И от эффективности этого классификатора будет зависеть эффективность работы системы в целом.

Какие проблемы возникают при построении системы распознавания речи? Главная особенность речевого сигнала в том, что он очень сильно варьируется по многим параметрам: длительность, темп, высота голоса, искажения, вносимые большой изменчивостью голосового тракта человека, эмоциональными различными состояниями диктора, сильным различием голосов разных людей. Два временных представление звука речи даже для одного и того же человека, записанные в один и тот же момент времени, не будут совпадать. Необходимо искать такие параметры речевого сигнала, которые полностью описывали бы его (т.е. позволяли бы отличить один звук речи от другого), но были бы в какой-то мере инвариантны относительно описанных выше вариаций речи. Полученные таким образом параметры должны затем сравниваться с образцами, причем это должно быть не простое сравнение на совпадение, а поиск наибольшего соответствия. Это вынуждает искать нужную форму расстояния в найденном параметрическом пространстве.

Далее, объем информации, которую может хранить система, не безграничен. Каким образом запомнить практически бесконечное число вариаций речевых сигналов? Очевидно, здесь не обойтись без какой-либо формы статистического усреднения.

Ещё одна проблема – это скорость поиска в базе данных. Чем больше её размер, тем медленнее будет производиться поиск – это утверждение верно, но только для обычных последовательных вычислительных машин. А какие же ещё машины смогут решить все вышеперечисленные проблемы? – спросите Вы. Совершенно верно, это нейросети и статистические методы и их комбинация.

Риторическая часть

Выступление состоит из трех частей: вступления, доказательства и заключения. Вступление должно включать в себя краткое содержание той идеи, правильность, которой будет доказана во второй части речи. Существуют различные виды вступления. И его выбор зависит от сверхзадачи и аудитории, в которой оратор выступает. Основная часть выступления доказательство. Оно может быть логическим, когда оратор логически доказывает аудитории правильность идеи. Информационное доказательство опирается на фактический и справочный материал. Эмоциональное доказательство требует от оратора большой самоотдачи и актерского мастерства. Иногда правильность идеи удобно подтверждать путем ссылки на авторитеты отсылочное доказательство. В заключении оратор подводит итог, кратко повторяет ключевые мысли своей речи, еще раз излагает главную идею выступления, а также может призвать слушателей к конкретным действиям по ее реализации. При публичном выступлении удобно опираться на заранее заготовленные тезисы короткие предложения, отмечающие тот или иной логический поворот в изложении содержания речи.

При публичном выступлении нельзя забывать о голосовой акустике: градировании вектора звуковой волны в вертикальной плоскости в зависимости от расстояния до аудитории, динамике вектора в трехмерном пространстве ("универсальная восьмерка"). Если оратор выступает с трибуны, он должен учитывать ее высоту при градировании вектора. Также нельзя забывать о "эффекте мортиры" субъективном ощущении слушателя того, что сзади него находятся люди лояльные оратору. Немалое значение имеет и тембр голоса.

Речь оратора не должна быть монотонной. Фразы должны произноситься с разной интонацией. Они разделяются паузами. Существует гросспауза, она делается при смысловом переходе, для эмоционального эффекта, и для подчеркивания важности предыдущей или последующей фразы. В каждое слово речи необходимо вливать как можно больше силы и энергии.

Почти всегда при публичном выступлении оратору необходимо отстаивать свою точку зрения перед оппонентами. При этом надо не оправдываться, а обвинять; не объяснять, а декларировать; слышать оппонента так, как наиболее выгодно. Разгромленного оппонента необходимо дожимать на протяжении всей дискуссии. При опровержении чужой идеи нужно говорить кратко, не забывать об интонационной гамме. Свою идею нужно повторять как можно чаще для того, чтобы она отложилась в подсознании слушателей.

Распознавание речи нейросетью

Рассмотрим автономные самообучающиеся системы. Чем отличается работа, которую выполняют роботы и которую может выполнить человек? Роботы могут обладать качествами, намного превосходящими возможности людей: высокая точностью, сила, реакция, отсутствие усталости. Но вместе с тем они остаются просто инструментами в руках человека. Существует работа, которая может быть выполнена только человеком и которая не может быть выполнена роботами (или необходимо создавать неоправданно сложных роботов). Главное отличие человека от робота – это способность адаптироваться к изменению обстановки. Конечно, практически у всех роботов существует способность работать в нескольких режимах, обрабатывать исключительные ситуации, но все это изначально закладывается в него человеком. Таким образом, главный недостаток роботов – это отсутствие автономности (требуется контроль человека) и отсутствие адаптации к изменению условий (все возможные ситуации закладываются в него в процессе создания). В связи с этим актуальна проблема создания систем, обладающих такими свойствами.

Один из способов создать автономную систему с возможностью адаптации – это наделить её способностью обучаться. При этом в отличие от обычных роботов, создаваемых с заранее просчитанными свойствами, такие системы будут обладать некоторой долей универсальности.

Попытки создания таких систем предпринимались многими исследователями, в том числе и с использованием нейросетей. Один из примеров – созданный в Киевском Институте кибернетики еще в 70-х годах макет транспортного автономного интегрального робота (ТАИР) (см. [6]). Этот робот обучался находить дорогу на некоторой местности и затем мог использоваться как транспортное средство.

С целью изучения особенностей самообучающихся систем модели распознавания и синтеза речи были объединены в одну систему, что позволило наделить её некоторыми свойствами самообучающихся систем. Это объединение является одним из ключевых свойств создаваемой модели. Что послужило причиной этого объединения?

Во-первых, у системы присутствует возможность совершать действия (синтез) и анализировать их (распознавание), т.е. свойство (2). Во-вторых, присутствует свойство (1), так как при разработке в систему не закладывается никакая информация, и возможность распознавания и синтеза звуков речи – это результат обучения.

Преимуществом полученной модели является возможность автоматического обучения синтезу. Механизм этого обучения описывается далее.

Ещё одной очень важной особенностью является возможность перевода запоминаемых образов в новое параметрическое пространство с гораздо меньшей размерностью. Эта особенность на данный момент в разрабатываемой системе не реализована и на практике не проверена, но тем не менее я постараюсь кратко изложить её суть на примере распознавания речи.

Предположим, входной сигнал задается вектором первичных признаков в N-мерном пространстве. Для хранения такого сигнала необходимо N элементов. При этом на этапе разработки мы не знаем специфики сигнала или она настолько сложна, что учесть её затруднительно. Это приводит к тому, что представление сигнала, которое мы используем, избыточно. Далее предположим, что у нас есть возможность синтезировать такие же сигналы (т.е. синтезировать речь), но при этом синтезируемый сигнал является функцией вектора параметров в M-мерном пространстве, и M<

Самооценка

В реферате поверхностно рассмотрен всего один подход к распознаванию речи из большого количества существующих методов – нейросетевой. Возможно, это является недостатком данного доклада. Вместе с тем рассмотрены основные проблемы, возникающие при распознавании речи, ограничения на исходные данные, представление результата. Также в реферате кратко изложена риторика выступления при докладе и ведении дискуссии.

Заключение

В современных системах распознавания речи задача понимания смыла, чаще всего решается методом «снизу-вверх», т.е. сначала происходит распознавание речевых сегментов, а затем все распознанное поступает на семантический модуль. Как правило, сигнал на входе семантического блока представляет собой матрицу, составленную из векторов вероятности распознавания каждого сегмента потока речи, который соответствует при удачной сегментации какому-либо слову или словоформе. Дальнейшая работа семантического блока предполагает построение из этих векторов вероятности списка осмысленных предложений, ограниченных заданным порогом минимальной вероятности [7, 8]. Естественная речь зачастую аграмматична и практически сложно применить грамматику для построения высказывания, учитывая еще и то, что падежные окончания во флексивных языках чаще всего «заглатываются», т.е. не проговариваются достаточно четко. Поэтому используют другие разнообразные «улучшители» понимания как, например, учет предыстории, выявление контекста и падежно-ролевых отношений или использование различных статистически-вероятностных методов (частотности, ассоциативности и пр.). Как правило, на данном этапе используется обратная связь семантического модуля с модулем распознавания: список поиска вероятных слов при распознавании пополняется ассоциативной лексикой с последующим пересчетом векторов вероятности. Повторяя цикл можно достичь более высокий процент правильного понимания смысла.

Литература

  1. Большаков А. С. Менеджмент: Психология успеха. – СПб.: Издательский дом "Литера", 2002
  2. Ф. Уоссермен «Нейрокомпьютерная техника: Теория и практика». Перевод на русский язык Ю. А. Зуев, В. А. Точенов, 1992.
  3. Винцюк Т.К. «Анализ, распознавание и интерпретация речевых сигналов.» -Киев: Наук. думка, 1987. -262 с.
  4. Speech Analysis FAQ - http://svr-www.eng.cam.ac.uk/~ajr/SA95/SpeechAnalysis.html
  5. Л.В.Бондарко «Звуковой строй современного русского языка» -М.: Просвещение, 1997. –175 с.
  6. Э.М.Куссуль «Ассоциативные нейроподобные структуры» -Киев, Наукова думка, 1990
  7. Н.М. Амосов и др. «Нейрокомпьютеры и интеллектуальные роботы» -Киев: Наукова думка, 1991
  8. Г. Нуссбаумер «Быстрое преобразование Фурье и алгоритмы вычисления сверток». Перевод с англ. – М.: Радио и связь, 1985. –248 с.
  9. А.А. Ежов, С.А. Шумский “НЕЙРОКОМПЬЮТИНГ и его приложения в экономике”, - МИФИ, 1998