О СООТНОШЕНИИ ВОСПРИЯТИЯ И МЫШЛЕНИЯ В ЗАДАЧАХ ИСКУССТВЕННОГО ИНТЕЛЛЕКТА

2 Восприятие речи

В задаче распознавания устной речи (на фонемном уровне) адекватным был признан язык артикуляций, описывающий изменяющуюся во времени геометрию генератора речевых сигналов - артикуляционного аппарата человека. Действующая в настоящее время алфавитная модель речи предполагает последовательную генерацию всех элементов речи на всех уровнях (на уровне предложений, слов, слогов и фонем). Если относительно первых трех уровней такое представление не вызывает сомнений, то относительно фонемного уровня это, очевидно, не так. В настоящее время общепринято, что слово возникает в результате последовательной генерации фонем. При этом отмечается явление, называемое коартикуляцией - влияние последующих и предыдущих фонем на артикуляцию данной, а следовательно, на ее звучание. Однако этот эффект рассматривается как эффект второго порядка, да и само использование в этом определении терминов "последующий" и "предыдущий" подтверждает основополагающее значение гипотезы последовательной генерации фонем.

Более адекватной представляется модель параллельной генерации гласных и согласных фонем. Основные артикуляционные параметры, по которым различаются согласные, это место образования преграды (место артикуляции), звонкость, взрывность. Для гласных такими артикуляционными параметрами являются! положение языка (впреди-сзади), размеры фаринкса, огубление, т.е. параметры, определяющие резонансные объемы артикуляционного тракта. Примечательно, что это как раз те параметры, которые несущественны для артикуляции согласных. Первую группу артикуляционных параметров можно назвать согласными параметрами, вторую - гласными параметрами артикуляционного тракта.

Каждой гласной фонеме соответствует определенный набор гласных параметров. Обратное, естественно, неверно. В процессе речи параметры гласного канала могут принимать значения, не соответствующие фонемам нашего языка (например, при переходе от согласной к гласной). Но поскольку в процессе речи гласные параметры всегда принимают какие-нибудь значения, то можно сказать, что в речи всегда присутствует гласная.

В отличие от гласных согласные параметры определены только тогда, когда в артикуляционном тракте имеется щель (или смычка), что  позволяет разбить речь на интервалы, где отсутствуют щель или смычка, и существует, следовательно, только гласная артикуляция, и интервалы, где определены и гласная, и согласная. Таким образом, можно считать, что встречающиеся в речи согласные всегда произносятся на фоне какой-либо гласной, т.е. при каком-либо конкретном наборе гласных параметров. Это явление и есть параллельное фонетическое кодирование.

Трудность, вызываемая неадекватностью модели последовательной генерации фонем, возникала, возникает и будет возникать перед каждым ребенком, который овладел буквами и приступает к чтению слогов. У ребенка "м"+"а"   первоначально всегда звучит как "мэа", а вовсе не "ма", как нам (взрослым) хотелось бы. А проблема в том, что "м" и "а" произноситься должны не друг за другом, а одновременно, что произнося слог "ми" или "му" мы начинаем его с того, что растягиваем губы или вытягиваем их в трубочку в зависимости от гласной слога, а уж потом размыкаем губы, произнося "м".

Артикуляторный язык описания фонем является традиционным для фонетики. Такой язык можно назвать адекватным для представления речи на фонемном уровне, ибо удовлетворяются сформулированные выше основные требования.

  1. Описание объекта на этом языке является названием класса, к которому данный объект принадлежит. Например, "заднеязычный, взрывной, глухой" - это "к", "губной, глухой, взрывной" - это "п". При таком описании речевого сигнала отпадает необходимость в этапе распознавания.
  2. Этот язык является конструктивным, т.е. можно указать алгоритм определения артикуляционных параметров по речевому сигналу. Определение параметров звонкости (т.е. наличия основного тона) и взрывности (т.е. наличия скачка энергии сигнала) не создает принципиальных трудностей (хотя технически непросто). Наиболее сложный артикуляционный параметр - место артикуляции - можно определить по знакам изменения второй и третьей формант в переходной части слога. Эти изменения определяются также гласной, на фоне которой произносится данный согласный.
  3. Рассмотренная модель параллельного фонетического кодирования позволяет наметить путь построения программы для распознавания речи. На первом этапе проводится разделение речевого сигнала на гласные, согласные и переходные участки. Гласные участки интерпретируются как гласные фонемы. Переходные участки от согласного к гласному определяют место артикуляции согласного.   Параметр места определяется из спектрального состава сигнала на участке согласного (с учетом гласного, на фоне которого он произносится). На участке согласного Определяются звонкость и взрывность согласного. В скоплениях согласных и на концах слов согласный считается произнесенным на фоне нейтрального гласного.
  4. В настоящее время в распознавании речи принято считать мягкие согласные ("ть", "дь", "сь" и т.д.) отдельными фонемами, никак не связанными с соответствующими твердыми согласными ("т", "д", "с" и т.д.) что представляется неестественным, увеличивает число распознаваемых классов и тем затрудняет распознавание. Модель параллельного фонетического кодирования представляет мягкие согласные как соответствующие твердые согласные, произнесенные на фоне гласной "и". Тем самым разрешаются указанные трудности - устанавливается тесная связь между твердыми и мягкими фонемами, уменьшается число фонем, подлежащих распознаванию, и облегчается распознавание.
  5. В настоящее время не существует прямого определения фонемы. Трактуемая как бы абстрактная смыслоразличительная единица, фонема, неуловима в своем материальном воплощении - в речи встречаются лишь варианты фонем, зависящие от "окружения". Действительно, если рассматривать полное артикуляционное описание речевого тракта, то разнообразие каждой фонемы чрезвычайно велико, а соответственно велико и разнообразие спектральных картин. Если же описывать гласные и согласные фонемы лишь гласными или согласными параметрами соответственно, то неоднозначность описания одной и той же фонемы в разных положениях исчезает.
  6. Параллельная структура речевого потока находит свое отражение в грамматике языка. В группе семито-хамитских языков грамматический анализ слов приводит к расчленению слова на параллельные составляющие: одна составляющая - это последовательность согласных, другая - координированная с ней последовательность гласных. Последовательность согласных в этих языках составляет неизменную основу (корень) слова, а последовательность гласных определяет его грамматическую форму. Например, в египетском языке абстрактный корень Rtb ("писать") принимает формы Rataba ("пишет"), Ratib ("пишущий"), Ritab ("книга") и ряд других. Грамматический строй хамитосемитских языков ориентирован преимущественно на "согласный" канал, в то время как грамматика индоевропейских языков, опирающаяся на последовательное (слоговое) деление слова, дает преимущество гласному каналу, ибо гласный - основа слога.
  7. Таким образом, артикуляционный язык параллельного фонетического кодирования удовлетворяет сформулированным выше требованиям - конструктивность, беспереборность и широта - и поэтому может быть признан адекватным языком.