Sadaoki Furui Распознавание диктора

Распознавание диктора

(перевод статьи: Кулибаба О.В., язык русский)

Автор: Sadaoki Furui

Источник: http://www.scholarpedia.org/article/Speaker_recognition

Распознавание диктора – это процесс автоматического распознавания, кто говорит, использующий дикторо-специфическую информацию, включенную в речевые сигналы для определения личностей, на которые претендуют люди, имеющие доступ к системам; т.е он дает возможность контролировать доступ к различным услугам с помощью голоса (Furui, 1991, 1997, 2000). Применимые услуги включают речевой диалог, банковские услуги по телефонной сети, телефонные покупки, услуги доступа к базе данных, информационные и услуги бронирования, речевую почту, контроль безопасности для конфиденциальной информации, и удаленный доступ к компьютерам. Другое важное применение технологии распознавания дикторов в качестве инструмента судебно-медицинской экспертизы.

Принципы распознавания дикторов
Общие принципы и применение

Подлинность диктора связана с физиологическими и поведенческими характеристиками системы производства речи конкретного диктора. Эти характеристики извлекаются из огибающей спектра (характеристики речевого тракта) и выше-сегментных признаков (характеристики голосового источника) речи. Обычно используют краткосрочные спектральные измерения кепстральных коэффициентов и их регрессионные коэффициенты. В качестве регрессионных коэффициентов, обычно, использую коэффициенты первого и второго порядков, т.е производные временных функций кепстральных коэффициентов, извлеченные с каждого периода кадра, представляющие спектральную активность. Эти коэффициенты регрессии соответственно называются дельта кепстральные и дельта-дельта кепстральные коэффициенты.

Идентификация и верификация дикторов

Распознавание дикторов может быть разделено на идентификацию и верификацию диктора. Идентификация диктора – это процесс определения, кто из зарегистрированных дикторов произнес фразу. Верификация диктора – это процесс принятия или отклонения заявленной личности диктора. Большинство приложений, в которых используется голос подтверждают личность диктором, классифицируемым верификацией диктора.

В задаче идентификации диктора речевое высказывание неизвестного диктора анализируется и сравнивается с речевыми моделями известных дикторов. Неизвестный диктор идентифицируется как диктор, чья модель наиболее соответствует входному высказыванию. В верификации диктора, неизвестный диктор заявляет о своей подлинности, и высказывание этого неизвестного диктора сравнивается с моделью диктора, чью подлинность он заявил. Если соответствие достаточно хорошее, т.е выше порога, заявленная личность подтверждается. Высокое значение порога создает трудности для самозванцев быть принятыми системой, но с большим риском ложного отклонения правомерных пользователей. Наоборот, низкое значение порога дает возможность правомерным пользователям быть однозначно принятыми, но с большим риском принятия самозванцев. Необходимо устанавливать порог на желаемый уровень клиентского отказа (ложный отказ) и принятия самозванца (ложный допуск), данные показывают распределение клиентов и самозванцев.

Основное различие между идентификацией и верификацией – это количество альтернативных решений. В идентификации количество альтернативных решений равно размеру популяции, тогда как в верификации только два выбора: принятие или отклонение, несмотря на размер популяции. Поэтому, эффективность идентификации диктора уменьшается при увеличении размера популяции, тогда как эффективность верификации диктора приближается к постоянной, независимо от размера популяции, но распределение физических характеристик крайне важно.

Существует также случай, называемый «открытый выбор» идентификации, в котором относительной модели для неизвестного диктора может не существовать. В этом случае необходимо дополнительное альтернативное решение «неизвестный не соответствует ни одной модели». Верификация может быть рассмотрена частным случаем «открытого выбора» метода идентификации, в котором известен размер популяции равный 1. В верификации или идентификации дополнительный тестовый порог может быть применен для определения близко ли соответствует принятое решения, если нет, то запрашивается новое испытание.

Эффективность систем верификации диктора может быть оценена с помощью ROC кривой, принятой от психифизики. Кривая ROC получена путем определения двух вероятностей: вероятности правильного признания (процент ложного отклонения) и вероятности неправильного признания (процент ложного признания), по вертикальной и горизонтальной осям соответственно, и различные значения порога принятия решений. Также используется компромисс обнаружения ошибки кривой, в котором проценты ложного отклонения и ложного признания определены на вертикальной и горизонтальной осях соответственно. Кривая погрешности как правило наносится на нормальное отклонение масштаба.

Равный уровень ошибок (ERR) является общепринятой мерой эффективности системы. Это соответствует порогу, в котором процент ложного признания равен проценту ложного отклонения.

Тексто-зависимые, тексто-независимые и тексто-подсказочные методы

Методы распознавания диктора часто делят на тексто-зависимые (фиксированные пароли) и тексто-независимые (без специальных паролей) методы. Первые требуют от диктора предоставления ключевых слов или предложений, один и тот же текст будет использован и для обучения, и для распознавания, тогда как последние не зависят от произнесения конкретного текста. Тексто-зависимые методы обычно основаны на шаблона/модели последовательности соответствующих методов, в которых временная ось входящего речевого образца и связанных шаблонов или моделей записанных дикторов выровнена, и схожесть между ними накапливается с самого начала к концу высказывания. Так как этот метод может напрямую использовать голос личности, связанный с каждой фонемой или слогом, то он обычно достигает наибольшей эффективности распознавания, чем тексто-независимый метод.

Существуют различные применения, такие как судебно-экспертная экспертиза и наблюдение, в которых заранее заданные слова не могут быть изменены. Кроме того, человек может распознать дикторов, независимо от их содержания высказывания. Поэтому, тексто-независимые методы привлекают большее внимание. Другое достоинство тексто-независимого распознавания это то, что оно может быть сделано последовательно, пока не будет достигнуто желаемое значение, без неприятного повторения слов диктором снова и снова.

Тексто-зависимые и тексто-независимые методы имеют серьйозные недостатки. Это то, что эти системы безопасности можно легко обойти, потому что кто-то может воспроизводить записанный голос зарегистрированного диктором выражения ключевых слов или предложений в микрофон и быть принятым как зарегистрированный пользователь. Другая проблема – это то что людям часто не нравятся тексто-зависимые системы, потому что им не нравится их идентификационный номер, такой как номер социального страхования при прослушивании других людей. Для того, чтобы справиться с этими проблемами, некоторые методы используют маленькое множество слов, таких как цифры в качестве ключевых слов, и каждому пользователю будет предложено произнести последовательность ключевых слов, которые система случайно каждый раз выбирает. Однако даже этот метод не является достаточно надежным, так как он может быть взломан современными устройствами звукозаписи, которые могут произвести ключевые слова в заданном порядке. Поэтому был предложен тексто-подсказочный метод распознавания диктора, в котором парольные предложения полностью заменяются через некоторое время.

Тексто-зависимые методы распознавания дикторов

Тексто-зависимые методы распознавания дикторов делятся на методы DTW (динамическое искажение времени) и HMM (скрытые марковские модели).

DTW-базированные методы

При таком подходе каждое высказывание представляется каждое высказывание представляется последовательностью вектора признаков, обычно, краткосрочным спектральным вектором признаков, и временное изменение от испытания к испытанию высказывания некоторого текста выравнивается вектором признаков предложения обучающего высказывания к шаблону последовательности вектора признаков, используя DTW алгоритм. Общее расстояние между тестовым высказыванием и шаблоном используется для распознавания решения. При использовании нескольких шаблонов, используемых для представления спектрального изменения, расстояние между тестовым высказыванием и шаблонами усредняется, а затем используется для принятия решения. DTW подход имеет проблемы моделирования статистических изменений в спектральных признаках.

HMM-базированные методы

HMM может эффективно моделировать статистические изменения в спектральных признаках. Поэтому HMM-базированные методы достигают намного большей точности распознавания, чем DTW-базированные методы.