Часто задаваемые вопросы по темам:
индентификация
фильтрация
шумоочистка речевого сигнала
http://www.ot-kontakt.webzone.ru
Идентификация
1. В: Где применяется или может применяться идентификация личности по голосу?
О: Голос, как и другие биометрические характеристики, может применяться для идентификации пользователя в системах разграничения доступа. Кроме того, голос незаменим как биометрическая характеристика в системах использующих телефонный канал для сообщения конфиденциальной информации, например, о состоянии лицевого счета в банковских системах. Кроме этого идентификация диктора по голосу и речи широко применяется в разных странах в криминалистике, тем самым, расширяя возможную доказательную базу.
2. В: Часто можно слышать термины "идентификация" и "верификация". Какая между ними разница?
О: Верификация - процесс установления принадлежности неизвестного речевого образца и речевого эталона одному и тому же голосу. Иными словами: "Произнесены ли образец и эталон одним и тем же человеком"? Идентификация - процесс установления кому из ограниченной группы лиц принадлежит голос. Иными словами: "На чей эталон из группы голосов дикторов наиболее похож исследуемый образец"? Следует отметить, что в отличие от верификации, идентификация не решает вопрос о принадлежности образца и эталона одному и тому же голосу, а лишь находит самый похожий голос. Но существует также понятие "открытой идентификации", которое означает - процесс установления наиболее похожего из группы дикторов и после этого решения задачи верификации, либо процесс многократной верификации по каждому из группы дикторов.
3. В: Люди подчас ошибаются, не узнавая по голосу знакомых, либо ошибочно принимая чужой голос за голос знакомого человека. Возможно ли в принципе определить принадлежность речи определенному лицу?
О: Да возможно. Голос содержит достаточно индивидуализирующей информации, чтобы проводить идентификацию. Прецизионных результатов идентификации в самых разнообразных условиях на сегодняшний момент можно добиться только путем проведения экспертного человеко-машинного исследования. Автоматические системы тоже применимы, но с некоторыми ограничениями это касается, например, длительности отрезка речи в тексто-независимых системах или фиксации фразы в тексто-зависимых системах.
4. В: Пародисты довольно хорошо имитируют голоса известных людей. Может ли система или человек-эксперт с помощью компьютера отделить голос имитатора от голоса, имитируемого им человека?
О: Пародисты имитируют тембровые характеристики и манеру речи (характерные речевые обороты, слова, речевые ошибки и т.п.) известных людей. С другой стороны слушатели, как правило, хотят слышать в речи пародистов знакомый тембр голоса и характерные словечки, поскольку это одно из неосознаваемых условий этого жанра. Пародисты не могут имитировать голос произвольного человека, к тому же не имеющего "особых примет", заключающихся в необычном звучании и особенном речевом поведении. Проведенные эксперименты показывают, что при имитации (сознательном изменении своего голоса) в голосе имитатора сохраняется множество собственных индивидуальных характеристик.
5. В: Зачем нужно рабочее место эксперта для проведения идентификации с участием человека, если существуют системы автоматической идентификации личности?
О: Системы автоматической идентификации работают на ограниченном круге голосов. Кроме того, для успешного функционирования автоматических систем необходимо выполнение еще ряда условий, которые не всегда выполняются. Не все условия могут фиксироваться автоматически. При сравнении двух голосов длительности участков речи сопоставимых для сравнительного исследования может быть недостаточно, что тоже пока невозможно определять автоматическим путем (например, речь в состоянии опьянения и т. п.). Автоматические системы применяются также в тех случаях, когда человек либо не подозревает, что он является участником задачи идентификации, либо "сотрудничает" с системой, стараясь произносить заданную фразу "как обычно", также как при повторении своей подписи на бумажном документе. В криминалистике ситуация часто совсем другая. "Подозреваемое" лицо не всегда "сотрудничает" и иногда сознательно меняет голос. В этих условиях также важно понимать, что критерий ошибки криминалиста должен быть значительно жестче, чем ошибки, допускаемые современными автоматическими системами.
6. В: Существуют технические средства изменения звучания голоса. При этом мужской голос может звучать как женский или детский, а детский как мужской и т.д. Какова возможность идентификации личности в таких условиях?
О: Технические системы изменения голоса существуют уже с десяток лет. Выпускаются как отдельные микросхемы, так и телефонные аппараты с функцией изменения голоса. Функция изменения голоса является атрибутом многих звуковых редакторов, например CoolEdit. Стандартная функция изменения тона входит в состав мультимедийной библиотеки программной среды Windows. Здесь важно определить сам факт изменения голоса. По мнению авторов много уголовных дел, связанных с анонимными угрозами, ушли в разряд нераскрытых из-за того, что факт изменения голоса в этих случаях не был установлен. А не установлен он был по простой причине. Оперативные службы, не имея информации об упомянутых системах и не подозревая о возможности технического изменения голоса, сочли эти голоса, как принадлежащие не установленным лицам. Если факт изменения установлен, необходимо определить алгоритм изменения и его параметры, после чего восстановить исходный голос. Таким образом, техническая возможность идентификации в условиях применения алгоритмов изменения голоса существует. Но не нужно забывать и о юридической стороне. Примет ли суд в качестве доказательства фонограмму, на которой зафиксирован измененный техническими средствами голос?
7. В: Голос человека изменяется с годами. Какова в таком случае ситуация с возможностью идентификации по голосу?
О: В криминалистике время между двумя моментами фиксации некоторого признака называется "идентификационным периодом". Предполагается, что на идентификационном периоде идентификационные признаки не изменяются. С годами меняются свойства голосовых связок. Известна "ломка голоса" у подростков, к старости часто тембр голоса меняется в связи с износом голосовых связок, заболеваниями горла и т.п. Человек может потерять (удалить) ряд зубов, влияющих на его произношение, может протезировать зубы и т.п. В то же время навыки движения артикуляторных органов в основном сохраняются. Ответ на данный вопрос требует дополнительных исследований по представительным речевым БД. Хотя результаты, полученные при изучении единичных случаев, где "идентификационный период" превышал 20 лет, свидетельствовали о сохранении артикуляционных навыков.
8. В: Меняется ли в настоящее время ситуация в области идентификации личности по голосу в связи с ростом вычислительной мощности используемых компьютеров?
О: Современные вычислительные средства позволяют одновременно отображать на экране различные виды представления речевого сигнала, их локальные, темповые, интегральные и статистические характеристики, проводить накопление и автоматический анализ накопленных явлений. Это в свою очередь также может отображаться в интерпретируемом виде. Самые сложные и громоздкие алгоритмы шумоочистки могут выполняться в реальном времени. Все это расширяет возможности человека-эксперта при принятии решения, а также позволяет в ряде случаев использовать автоматические средства идентификации на больших (до 1000 голосов) фонотеках.
9. В: Какие признаки являются наиболее информативными при описании индивидуальных особенностей голоса?
О: Используемые в процессе идентификации признаки имеют различный идентификационный вес. Ряд признаков, такие как средний основной тон, средний спектр, могут использоваться для отнесения исследуемого голоса к определенной группе голосов. Другие признаки, такие как динамические характеристики формантных траекторий, отражающие динамические характеристики артикуляторных органов и динамические характеристики основного тона, отражающие интонационные особенности голоса, а также особенности речевого поведения имеют высокую идентификационную значимость. Кроме того, информативность признака индивидуальна для диктора и зависит от принимаемого значения.
10. В: Есть что-нибудь общее между задачами идентификации личности по голосу и определения автора по тексту?
О: Определение характеристик речевого поведения (построение фраз, поведение в диалоге, монологе, повествовательных, вопросительных, реактивных, побудительных и т.п. высказываниях) напрямую связано с задачей определения автора текста. Обе задачи направлены на решение поиска автора, пересекаются по ряду признаков, дополняя друг друга.
11. В: Каким образом тестировалась автоматическая система оперативной идентификации?
О: Система тестировалась на базе данных заказчика (100 голосов, частота дискретизации 8000Гц, отношение сигнал/шум в пределах 5 - 15 дБ).
12. В: Чем системы идентификации, описанные в данной публикации, отличаются от систем других разработчиков?
О: Экспертная система:
- позволяет эксперту наблюдать одновременно большее число отображений сигнала и вычисляемых по сигналу или фрагменту характеристик;
- позволяет одновременно анализировать текст и любое из стандартных представлений сигнала;
- позволяет производить в двух текстах поиск одинаковых слов или близких артикуляционных событий для быстрого сравнительного анализа соответствующих звучащих фрагментов;
- содержит эффективные средства вычисления, коррекции и представления основного тона голоса;
- содержит удобный интерфейс, автоматизирующий все этапы работы эксперта, начиная от вычисления характеристик и заканчивая переносом результатов измерений в текст Заключения эксперта. Автоматическая оперативная система:
- Большой объем фонотеки до 1000 голосов,
- точность поиска ближайшего (если он существует) более 98%,
- точность верификации свыше 93%, время создания эталона по файлу фонотеки составляет 200-300 мс (PC Athlon 1200),
- время, затраченное на идентификацию на библиотеке в 100 голосов, составляет 1500-1800 мс,
- размер эталона одного голоса составляет 24 кБ.
13. В: Можно ли рабочее место эксперта использовать не для идентификации личности по голосу, а для идентификации звуков животного, технического устройства, автомобиля и т.п.?
О: Рабочее место эксперта предназначено для исследования любых акустических сигналов, в том числе для идентификации звуков животных, механизмов и т.п. Одной из задач, решаемых экспертом, исследующим фонограмму, является задача определения акустических условий, в которых фиксировался разговор между людьми. Здесь могут быть акустические характеристики помещения, если разговор происходил в помещении, характеристики сопутствующих разговору шумов и их источников и т.п.
14. В: Когда впервые была проведена идентификация по голосу и когда человек впервые попытался изменить свой голос?
О: Фольклор доносит до нас детскую сказку "Волк и семеро козлят", где описывается попытка слуховой идентификации. Попытка, как известно, оказалась неудачной, поскольку голос был изменен. Известно также, что в древнем Египте жрецы в храмах использовали специальные акустические приспособления для имитации "голоса богов".
Фильтрация сигнала
15. В:Чем нужно руководствоваться при выборе типа фильтра?
О.:Если "целевая" АЧХ не принадлежит к стандартному типу частотно-селективных АЧХ, то следует выбрать КИХ-фильтр типа 2 или 3. При этом, если фильтрация должна контролироваться в полном частотном диапазоне, т.е. от 0 до частоты Найквиста, то следует выбрать фильтр типа 2. Если же требования к фильтрации формулируются для набора отдельных непересекающихся частотных диапазонов, и допускается определенная степень произвола в промежутках между этими диапазонами, то следует использовать фильтр типа 3. Если "целевая" АЧХ принадлежит к одному из четырех стандартных типов (низкочастотный, высокочастотный, полосовой, режекторный фильтры), то следует использовать КИХ-фильтр типа 1 либо один из трех БИХ-фильтров (типа 4, 5, 6). При выборе конкретного типа фильтра необходимо учитывать следующие обстоятельства:
- любой из БИХ-фильтров существенно лучше приближает "целевую" АЧХ, чем КИХ-фильтр того же порядка. Однако ФЧХ БИХ-фильтра является нелинейной, что, в принципе, может являться источником нежелательных искажений сигнала при его фильтрации;
- фильтр Баттерворта обладает монотонной АЧХ в отличие от фильтров Чебышева. Колебания АЧХ фильтра Чебышева могут попасть "в резонанс" с пиками амплитудного спектра сигнала, вызывая нежелательные искажения. Указанного резонанса можно избежать путем изменения порядка фильтра, однако, для этого необходимо иметь априорную информацию о положении пиков амплитудного спектра сигнала.
- фильтры Чебышева являются регулируемыми в отличие от фильтра Баттерворта. Ширина переходных областей (в зонах разрыва "целевой" АЧХ) и амплитуда "волнистости" АЧХ могут регулироваться параметром "волнистости". При этом уменьшение амплитуды "волнистости" приводит к увеличению ширины переходных областей и наоборот. Как правило, ширина переходных областей АЧХ фильтра Чебышева (при допустимой амплитуде "волнистости") меньше ширины переходных областей фильтра Баттерворта того же порядка.
16. В.: Какой тип окна выбрать при использовании фильтров 1, 2?
О.:Оконное взвешивание коэффициентов БИХ-фильтра применяется для уменьшения "выбросов" АЧХ в окрестности разрывов "целевой" АЧХ. При этом любое оконное взвешивание (кроме взвешивания прямоугольным окном), уменьшая амплитуду "выбросов", приводит к увеличению ширины переходной области. Баланс этих двух явления зависит от типа окна. Если "целевая" АЧХ является достаточно гладкой (при использовании фильтра 2), то следует отказаться от оконного взвешивания, что эквивалентно выбору прямоугольного окна. Если же "целевая" АЧХ имеет разрывы или участки резких переходов, то имеет смысл сначала воспользоваться одним из нерегулируемых окон (Ханна, Хемминга, Бартлетта-Ханна, Блэкмана, Блэкмана-Харриса). Если результат оказался неудовлетворительным с точки зрения соотношения "амплитуда выброса - ширина переходной области", то следует попытаться улучшить это соотношение путем использования регулируемых окон Гаусса или Кайзера с настройкой соответствующих параметров этих окон.
17. В.: Какой подход к оценке спектра мощности шума "лучше"?
О.: Естественно, подход, основанный на использовании сегментов типа "Пауза" позволяет получить более точную оценку спектра мощности шума. Однако этот подход может использоваться только при выполнении следующих двух условий:
- в речевом материале должны физически присутствовать сегменты типа "Пауза", имеющие достаточную длительность (для получения усредненных оценок спектра мощности) и частоту следования (для отслеживания изменения характеристик шума);
- пользователь должен иметь возможность выделения этих сегментов (в "ручном", автоматическом или "смешанном" режиме). Если хотя бы одно из этих условий нарушено, то следует использовать второй подход, основанный на построении нижних огибающих полосовых спектров мощности зашумленного сигнала.
Шумоочистка
18. В.: Какой из алгоритмов шумоочистки дает лучшие результаты?
О.: Каждый алгоритм обладает свойствами, которые при одних условиях могут рассматриваться, как его достоинства, а при других - как его недостатки. Алгоритм, основанный на оценке амплитуды незашумленного сигнала по критерию минимальной среднеквадратичной ошибки является наименее "регулируемым" и в то же время стабильно дает весьма высокое качество шумоочистки. В условиях оперативной шумоочистки это является его достоинством. Однако если пользователь захочет улучшить соотношение "разборчивость-качество" в очищенном сигнале путем настройки единственного параметра этого алгоритма, то в большинстве случаев это оказывается невозможным. В отличие от этого алгоритма, алгоритм спектрального вычитания предоставляет широкие возможности по регулировке соотношения "разборчивость-качество" в очищенном сигнале, поскольку предоставляет в распоряжение пользователя три параметра, позволяющие плавно регулировать качество шумоочистки. Однако процесс поиска оптимального сочетания этих параметров может потребовать значительных усилий со стороны пользователя. Алгоритм, основанный на оценке амплитуды незашумленного сигнала по критерию максимального правдоподобия, является промежуточным с точки зрения регулируемости качества шумоочистки.
19. В: Какое дальнейшее развитие комплекса "Шумоочистки речевого сигнала"?
О: Развитие комплекса направлено на разработку дополнительных возможностей. Основные из них - графический редактор шумоочистки речевого сигнала и ряд автоматических алгоритмов, которые позволят осуществлять шумоочистку в реальном режиме времени. Кроме того, будет разработан удобный интерфейс, позволяющий сравнить "очищенный" речевой сигнал с исходным, как в различных отображениях на экране, так и на слух.
|