Загадки и Парадоксы Цифрового Звука
Спектр - видим почти то, что слышим.
В откликах, поступивших на адрес моей электронной почты после публикации в КТ N 31,32 темы "Цифра и Звук", довольно часто встречается просьба максимально просто, без математики объяснить, что такое спектр (график спектра сигнала), полученный с помощью БПФ (Быстрого Преобразования Фурье), и какая от него польза. И так, на графике спектра мы видим результат сравнения сигнала с набором синусоидальных колебаний с разными постепенно увеличивающимися на постоянную величину частотами (по оси X). Чем больше похож сигнал на синусоиду с данной образцовой частотой, тем больше величина пика на графике по оси Y. Таким образом, чисто синусоидальный сигнал должен иметь график спектра в виде одиночного пика. Так и есть на самом деле, но только если частота такого сигнала точно совпадает с частотой одной из образцовых синусоид. В противном случае сигнал в некотором смысле (корреляции) будет похож и на близ лежащие по частоте образцовые синусоиды и, следовательно, на графике спектра появятся дополнительные пики. Вот это уже можно назвать парадоксом. Сигнал, реально состоящий из одной синусоиды, представится нам как сумма нескольких синусоид. Этот парадокс характерен именно для БПФ спектров. Другими словами, если мы оцифруем, скажем, аналоговый синусоидальный сигнал частотой Fs на частоте F1 и F2, то БПФ спектры одной и той же синусоиды могут выглядеть по-разному. То есть цифровой БПФ спектр одного и того же сигнала может выглядеть по-разному. Не улучшает ситуацию популярный метод наложения "окна" или предварительного (до обработки БПФ) "взвешивания" (умножения) отсчетов на некоторые функции, обычно имеющие вид колокола. Этот метод приводит практически к полному абсурду, ведь после него "размывается" и расщепляется даже одиночный пик на графике БПФ (см. рис. 4). Кроме того, на рисунках. 3 и 4 видно значительное уменьшение амплитуды пиков по оси Y (на 4 и 9 дБ соответсвенно, относительно 0 дБ). При непродуманном использовании результатов БПФ это может привести к значительным ошибкам в измерениях.
Рис. 1. Синусоидальный сигнал.
Рис. 2. Спектр БПФ синусоидального сигнала в случае совпадения его частоты с одной из образцовых частот БПФ.
Рис. 3. Спектр БПФ синусоидального сигнала в случае не совпадения его частоты ни с одной из образцовых частот БПФ.
Рис. 4. Спектр БПФ синусоидального сигнала в случае совпадения его частоты с одной из образцовых частот БПФ и предварительной обработкой отсчетов методом наложения окна Blackman-Harris.
К счастью, существуют более точные методы вычисления спектров, широко применяемые в статистическом анализе временных рядов (анализ курса доллара и т.д.), свободные от описанного выше эффекта "расщепления", но зато имеющие другие недостатки.
Но даже с учетом выше перечисленных недостатков БПФ спектр позволяет наблюдать интересные явления. Например, весьма занимательно и информативно рассматривать, как изменяется график БПФ спектра некоторого сигнала во времени. На рис. 1 вы можете видеть такой график для сигнала скрипки.
Рис. 5. График БПФ звукового сигнала скрипки.
По оси Х - частота, по Y - время и в "третьем измерении" - амплитуда синусоид, из которых "по мнению" БПФ, состоит сигнал. Парадоксально, но столь сложный с точки зрения цифрового спектрального анализа по методу БПФ сигнал субъективно ощущается как монолитный, цельный и "простой
" звук определенной высоты (частоты).Человеческое ухо физиологически имеет около 20 тысяч резонаторов (это не совсем точно, специалисты по анатомии человека меня поправят, но для дальнейшего изложения их поправки не существенны), настроенных на разные частоты, покрывающие весь слышимый человеком диапазон от 10..20 гц до 20..25 Кгц. Если во входном звуковом сигнале содержится синусоидальное колебание с частотой близкой к частоте настройки одного из резонаторов, на выходе этого (резонатора) появится электрическое напряжение, пропорциональное мощности колебания, и по нервам поступит в мозг для дальнейшего анализа. Я уверен, что эффект "расщепления" или "размывания" спектра имеет место быть и в человеческом ухе. Синусоидальный сигнал возбуждает не только резонатор, точно настроенный на его частоту, но и несколько соседних. Однако при последующей обработке в мозге "расщепление" устраняется. Во всяком случае, синусоидальный сигнал мы всегда слышим как чистый простой тон. Таким образом, по крайней мере, на первом этапе функционирование нашего слуха весьма напоминает вычисление спектра с помощью ПФ. Видимо это и определяет популярность использования БПФ, спектрального анализа, графических эквалайзеров и индикаторов в звуковоспроизводящей и записывающей аппаратуре и в программном обеспечении персональных компьютеров, предназначенном для обработки звуковых файлов (см. CoolEdit, WaveLab, Sound Forge и др.). Однако человеческий слух обладает свойством маскирования в частотной области (и во временной тоже), подробно описанном в моей статье "Компрессия звуковых данных" (КТ N 32). Кроме того, человеческий слух менее чувствителен к самым низким и самым высоким частотам. Можно считать, что частоты ниже 10 Гц и выше 25 Кгц подавляющее большинство людей не слышит. В результате, на графике БПФ звукового сигнала некоторые частоты будут показаны, хотя реально они не будут слышны или будут значительно ослаблены.
Аналоговый звук против цифрового
Почти все читатели, откликнувшиеся на мои публикации, утверждают, что аналоговый звук отличается от цифрового. При современном уровне развития общедоступной звуковоспроизводящей аппаратуры большинство из них довольно легко отличают "живой" звук от цифровой записи с компакт диска. С другой стороны, преимущества аналоговых магнитофонов и проигрывателей виниловых пластинок очевидны далеко не для всех. Несколько читателей справедливо отмечают, что так называемые аналоговые ленточные магнитофоны по своей сути являются цифровыми устройствами. Дело в том, что число магнитных доменов, попадающих в зазор
звукоснимающей магнитной головки магнитофона, конечно. Читатели предполагают числа от 16000 до 100000 (точные данные неизвестны). Но в любом случае, это относительно небольшое число и уж точно это не бесконечность. А домены (в данном случае) имеют всего два устойчивых состояния намагниченности. Таким образом, магнитная головка, по сути, есть ЦАП с конечной разрядностью от 14 до 17 бит и высококачественным интерполирующим фильтром низкой частоты (его образует система магнитная головка-зазор-лента), возможно дополнительно увеличивающим разрядность до 18..19 бит и даже 20 бит. Из всего выше сказанного следует, что мы просто не можем слышать чисто аналоговых записей, так как ленточные магнитофоны применялись и при создании виниловых пластинок. А значит со старого доброго "винила" тоже идет цифровой звук! Поэтому когда утверждается, что "аналоговый" звук лучше цифрового, на самом деле утверждается, что одна цифровая система лучше другой!Найквист, Котельников, АЦП/ЦАП.
Многие читатели указывают на приоритет Котельникова в разработке теории дискретизации аналоговых сигналов, хотя детального сравнительного датологического обоснования никто дать не смог. Поэтому спор о приоритете Котельникова вряд ли можно считать законченным. Читатели, имеющие математическую подготовку на уровне четвертого курса матфака университета, могут детально ознакомится с теорией оценки точности восстановления аналогового сигнала, оцифрованного в соответствии с теоремой Котельникова-Найквиста, открыв "Справочник по теоретическим основам радиоэлектроники" (том 2 стр. 33, 34 и стр. 126, 127), раздел, посвященный вычислению ошибки интерполяции восстановленного по цифровым отсчетам сигнала (рекомендовано Варламовым Р.Г., профессором, д.т.н.). Из приведенных в этой книге формул следует, что при использовании реализуемых цифровых и аналоговых фильтров будет возникать ошибка интерполяции. Это одна из главных причин отличия цифрового и аналогового звучания. Разработчикам цифровой звуковоспроизводящей и записывающей аппаратуры разумно стремиться не к полному устранению этой ошибки (на практике это невозможно), а к уменьшению ее уровня до такой степени, чтобы она не влияла на субъективно воспринимаемое качество звука. Читатель
Сергей Подоляк указывает на типичные ошибки разработчиков современной цифровой Hi-Fi и Hi-End аппаратуры, приводящие к значительным дополнительным искажениям сигнала. Применение ЦАП с оверсэмплингом в современном конструктивном исполнении с предварительной фильтрацией частотных составляющих сигнала только выше 20 Кгц, но без фильтрации частотных составляющих ниже 20 гц приводит к возникновению специфических, неприятных на слух цифровых искажений. Сергей располагает убедительным математическим доказательством необходимости фильтрации сигнала, как по высоким, так и по низким частотам, которое, однако, сложно для восприятия даже подготовленным человеком (теорема Агеева). Далее я попробовал объяснить проблемы предварительной и восстанавливающей фильтрации и интерполяции без формул, в виде наглядных картинок. Интересно, что искажения формы сигнала возникают в АЦП до, собственно, дискретизации и квантования. Вследствие причин, подробно рассмотренных в моей статье об АЦП/ЦАП (КТ N 31), необходимо ограничить спектр входного аналогового сигнала с помощью фильтра низкой частоты. Такое ограничение приводит к существенному искажению формы "прямоугольного" сигнала, хотя синусоидальный сигнал проходит такой фильтр "почти" без искажения формы. "Почти" это то, что называется переходными процессами в фильтрах низкой частоты. Как видно на рисунках 5 и 6, искажения формы сигнала еще до самой оцифровки могут быть весьма значительными.