ЗВУКОВЫЕ ФАЙЛЫ
Мир звуков окружает человека постоянно. Мы слышим шум прибоя, шелест листвы, грохот водопадов, пение птиц, крики зверей, голоса людей. Все это - звуки нашего мира, мира Земли. И, конечно, музыка. Что такое музыка, по большому счету, не знает никто. Конечно, в энциклопедиях и словарях можно найти определения, но они - лишь попытка объяснить то, что, скорее всего, лежит вне сферы нашего понимания. Мы попытаемся уловить и зафиксировать некие важные черты явления, дать определение, и думаем, что проникли в сущность вещи. В большинстве случаев это неплохо срабатывает. Но есть явления, столь многогранные, что не могут уместиться в ложе простых понятий. Музыка из их числа.
Мир оцифрованных звуков - следующий элемент Мира Информации, с которым мы начинаем свое знакомство. История этого элемента столь же древняя, как и предыдущих, уже рассмотренных нами. Первоначально человек создал устройства, с помощью которых он пытался воспроизвести природные звуки для своих практических целей, в частности для охоты. Потом звуки в его голове стали складываться в некую последовательность, которую хотелось сохранить. Появились музыкальные инструменты, и они сопровождали человека в горе и в радости. И постепенно шел процесс формирования языка, на котором можно было бы записывать и тем самым на долго сохранить рожденные мелодии.
Первые попытки разработки такого "музыкального алфавита" были предприняты еще в Древнем Египте и Месопотамии. А в том виде, в каком мы знаем ее сейчас, в виде нотной записи, система фиксации музыки сложилась к XVII веку. Ее основы были заложены Гвидо д'Ареццо.
На протяжении веков человечество не оставляло попыток связать музыку и математику, "поверить гармонией чисел гармонию небесных сфер". Развитие вычислительной техники дало этому процессу новый импульс. Одновременно шло и совершенствование систем записи и хранения звука. Человек научился сохранять и воспроизводить не только музыку, но и любые окружающие звуки. Мир звуков постепенно соединялся с цифровым миром.
Как подчеркивают специалисты, звук является наиболее выразительным элементом мультимедиа. Пришла пора и нам окунуться в мир цифровых звуков.
Звук, как и многие другие физические явления, с которыми мы сталкиваемся в повседневной жизни, имеет волновую природу. Звуковые волны могут, распространятся в любой сжимаемой среде - газах, жидкостях или твердых телах. На практике чаще всего приходится дело иметь со звуковыми волнами, распространяющимися в атмосфере.
Звуковая волна распространяется с конечной скоростью. В момент прохождения звуковой волны через элементарный объем воздуха все частицы начинают совершать продольные колебания относительно некоторого положения равновесия. Частицы воздуха, лежащие на линии распространения звука, будут приходить в движение по очереди, по мере распространения волны. Вместе с частицами воздуха в каждом элементарном объеме происходят колебания избыточного давления, называемого звуковым давлением, в результате чего давление периодически становится то больше, то меньше исходного, которое было при отсутствии звука. Величина звукового давления ничтожна по сравнению с атмосферным и зависит от скорости колебания частиц и от свойств атмосферы.
Таким образом, звуковая волна - это процесс распространения в атмосфере объемных деформаций сжатия - разрежения.
Одним из важнейших параметров звуковой волны является ее частота - величина, обратная периоду колебания. Частоту звука принято измерять в герцах (Гц) или килогерцах (1 КГц = 1000 Гц). Например, если частота звука равна 20 Гц, это означает, что в течение 1 с происходит 20 полных колебаний. С частотой колебаний неразрывно связана длина волны - расстояние, которое волна успевает пройти за время одного периода колебаний (длина волны = скорость звука / период). Очевидно, что с увеличением частоты длина волны уменьшается: чем меньше период колебания, тем меньше расстояние проходит волна.
Многолетние исследования доказывают, что чувствительность нашего слуха существенно зависит от частоты звука. Частотный диапазон звуков, которые способен услышать человек, достаточно велик. Считается, что нижняя граница частоты слышимых звуков составляет 16 - 20 Гц, верхняя - 18 - 20 КГц. Волны с частотами, лежащими ниже частотного диапазона, воспринимаемого человеком, называются инфразвуковыми, а лежащими выше - ультразвуковыми. Ни инфразвуки, ни ультразвуки человеческое ухо не воспринимает.
Звуковой волной простейшей формы является, например, чистый звуковой тон определенной частоты. Однако распространяющиеся в воздухе звуковые волны обычно имеют более сложную форму, особенно если частицы воздуха подвергаются одновременному воздействию нескольких волн, которые, к тому же, распространяются в различных направлениях. В этом случае наблюдается явление интерференции - сложение волн. При сложении волн с разными частотами и амплитудами, даже если эти волны синусоидальные, результирующая волна может иметь более сложный вид.
Оцифровка аналогового сигнала
Общие положения
Фразу "передача и запись звука" вам, наверное, приходилось слышать не раз, но вряд ли вы задумывались над тем, что она не совсем точно соответствует действительности.
Пожалуй, единственным устройством, в котором запись звука осуществлялась в буквальном смысле, был фонограф Эдисона. Во всех остальных случаях, когда речь заходит о "записи звука", фактически записывается или передается не сам звук, а информация о том, какими были колебания воздуха в момент записи.
В настоящее время для записи и передачи информации о звуке используются два принципиально различных способа - аналоговый и цифровой.
В первом случае изменениям звукового давления соответствуют пропорциональные изменения другой физической величины, например, электрического напряжения. В этом случае изменения электрического напряжения являются новым "носителем" информация о звуке.
Такой способ сохранения звуковой информации является аналоговым, и еще совсем недавно в звукозаписи и радиовещании он был единственным. В аналоговой электронике важно, чтобы изменение напряжения точно соответствовало изменению звукового давления. Напомним, что амплитуда звуковой волны определяет громкость звука, а ее частота - высоту звукового тона, следовательно, для достоверного сохранения звуковой информации амплитуда электрического напряжения должна быть пропорционально амплитуде звуковых колебаний. Частота напряжения, в свою очередь, должна соответствовать частоте звуковых колебаний.
Таким образом, нетрудно заметить, что форма электрического сигнала является полной копией формы звукового колебания и несет практически полную информацию о звуке. Преобразовать звуковые колебания в колебания электрического напряжения можно с помощью обычного микрофона.
Изменению электрического напряжения можно поставить в соответствии изменение магнитного поля ленты в магнитофоне или звукового потока от звуковой дорожки кинопленки при оптической записи. Но каким бы ни был новый "носитель" информации, изменение его свойств всегда должно быть пропорционально изменению давления воздуха в исходной звуковой волне.
Второй способ получения информации о звуке предполагает измерение значения давления в звуковой волне. Возникающая при этом последовательность чисел - цифровой сигнал - есть не что иное, как новое выражение исходных звуковых колебаний. Естественно, чтобы правильно передать форму сигнала, эти измерения надо проводить достаточно часто - не менее нескольких раз за период самой высокочастотной составляющей звукового сигнала.
Цифровая система записи (передачи) звука в самом общем виде состоит из цифрового микрофона (измерители звукового давления), цифрового магнитофона или передатчика (для записи или передачи большого массива чисел) и цифрового громкоговорителя (преобразователя последовательности чисел и изменение звукового давления). В реальных цифровых системах записи (передачи) звука пока используют аналоговые электроакустические преобразователи - микрофоны и громкоговорители (динамики), а цифровой обработке подвергают электрические сигналы звуковой частоты.
В общем случае цифровые сигналы представляют собой импульсы прямоугольной формы, которые с помощью логических элементов включают и выключают в электрической схеме различные цепи. В отличие от аналоговой электроники, оперирующей формой и напряжением сигнала, цифровая электроника использует двоичные сигналы - сигналы с дискретными уровнями напряжения, соответствующими "0" и "1".
К амплитуде импульса (уровню напряжения) цифрового сигнала обычно не предъявляется жестких требований при условии, что напряжение надежно перекрывает уровни "0" и "1", которые обычно находятся в диапазоне от 0 до +5 В. Например, за уровень сигнала, соответствующий "1", может быть принято напряжение в интервале от 2,4 до 5,2 В, а за уровень "0" - напряжение в интервале от 0 до 0,8 В.
Для подсчета двоичных сигналов наиболее удобно пользоваться двоичной системой счисления, которая также оперирует только двумя цифрами - 0 и 1. В любой системе счисления, в том случае и двоичной, важное место занимает понятие разряда. Разряд представляет собой степень (число), в которую возводится основание системы счисления. Номера разрядов в числе отсчитываются справа налево, а нумерация начинается с нуля.
Наибольшее число, которое может быть записано в двоичной системе счисления (впрочем, как и в любой другой), зависит от количества используемых разрядов. Так, при использовании одного разряда можно записывать лишь два числа 0 и 1. Если использовать 2 разряда, можно записывать числа в интервале от 0 до 3. В случае если используется 8 разрядов, можно оперировать числами от 0 до 255, а при 16 разрядах диапазон возможных значений числа будет иметь границы от 0 до 65 535.
Преобразование аналогового сигнала в цифровой практически в любой системе практической записи звука протекает в несколько этапов. Сначала аналоговый звуковой сигнал падает на аналоговый фильтр, который ограничивает полосу частот сигнала и устраняет помехи и шумы сигнала. Затем из аналогового сигнала с помощью схемы выборки/хранения выделяются отсчеты: с определенной периодичностью осуществляется запоминание мгновенного уровня аналогового сигнала. Далее отсчеты поступают в аналого-цифровой преобразователь (АЦП), который преобразует мгновенное значение каждого отсчета в цифровой код, или числа. Полученная последовательность бит цифрового кода, собственно, и является звуковым сигналом в цифровой форме. Таким образом, в результате преобразования непрерывный аналоговый звуковой сигнал превращается в цифровой - дискретный по времени и величине.
Дискретизация
Важнейшим этапом аналого-цифрового преобразования является дискретизация аналогового сигнала. Вместо термина "дискретизация" в технической литературе иногда употребляют термин "выборка".
По определению, дискретизация - это процесс взятия отсчетов непрерывного во времени сигнала в равноотстоящих (эквидистантных) друг от друга во времени точках. Иными словами, в процессе дискретизации измеряется и запоминается уровень аналогового сигнала. Через данный интервал времени, который называется интервалом дискретизации, процедура повторяется. Для качественного преобразования аналогового сигнала в цифровой необходимо производить достаточно большое количество отсчетов даже в течение одного периода изменения аналогового сигнала, другими словами, значение частоты дискретизации не может быть произвольным.
И действительно, значение частоты дискретизации фактически определяет ширину полосы частот сигнала, который может быть записан с помощью используемой цифровой системы. Ширина этой полосы не может быть больше половины значения частоты дискретизации, как определяет теорема отсчетов (Котельникова-Шеннона-Найквиста). Эта теорема имеет важнейшее значение в технике записи и передачи сигнала в цифровой форме. Теорема гласит: сигнал, спектр частот которого занимает область от fmin до fmax, может быть полностью представлен своими дискретными отсчетами с интервалом Тд, если Тд не превышает 1/(2fmax). Другими словами, частота дискретизации fд=1/Тд в процессе преобразования должна быть, как минимум, вдвое больше наивысшей частоты звукового сигнала fmax.
Если учесть, что человек способен слышать звуковые колебания, частота которых находится в диапазоне от 17 - 20 Гц до 20 КГц, и с позиций теоремы отсчетов взглянуть на требования к частотным характеристикам высококачественной аудиотехники (например, проигрывателей аудио компакт-дисков), становится ясно, что максимальная частота дискретизации исходного звукового сигнала должна составлять не менее 40 КГц. Реально для подобных систем частота дискретизации составляет не менее 44,1 КГц. Стандартное значение частоты дискретизации большинства звуковых карт составляет 44,1 и 48,0 КГц.
Итак, результатом дискретизации является дискретный во времени сигнал, представляющий собой последовательность отсчетов - мгновенных значений уровня аналогового сигнала. Чем выше частота дискретизации, тем более точно будет восстановлен звуковой сигнал.
Квантование
После дискретизации происходит второй этап аналого-цифрового преобразования - квантования отсчетов. В процессе квантования производится измерение мгновенных значений уровня сигнала, полученных в каждом отсчете, причем осуществляется оно с точностью, которая напрямую зависит от количества разрядов, используемых для записи значения уровня.
Если, задав длину N кодового слова, записать значение уровня сигнала с помощью двоичных чисел, то количество возможных значений будет равно 2N. Естественно, что столько же может быть и уровней квантования. Например, если значение амплитуды отсчетов представляется 16-разрядным кодовым словом, то максимальное количество градаций уровня сигнала (уровней квантования) будет равно 65536 (216). При 8-разрядном представлении будем иметь 256 (28) градаций уровня. Необходимая разрядность представления значений отсчетов определяется динамическим диапазоном аналогового сигнала - разрядностью между уровнями самого сильного сигнала, который устройство в состоянии пропустить, и самого слабого, еще различимого на фоне шумов. С другой стороны, разрядность АЦП однозначно определяет динамический диапазон цифрового сигнала. Так, при 8-разрядном представлении значений отсчетов динамический диапазон составит 48, а при 16-разрядном - 96 дБ.
Для воспроизведения звукового сигнала, записанного в цифровой форме, необходимо преобразовать его в аналоговую форму, т.е. осуществить цифроаналоговое преобразование сигнала.
На первом этапе из потока цифровых данных с помощью цифро-аналогового преобразователя выделяют отсчеты сигнала, следующие с частотой дискретизации. На втором этапе из дискретных отсчетов формируется путем сглаживания (интерполяции) непрерывный аналоговый сигнал. Эта операция равносильна фильтрации сигнала идеальным фильтром низкой частоты, который подавляет периодические составляющие спектра дискретизированного сигнала.
Сразу после первого этапа цифро-аналогового преобразования сигнал представляет собой серию узких импульсов, имеющих многочисленные высокочастотные спектральные компоненты. На аналоговый фильтр в этом случае возлагается задача полностью пропустить сигнал нужного частотного диапазона (например, 0 - 24 КГц) и как можно сильнее подавить ненужные высококачественные компоненты. Аналоговому фильтру выполнить такие противоречивые требования не под силу.
При использовании аналоговых усилителей с ограниченной полосой пропускания и нелинейной передаточной характеристикой, высококачественные составляющие, содержащиеся в выходном сигнале ЦАП, при недостаточной их фильтрации вызывают заметные на слух интермодуляционные искажения. Поэтому цифровой сигнал сначала интерполируют - вставляют дополнительные отсчеты, вычисленные по специальным алгоритмам, что приводит к увеличению частоты дискретизации без искажения исходного спектра сигнала. Это приводит к тому, что высококачественные спектральные компоненты на выходе ЦАП далеко отстоят от низкочастотных компонентов звукового сигнала, и, чтобы отфильтровать их, достаточно использовать простой аналоговый фильтр.
В современных ЦАП интерполяция может выполняться не линейными и линейными методами в сочетании с аналоговой фильтрацией.
Полученный в результате цифро-аналогового преобразования звуковой сигнал, как правило, попадает в микшер и через линейный выход направляется в акустическую систему, в которой колебания напряжения электрического сигнала преобразуются в колебания звукового давления.
Принципы преобразования аналогового сигнала в цифровой одинаковы для любого типа информации (текст, графика, звук или видео). Основными характеристиками полученной цифровой информации являются частота дискретизации и разрядность (или глубина оцифровки, битовая глубина, количество уровней квантования).