Описание основных принципов мр3. Перевод.

Ссылка на источник: http://www.mp3-tech.org/

Формат Mp3 имеет некоторые ограничения, ограничивающие его закодировавшую эффективность, сравнимую с другими форматами.

Ограничения Mp3

Объединенные ограничения стерео:

Mp3 не может переключить объединенный метод стерео для специфические особенности фактора шкал для групп. Если joint stereo используется, эго придется использовать для всех групп. Это скорее не оптимально, и ограничивает использование joint stereo. Как пример, вообразите следующую ситуацию:

Низшие частоты изображают инструментальную игру на ультралевом, и частоты около 1500Hz изображают певца посреди стадии.

В такой ситуации, не возможен использовать объединенное стерео с Mp3 из-за низшей части частот, которая слишком отлична между обоими каналами. Дальнейшее сокращение скорости передачи данных могло бы быть достигнуто, если было возможно переключить объединенный метод стерео на основании фактора шкал группы. (в данном случае регулярное стерео было бы использовано для низших частот, и Среднего/бортового стерео для остающейся части частотного спектра)

Слишком ограниченный максимальный размер рамки:

Даже если буфер доступен (разрядный резервуар), полный размер информации, принадлежащей рамке (данные внутренняя часть рамка + данные из разрядного резервуара), ограничен. ИЗОМЕТРИЧЕСКИЙ стандарт определяет максимальный размер, чтобы быть размером буфера для 320kbps рамки. К сожалению, в некотором (ограничено) случае этот предел, кажется, есть слишком низкий, приводя к неизбежным деградациям звукового качества.

Размеры окна Inoptimal:

Решение времени/частоты Mp3 - inoptimal. Это есть или 576 образцов для длинного блока, или 192 образца для короткого блока.

На длинных блоках, число образцов ограничивает частотное решение, и, так что закодировавшая эффективность.

На коротких блоках, число образцов (слишком высок) ограничивает решение времени. 192 образца переведены на решение времени 4.3ms для пробующей частоты 44.1kHz. Это слишком высоко в случае некоторых ударных звуков, и может приводить к отсутствию точности, или для предварительного отзывания эхом.

Это было исправлено ИЗОМЕТРИЧЕСКИЙ comitee в проекте AAC, который использует размеры окна 1024 образцов (в случае длинных блоков) или 128 образцов (в случае коротких блоков)

Группа Scalefactor 21 проблема:

Последняя scalefactor группа (sfb21 для длинных блоков или sfb12 для коротких блоков) не имеет никакой собственный scalefactor. Эта scalefactor группа покрывает ряд от 16kHz вплоть до высшего частотного предела, используя 44.1 или 48kHz пробующей частоты.

Если решение этой части спектра должно быть увеличено (определено psychoacoustic моделью), местный scalefactor, который отсутствует, не может использоваться, чтобы регулировать решение. В данном случае, единственное решение - регулировать глобальное значение выгоды, но эта глобальная выгода воздействует каждую scalefactor группу.

Чтобы увеличить sfb21 решение, глобальному значению выгоды придется быть уменьшенным. Чтобы балансировать это, scalefactors других scalefactor групп может быть уменьшен. Но как только они достигают значения 0, они не могут быть уменьшены больше, подразумевая это выше, чем нужное решение местном масштабе будет в использоваться в тех группах, приводя к надувают скорости передачи данных. Кодируя sfb21 содержимое, обычен, чтобы сталкиваться с некоторыми scalefactor группами, которые кодируются со слишком высоким решением только, чтобы разместить закодировавшие потребности sfb21

Гибридная схема трансформанты:

Слой III использует трансформанты MDCT, bu для того, чтобы поддерживать обратную совместимость со Слоем II, это делает трансформанту MDCT в довершение 32 подгрупп, производимых PQMF фильтром Слоя II.

В то время как MDCT организуют себя безпотерян, это не - случай для банка фильтра PQMF. В процессе трансформанты, эта первая стадия вводит некоторый шум, который не может полностью исключиться. Использование ясного MDCT с самого начала производил бы лучший результат (но освободил бы совместимость со Слоем II).

Смешанное ограничение блоков:

Стандарт Mp3 позволяет смешанные блоки, но только в ограниченном пути.

Смешанные блоки - блоки, где 2 первых подгруппы используют длинную блочную структуру, в то время как верхние группы используют короткую блочную структуру. Это usefull, чтобы сократить предварительно отзываются эхом в случае transcients, имея хорошее частотное решение в низшей части спектра. К сожалению, как определено ИЗОМЕТРИЧЕСКИМ стандартом, не возможен для смешанного блока, чтобы следовать или, чтобы быть завершенным коротким блоком. Это строгое ограничение относительно того, когда использовать смешанные блоки, и налагает additionnal сложность к шифратору для того, чтобы быть способным использовать их.

Отсутствие особенностей

Другой пункт есть, что некоторые новые кодирующие схемы изображают additionnal, закодировавший инструменты: " PNS (перцепционная шумовая замена) " SBR (спектральная ленточная копия) " ТЕХНИЧЕСКИЕ ПРИМЕЧАНИЯ (временное формирование шума) " LTP (долгосрочное предсказание)

Краткий обзор методов MP3

Чтобы получить such сокращение количества данных, формат MP3 использует несколько методов и уловки. Я собираюсь сделать попытку предоставление вам некоторые объяснения на большинстве из них. Среди этих методов, те, обычно обозначенный под именем перцепционный кодирование, будут упомянуты близко, другие

Минимальный порог слушания:

Минимальный порог слушания уха не линеен. Это представлено, согласно закону Fletcher и Munson, выменем кривой между 2Khz и 5Khz. Это поэтому не необходим к кодовым звукам, расположенным под этим порогом, потому что они не будут замечены.

Маскирующий эффект:

Эта система основана на маскировке свойств человеческого уха:

Когда вы смотрите на солнце и, если птица проходит вперед, вы не видите это из-за слишком доминирующего света солнца. В звуке, это подобен. В течение сильных звуков, вы не слышите самые слабые звуки. Возьмите как пример кусок органа: когда органист не играет, вы слышите дыхание в трубопроводе, и, когда он играет, вы больше не слышите это, потому что это маскируется.

Это поэтому не необходим к коду все звуки. Это первое свойство, используемое форматом MP3, чтобы заработать некоторое пространство. Для этого шифратор MP3 использует psychoacoustic модель, моделирующую поведение человеческого уха.

Резервуар байтов:

Часто, некоторые прохождения музыкального куска не могут закодироваться к предоставленной норме без изменения музыкального качества. MP3 тогда использует затем короткий резервуар байтов, которые действуют как буфер, используя вместимость из прохождений, которые могут закодироваться к подчиненной норме в предоставленном потоке.

Кодирование Объединенного Стерео:

В случае стереофонического сигнала, формат MP3 может тогда использовать несколько большие инструменты, reffered как кодирование Объединенного Стерео (JS), далее сокращают сжатый размер файла.

Многих в средних Высококачественных наборах, есть уникальный басовый подгромкоговоритель. Однако вы обычно не имеете чувствуя себя, что звук прибывает от этого экономического переселенца, но скорее от спутниковых спикеров. Действительно для самого низкого уровня и очень высоких частот, человеческое ухо не больше может разместить пространственное происхождение звуков с полной точностью. Mp3 формат может поэтому (произвольно) вернуться к такой уловке, используя, что вызвано Интенсивность Стерео (ЕСТЬ). Некоторые частоты тогда записаны как монофонический сигнал, завершенный несколькими дополнительной информацией для того, чтобы восстановить spatialisation минимум.

Второй объединенный инструмент стерео - вызванное Среднее/бортовое (М/с) стерео. Когда левая сторона и правильные каналы весьма подобны, затем вместо середины (L+R) и бортовых (L-R) каналов кодируется слева и правильно. Это позволяет сократить заключительный размер файла, используя меньшие куски для бортового канала. В течение воспроизведения, декодер MP3 восстановит левую сторону и правильные каналы.

Кодирование Хаффмана:

MP3 также использует классическую технику алгоритма Хаффмана. Это действует в конце сжатия к кодовой информации, и это не поэтому себя компрессионный алгоритм но скорее закодировавший метод.

Это кодирование создает переменные коды длины на целом целом ряду кусков. Высшие вероятностные символы имеют более короткие коды. Коды Хаффмана имеют свойство, чтобы иметь уникальную приставку, они могут поэтому расшифровать правильно несмотря на их переменную длину. Шаг декодирования - сам пост (через стол корреспонденции). Этот вид кодирования позволяет сохранить в среднем немного меньше чем 20% из пространства.

Это - идеальное дополнение перцепционного кодирования: В течение больших полифоний, перцепционное кодирование есть само эффективный, потому что много звуков маскируются или уменьшаются, но маленькая информация идентична, так что алгоритм Huffmann есть сам редко эффективный. В течение "чистых" звуков есть несколько маскирующих эффектов, но Хаффман есть тогда сам эффективный, потому что digitalized звук содержит много повторяющихся байтов, это тогда будет заменено более короткими кодами.