Кодирование и сжатие аудио-информации

Автор: Пользователь скрыл имя, 13 Декабря 2011 в 23:32, реферат

Описание работы

Первой предварительной операцией, которая производится с аналоговым звуком является фильтрация, в результате которой выделяется требуемый частотный диапазон для соответствующего канала и удаляются помехи. Эта операция производится при помощи низкочастотных, высокочастотных или полосовых фильтров. Амплитудно-частотные характеристики низкочастотного и полосового фильтров :
Семплирование и квантизация
Следующим комплексом операций является собственно оцифровка, которая состоит из дискретизации сигнала по времени, т.е. разбиении сигнала на временные отрезки с заданным шагом дискретизации и измерения амплитуды сигнала в данные моменты времени.

Скачать полностью (838.25 Кб) Сколько стоит заказать работу?

Работа содержит 1 файл

лекции.doc

— 1.15 Мб (Скачать)

Кодирование и сжатие аудио-информации

Цифровая запись и воспроизведение звука

Первой предварительной операцией, которая производится с аналоговым звуком является фильтрация, в результате которой выделяется требуемый частотный диапазон для соответствующего канала и удаляются помехи. Эта операция производится при помощи низкочастотных, высокочастотных или полосовых фильтров. Амплитудно-частотные характеристики низкочастотного и полосового фильтров :

Семплирование и квантизация

Следующим комплексом операций является собственно оцифровка, которая состоит из дискретизации сигнала по времени, т.е. разбиении сигнала на временные отрезки с заданным шагом дискретизации и измерения амплитуды сигнала в данные моменты времени. Таким образом, происходит замена аналогового сигнала последовательностью его мгновенных значений, отсчитываемых с определенной частотой( семплирование).
Согласно теореме Шеннона-Котельникова, значение сигнала будет точно воспроизведено, если частота стробирования по крайней мере в 2 раза выше, чем частота самого сигнала.
Для речевого сигнала, ограниченного при телефонной передаче частотой 3400 Гц, частота дискретизации принята равной 8000 имп/с, и, следовательно, период стробирования, т.е. интервал между соседними сканированиями, равняется 125мкс(1 с/8000=125 мкс).
Измерение амплитуды в дискретные моменты времени называется квантованием амплитуды, когда кждое значение аплитуды представляется как сумма небольших и равных ее значений, называемых квантами , а сама процедура называется квантизацией.

Оцифровка звукового сигнала

Дискретизация аналогового сигнала во времени

Квантование значений амплитуды

Параметры оцифровки

Частота семплирования (частота дискретизации) - количество измерений амплитуды аналогового сигнала в секунду. Для качественного преобразования применяют частоты более чем в два раза превышающие верхнюю границу звукового диапазона: 44.1, 48, 96 кГц
Разрядность семплирования. Этот параметр указывает, с какой точностью происходят измерения амплитуды аналогового сигнала. В современных преобразователях используется 24-битное кодирование сигнала. Такая разрядность позволяет получить 224=16777216 значений амлитуды, что более чем достаточно для высококачественной оцифровки звука.

Семплирование звука с низкой и повышенной частотой и разрядностью

Методы сжатия аудио

1. Алгоритмы основанные на дискретизации

Самый простой метод сжатия звука: весь диапазон значений уровня громкости (в большинстве случаев это 16-битные значения) приводится к интервалу 0-15 (тогда каждый уровень громкости можно будет задать 4-мя битами). У стерео-сигнала каждый канал обрабатывается отдельно. Для повышения качества при распаковке диапазон значений громкости можно приводить обратно к 16-битному виду по нелинейному/адаптивному интерполяционному алгоритму.

2. Восстановление сигнала по спектру

Зависимость амплитуды колебания от его частоты в разложении сигнала называется спектром. Сжатие основывается на том, что спектр изменяется медленнее, чем сам сигнал – и, соответственно, лучше сжимается. Однако, этот метод обычно применяется только для сжатия речи, т.к. он выигрывает у других только при очень высоких степенях сжатия и, соответственно, при довольно больших искажениях.

3. Алгоритм MP3.

Этот алгоритм использует особенности человеческого слуха. Например, человек более чувствителен к средним частотам (нежели к низким и высоким); практически не воспринимает тихий звук, близкий по частоте к громкому, и т.д. Эти особенности восприятия называются психоакустической моделью. После удаления из спектра неслышимых частей звук кодируется алгоритмом, похожим на описанный в п.1; причем - чем лучше слышен звук в данной частотной полосе, тем больше уровней используется. Для работы со стереозвуком существуют 2 режима: обычный, когда каналы обрабатываются отдельно, и JoinedStereo, когда кодируется один канал, а вместо второго - разница между каналами, которая обычно невелика.

MPEG - Moving Pictures Expert Group.

Экспертная группа по движущимся изображениям.

Организация была создана в 1988 году и за время своего существования выпустила несколько стандартов, оказавших большое влияние на информационные технологии и современную жизнь в целом.

MPEG1 – первый официальный международный стандарт, посвященный хранению видео и аудио информации в цифровом виде.

Стандарт состоит из трех частей:

Система. Описывает системную часть формата. Определяет способы мультиплексирования аудио и видео потоков, синхронизацию и формат физического хранения данных.
Видео-канал. Определяет формат и алгоритм кодирования видео-потока и способ восстановления кадров изображения.
Аудио-канал. Определяет формат и алгоритм кодирования аудио-потока и способ восстановления звукового потока.

Впоследствии, когда формат сжатия аудио, предложенный в третьей части стандарта получил самостоятельное распространение, он стал называться MP3 (Moving Pictures layer 3).

Аудио параметры MPEG-1

48, 44.1, 32 кГц
Mono
Dual
Стерео
Интенсивное стерео

Уровни AudioMPEG1 для сжатия стерео сигналов

Номер уровня	Коэффициент сжатия	Скорость потока данных, Кбит/с
1	1:4	384
2	1:6…1:8	256…192
3	1:10…1:12	128..112

Оптимальный уровень - 3 со скоростью потока 125 кбит/с и плотностью данных 1Мбит/мин

MPEG-2 – upgrade MPEG-1

Изменения а Audio:

Появились новые виды частот 16, 22.05, 24 кГц
Поддержка многоканальности (5+1)
Появился AAC (Advanced Audio Coding) – обеспечивает высокое качество звука скоростью 64 кбит/с на канал.

Схема кодирования звука

Банк фильтров – наборы фильтров двух типов: полифазные и фильтры модифицированный алгоритм дискретной косинусной трансформации (Modified Discrete Cosine Transform (MDCT)).
Перцепционная модель – психоакустическая система, выполняющая оптимизацию сжатия звука на основе знаний об устройстве человеческого слухового аппарата, психологии и звуковосприятия.
Кодирование и квантование – состоит из двух вложенных циклов – цикла оценки уровня сигнала(квантования) и цикла контроля шума(помех, вносимых квантованием). Цикл контроля шумов является внешним, в него вложен цикл оценки уровня. Цикл контроля шумов выполняется до тех пор, пока уровень шума не будет соответствовать заданным условиям субъективного качества звука (спектральная похожесть исх. звука и кодир.).
Кодирование аудио-потока – сжатие и кодирование квантов(ячеек, элементов) потока в какой-либо формат хранения или передачи данных. Алгоритм сжатия потока зависит от реализации формата хранения/передачи. Используется алгоритм Хаффмана. Обычно (в различных форматах хранения/передачи) после алгоритма Хаффмана также используются алгоритмы LZIFF(zip), gzip, bzip2.

Методы сжатия, основанные на психоакустике

Обсчет психоакустической модели (маскирования).
Разделение сигнала на частотные подполосы (FFT, DCT/MDCT, FilterBanks, и т.д.).
Квантование сигнала в подполосах в соответствии с результатами психоакустической модели. Возможно использование одного квантового уровня. сразу для нескольких входных значений (векторное квантование - Vector Quantization) - TwinVQ.

Перцепционная модель

Психо-акустическая модель построена на основе информации, накопленной о звуковом восприятии, строении человеческого слухового аппарата и психологии восприятия музыки. Можно сказать, что MP3 построен на «обмане» человеческого уха и мозга, не сохраняя те звуковые картины, которые человек наверняка не заметит. Основными способами «обмана» являются:

эффект маскирования – человек не воспринимает тихие звуки на фоне или сразу после громких. Этот эффект можно сравнить с ослеплением – некоторое время необходимо для восстанавления чувствительности;
меньший приоритет высоким и низким тонам – человек плохо слышит звуки ниже 200Гц и выше 5КГц;
адаптивное смешение каналов (см. ниже);

Кодирование аудио-потока

В стандарте определено только кодирование потока – нет рекомендаций о форматах файлов хранения или форматах вещания MP3.

После квантования, полученные кванты данных по каждому каналу (логическому, т.к. количество каналов в потоке MP3 не обязательно соответствует количеству реальных стереофонических каналов) сжимаются по алгоритму Хаффмана (Huffman).

Алгоритм Хаффмана заключается в замене наиболее часто встречающихся последовательностей бит в потоке (паттернов) на битовые последовательности меньшей длины. Чем чаще паттерн встречается в потоке, тем короче соответствующая ему последовательность бит. Преимущества алгоритма – высокая скорость и мизерные накладные расходы на размер потока в случае совершенно равномерных данных. В среднем, для классической симфонической музыки, алгоритм дает сжатие порядка 20%.

Полученный поток сохраняется в зависимости от формата хранения или передачи.

Способы сжатия и хранения нескольких звуковых каналов.

Моно;
Стерео (два независимых канала, каждый кодируется и хранится отдельно);
Объединенное стерео (Joint Stereo) – для очень высоких и очень низких частот, расположение источника которых человеческое ухо не может точно определить, оба канала не записывают, а только один - объединенный. Впоследствии, в момент проигрывания такие участки воспроизводятся как моно, но человеческое ухо не может этого заметить.
Mid/Side Stereo - хранится один общий канал и информация о разнице между главным и боковыми. Когда каналы похожи, то за общий можно взять (L+R), а за боковой – (L-R). При проигрывании нетрудно будет вычислить исходные каналы.

Схема декодирования звука

Декодирование аудио-потока – извлечение квантов из формата хранения, распаковка.
Обратное квантование – создание набора спектральных линий для каждого кванта данных каждого канала данных. Здесь не выполняется какого-либо преобразование спектров, смешения каналов и т.д. – все эти операции выполняются банком синтезирующих фильтров.
Синтезирующие фильтры – набор правил, алгоритмов и фильтров, создающих на основании потока спектральных линий несколько(в зависимости от формата) каналов аудио-данных. Количество входящих каналов данных часто отличается от количества исходящих – ото связано со способом кодирования информации о нескольких каналах.

Способы кодирования стерео сигнала в рамках MP3

Dual Channel	Каждый канал получает половину потока и кодируется отдельно как моносигнал.
Stereo	Каждый канал кодируется отдельно, но кодер может принять решение отдать одному каналу места больше, чем другому
Joint Stereo (MS Stereo)	Стереосигнал раскладывается на средний между каналами и разностный. При этом 2-й кодируется с меньшим битрейтом
Joint Stereo (MS/IS Stereo)	Для нескольких частотных диапазонов оставляется только отношение мощностей сигнала в разных каналах

Исследование АЧХ сэмплов, признанных лучшими

Информация о работе Кодирование и сжатие аудио-информации