Кодирование и сжатие аудио-информации

Автор: Пользователь скрыл имя, 13 Декабря 2011 в 23:32, реферат

Описание работы

Первой предварительной операцией, которая производится с аналоговым звуком является фильтрация, в результате которой выделяется требуемый частотный диапазон для соответствующего канала и удаляются помехи. Эта операция производится при помощи низкочастотных, высокочастотных или полосовых фильтров. Амплитудно-частотные характеристики низкочастотного и полосового фильтров :
Семплирование и квантизация
Следующим комплексом операций является собственно оцифровка, которая состоит из дискретизации сигнала по времени, т.е. разбиении сигнала на временные отрезки с заданным шагом дискретизации и измерения амплитуды сигнала в данные моменты времени.

Работа содержит 1 файл

лекции.doc

— 1.15 Мб (Скачать)

 Кодирование в  формате MPEG-4 раздельное. Это означает, что для кодирования видео составляющей применяются одни способы и алгоритмы сжатия, а для кодирования аудио составляющей – другие. Естественной издержкой такого специфичного подхода к сжатию является необходимость сопоставления двух потоков в ходе их последующего совместного воспроизведения в режиме реального времени.

 Основы MPEG-кодирования  видео 

 В основу функций  сжатия видео составляющей стандарта MPEG-4 была положена технология применения целого комплекса алгоритмов сжатия, применяемых как в зависимости  от исходного качества и природы сжимаемого видеофрагмента, так и в совокупности и (или) последовательно обрабатывающих исходное видео с помощью различных по природе алгоритмов сжатия. Это методы прогрессивного и словарного кодирования, кодирования с использованием чересстрочного сканирования, технологии RLE (Run Length Encoding), технологии векторной квантизации (Vector Quantization), а также всевозможные преобразования (Фурье, Дискретное Косинусное, Wavelet).

 Первоначальное  кодирование видео (имеющего естественную природу, см. выше) в MPEG-4 осуществляется аналогично MPEG-1 и MPEG-2. В этом смысле основа кодирования у группы алгоритмов MPEG общая. Основные идеи, применяемые в ходе сжатия видеоданных с ее помощью, следующие:

  1. Устранение временной избыточности видео, учитывающее тот факт, что в пределах коротких интервалов времени большинство фрагментов сцены оказываются неподвижными или незначительно смещаются по полю.
  2. Устранение пространственной избыточности изображений путем подавления мелких деталей сцены, несущественных для визуального восприятия человеком.
  3. Использование более низкого цветового разрешения при yuv-предеставлении изображений (y — яркость, u и v — цветоразностные сигналы) — установлено, что глаз менее чувствителен к пространственным изменениям оттенков цвета по сравнению с изменениями яркости.
  4. Повышение информационной плотности результирующего цифрового потока путем выбора оптимального математического кода для его описания (например, использование более коротких кодовых слов для наиболее часто повторяемых значений).

 Кроме того, основная идея заключается в разделении кадров на опорные (I — intra), а также так  называемые предсказанные (то есть строящиеся на основе опорных) — как однонаправленные (P – predicted), так и двунаправлено  предсказываемые (B – bi-directionally predicted) кадры (под направлением здесь следует понимать временную последовательность представления кадров видео).

 Однако MPEG-4, кроме  рассмотренного традиционного MPEG-кодирования, основанного на прямоугольных кадрах, использует технологию так называемого фрактального или контурно-основанного кодирования изображений.

 Для понимания  принципов контурно-основанного  кодирования изображений, применяющегося в MPEG-4, уясним себе несколько простых  идей.

 Контур — это  линия, очерчивающая границу фигуры на плоскости. Текстура – представление структуры поверхности изображения. Контурно-основанное кодирование изображений представляет изображения как контуры, огибающие текстурные области (области, заполненные текстурами). А так как контуры, как правило, совпадают с границами изображаемых объектов сцены, то задача контурно-основанного кодирования сводится к задаче объектно-основанного кодирования изображений, а именно: изображение представляется набором составляющих его объектов.

 После того как  контуры и текстуры вычленены из изображения, контуры могут быть представлены как контрольные точки «сплина» (spline) – полиномиальной функции, используемой для представления кривых, «обтягивающих» тот или иной контур. Текстуры же, в свою очередь, могут быть представлены в качестве коэффициентов какого-либо пространственного преобразования частоты (например, дискретного косинусного или дискретного wavelet-преобразования). Сжатие же может быть достигнуто путем скалярной или векторной квантизации контрольных параметров «сплина» и коэффициентов преобразования, используемых для представления текстуры. Но не будем вдаваться в математические детали, используемые в ходе кодирования видео.

 Что и говорить, задача контурно-основанного  кодирования  в настоящее время является одной из наиболее перспективных и, пожалуй, одной из весьма трудоемких (с точки зрения вычислений).

 Говоря простыми словами, MPEG-4 обеспечивает возможность  индивидуально кодировать специфические  элементы в рамках видео сюжета. Поскольку разные объекты, используемые в видео сюжете, как правило, имеют различную природу (текстурный фон, персонажи переднего плана, мелкие детали сцены), то совокупность различных по природе способов сжатия, используемых для разных типов данных, в зависимости от их природы, позволяет добиться наиболее высокой степени сжатия.

 Основным отличием MPEG-4 сжатия от предшествующих алгоритмов сжатия видео MPEG-1 и MPEG-2 является не сжатие последовательности прямоугольных  кадров, а использование принципа кодирования индивидуальных объектов произвольной формы. Кодирование формы, или альфа-канала, означает, что произвольная форма в сцене MPEG-4 может отслеживаться посредством двоичной альфа-карты, определяющей принадлежность данного пикселя к объекту. Это особенно полезно для разработчиков интерактивного контента по нескольким причинам. Во-первых, видеоинформация не обязательно должна быть оформлена в виде прямоугольных кадров. Во-вторых, индивидуально закодированные видео формы можно интегрировать с другими объектами, такими как 2D-, 3D- или естественный видеофон, образуя сцены. Наконец, особый интерес для разработчиков представляет возможность использования отдельных объектов в качестве элементов интерактивного действия. Примерами могут служить простые взаимосвязи в рамках сюжета или смоделированные персонажи, реагирующие на действия пользователя.

 Результатом такого объектного подхода стала возможность  интеграции естественных и синтетических  видеоисточников. Стандарт MPEG-4 содержит средства интеграции для кодирования  растровых видео изображений и средства создания и интеграции синтезированных 2D- и 3D-элементов, включая геометрические формы и объекты, текст и синтезированную графику.. Эти медийные объекты могут быть естественного или искусственного происхождения; это означает, что они могут быть записаны с помощью камеры или микрофона, а могут быть и сформированы посредством ЭВМ;

 Кодированное  представление медийных объектов

 Аудиовизуальные сцены MPEG-4 формируются из нескольких медийных объектов, организованных иерархически. На периферии иерархии находятся примитивные медийные объекты, такие как:

 статические изображения (например, Фон изображения),

 видео-объекты (например, говорящее лицо – без фона)

 аудио-объекты (например, голос данного лица);

 и т.д.

 MPEG-4 стандартизует  число таких примитивных медиа-объектов, способных представлять как естественные, так и синтетические типы содержимого, которые могут быть 2- или 3-мерными. Кроме медиа-объектов, упомянутых выше и показанных на рис. 1, MPEG-4 определяет кодовое представление объектов, такое как:

 • текст и графика;

 • говорящие синтезированные  головы и ассоциированный текст, использованный для синтеза речи и анимации головы;

 • синтезированный  звук

 Медиа-объекты  в его кодированной форме состоит  из описательных элементов, которые  позволяют обрабатывать его в аудио-визуальной сцене, а также, если необходимо, ассоциированный с ним поток данных. Важно заметить, что кодированная форма, каждого медиа-объекта может быть представлена независимо от его окружения или фона.

 Кодовое представление  медиа-объектов максимально эффективно с точки зрения получения необходимой функциональности. Примерами такой функциональности являются разумная обработка ошибок, легкое извлечение и редактирование объектов и представление объектов в масштабируемой форме.

   Профайлы в MPEG-4

 MPEG-4 предоставляет  большой и богатый набор средств  для кодирования аудио-визуальных  объектов. Для того чтобы позволить  эффективную реализацию стандарта,  специфицированы субнаборы систем MPEG-4, средств видео и аудио,  которые могут использоваться для специфических приложений. Эти субнаборы, называемые ‘профайлами’, ограничивают набор средств, которые может применить декодер. Для каждого из этих профайлов, устанавливается один или более уровней, ограничивающих вычислительную сложность. Подход сходен с MPEG-2, где большинство общеизвестных комбинаций профайл/уровень имеют вид ‘главный_профайл @главный_уровень’. Комбинация профайл@уровень позволяет:

 • конфигуратору  кодека реализовать только необходимый  ему субнабор стандарта,

 • проверку того, согласуются ли приборы MPEG-4 со стандартом.

 Существуют профайлы для различных типов медиа  содержимого (аудио, видео, и графика) и для описания сцен. MPEG не предписывает или рекомендует комбинации этих профайлов, но заботится о том, чтобы  обеспечить хорошее согласование между различными областями

   Состав медийных  объектов

 На рис. 1 объясняется  способ описание аудио-визуальных сцен в MPEG-4, состоящих из отдельных объектов. Рисунок содержит составные медиа-объекты, которые объединяют примитивные  медиа-объекты. Примитивные медиа-объекты соответствуют периферии описательного дерева, в то время как составные медиа-объекты представляют собой суб-деревья. В качестве примера: визуальные объекты, соответствующие говорящему человеку, и его голос объединены друг с другом, образуя новый составной медиа-объект. Такое группирование позволяет разработчикам создавать комплексные сцены, а пользователям манипулировать отдельными или группами таких объектов.

 MPEG-4 предлагает  стандартизованный путь описания  сцен, позволяющий: помещать медиа-объекты, где угодно в заданной координатной системе; применять преобразования для изменения геометрического или акустического вида медиа-объекта; группировать примитивный медиа-объекты для того чтобы образовать составные медиа-объекты; использовать потоки данных, чтобы видоизменять атрибуты медиа-объектов (например, звук, движущуюся текстуру, принадлежащую объекту; параметры анимации, управляющие синтетическим лицом); изменять, интерактивно, точку присутствия пользователя на сцене (его точку наблюдения и прослушивания).

 Описание сцены  строится во многих отношениях также  как и в языке моделирования  виртуальной реальности VRML (Virtual Reality Modeling language). 
 
 
 
 
 
 
 
 
 
 

  Рис..1 Пример сцены MPEG-4 

 Описание  и синхронизация  потоков данных для  медийных объектов

 Медиа-объектам может  быть нужен поток данных, который  преобразуется в один или несколько  элементарных потоков. Дескриптор объекта  идентифицирует все потоки ассоциированные  с медиа-объектом. Это позволяет  иерархически обрабатывать кодированные данные, а также ассоциированную медиа-информацию о содержимом (называемом “информация содержимого объекта”).

 Каждый поток  характеризуется набором дескрипторов для конфигурирования информации, например, чтобы определить необходимые ресурсы  записывающего устройства и точность кодированной временной информации. Более тог, дескрипторы могут содержать подсказки относительно QoS, которое необходимо для передачи (например, максимальное число бит/с, BER, приоритет и т.д.)

 Синхронизация элементарных потоков осуществляется за счет временных меток блоков данных в пределах элементарных потоков. Уровень синхронизации управляет идентификацией таких блоков данных (модулей доступа) и работой с временными метками. Независимо от типа среды, этот слой позволяет идентифицировать тип модуля доступа (например, видео или аудио кадры, команды описания сцены) в элементарных потоках, восстанавливать временную базу медиа-объекта или описания сцены, и осуществлять их синхронизацию. Синтаксис этого слоя является конфигурируемым самыми разными способами, обеспечивая работу с широким спектром систем.

 Взаимодействие  с медийными объектами

 Пользователь видит  сцену, которая сформирована согласно дизайну разработчика. В зависимости  от степени свободы, предоставленной  разработчиком, пользователь имеет возможность взаимодействовать со сценой. Пользователю могут быть разрешены следующие операции:

 изменить точку  наблюдения/слушания на сцене;

 перемещать объекты  по сцене;

 вызывать последовательность событий путем нажатия кнопки мыши на определенных объектах, например, запуская или останавливая поток данных;

 выбирать предпочтительный язык, когда такой выбор возможен;  

   Доставка потоков  данных

 Синхронизованная  доставка потока данных отправителя  получателю, использующая различные QoS, доступные в сети, специфицирована в терминах слоя синхронизации и доставки, которые содержат двухслойный мультиплексор (см. рис. 2).

 Первый слой мультиплексирования  управляется согласно спецификации DMIF (Delivery Multimedia Integration Framework). Это мультиплексирование может быть реализовано определенным в MPEG мультиплексором FlexMux, который позволяет группировать элементарные потоки ES (Elementary Streams) с низкой избыточностью. Мультиплексирование на этом уровне может использоваться, например, для группирования ES с подобными требованиями по QoS, чтобы уменьшить число сетевых соединений или значения задержек.

 Слой "TransMux" (Transport Multiplexing) на рис. 2 моделирует уровень, который  предлагает транспортные услуги, удовлетворяющие  требованиям QoS. MPEG-4 специфицирует только интерфейс этого слоя, в то время как остальные требования к пакетам данных будут определяться транспортным протоколом. Любой существующий стек транспортных протоколов, например, (RTP)/UDP/IP, (AAL5)/ATM, или MPEG-2 Transport Stream поверх подходящего канального уровня может стать частным случаем TransMux. Выбор оставлен за конечным пользователем или серис-провайдером, и позволяет использовать MPEG-4 с широким спектром операционного окружения.

Информация о работе Кодирование и сжатие аудио-информации