Современные методы хранения информации в сжатом виде

Автор: Пользователь скрыл имя, 22 Декабря 2011 в 22:33, реферат

Описание работы

Хранить информацию человечество научилось очень давно. В наиболее древних формах хранения информации использовалось расположение предметов — раковин и камней на песке, узелков на верёвке. Существенным развитием этих способов явилась письменность — графическое изображение символов на камне, глине, папирусе, бумаге. Огромное значение в развитии этого направления имело изобретение книгопечатания. За свою историю человечество накопило огромный объем информации в библиотеках, архивах, периодических изданиях и других письменных документах.

Содержание

Введение……………………………………………………………………………......3.
1.Хранение видеоизображения в сжатом виде……………………………………….4
2.Хранение изображения в сжатом виде…………………………………………….13
3.Хранение данных в сжатом виде на примере архиватора WinRar……………….20
Библиографический список…………………………………………………………..23

Работа содержит 1 файл

исввт.doc

— 257.50 Кб (Скачать)

       В настоящее время разрабатываются  перспективные графические форматы  и некоторые из них уже понимаются броузерами, но еще не поддерживаются большинством графических редакторов (*.art фирмы Johnson-Grace). Другие же требуют наличия у броузеров плагинов для своего просмотра (*.fif, обеспечивает сильное сжатие и позволяет растягивать изображения на весь экран при любом разрешении без заметной потери качества).

       Как сейчас решается вопрос с переводом информации из бумажного вида в электронный? Понятно, что первым делом книга, журнал, газета, не суть важно что – сканируется. Что можно сделать потом? Очевидно, дальше имеет смысл распознать отсканированный текст. Конечно, это самое грамотное решение, позволяющее использовать все преимущества цифрового представления информации. Основная проблема в этом случае заключается в том, что невозможно поставить распознавание на поток. Распознавание большого количества материалов – крайне трудоемкий процесс.

       Поэтому для перевода в цифру большого количества материалов, как правило, их просто сохраняют в виде картинки. Но и тут есть целый ряд трудностей. Дело в том, что сейчас распространены только два компрессирующих формата  представления цифровых изображений – GIF и JPEG, говорить о некомпрессирующих форматах, по большому счету, бессмысленно. Ведь основная задача представления информации в цифре – это возможность передавать ее через Сеть, а если одна журнальная страница будет весить тридцать мегабайт, например, в TIFF, то кому она вообще будет нужна?

       При этом у двух существующих компрессирующих  форматов существуют серьезные недостатки. GIF, к примеру, не может содержать  больше 256 цветов. Для текста, конечно, этого более чем достаточно, но что делать, если на странице напечатаны красивые цветные фотографии? Для представления фотографий обычно используют формат JPEG, и свои задачи, в подавляющем большинстве случаев, он реализует "на ура". Но в то же время, сохранять в JPEG текст или, скажем, чертежи (lineart) – полнейший абсурд: JPEG "размоет" и испортит их. Разделять же представляемую информацию на разные форматы не менее трудоемко, чем распознавать тексты, но при этом еще и страшно неудобно в дальнейшем использовании.

       Очевидно, что идеальным выходом из сложившейся ситуации стало бы либо появление крайне умных систем распознавания, не делающих ошибок, либо создание нового графического формата, умеющего компрессировать и объединяющего все преимущества существующих форматов – качественное представление текста, как в GIF, и качественное представление фотоизображений, как в JPEG.

       Оказывается, такой формат уже придуман. При  чем придуман по умному, хотя и не без недочетов. Называется он DjVu ("дежа вю"). Работает примерно следующим  образом. Сначала выделяет на странице весь текст и lineart, после чего отдельно отображает картинки. Причем и то и другое – качественно. Да и объем файла, представляющего обычную страницу A4 с текстом и фотографиями в разрешении 300 DPI получается примерно 45-50 килобайт, что, по последним исследованиям, равно усредненному весу web-странички.

       Для того чтобы иметь возможность  просматривать подобные картинки, необходимо установить специальный plug-in, который  весит немногим меньше девятисот  килобайт. При этом сделан он очень интересно. Дело в том, что, в отличие от обычных программ-просмотрщиков, DjVu не расшифровывает сжатый файл полностью, а только ту его часть, которую в данный момент демонстрирует. Это позволяет просматривать файлы огромного размера и разрешения даже на очень слабых компьютерах. Да и демонстрировать эти картинки он может постепенно – по мере скачивания. Скажем, после того как вы зашли на дежавюшную страничку, в течении пары секунд вы можете полностью увидеть макет страницы. Еще через пару секунд сможете прочитать текст, а подождав еще буквально чуть-чуть – видите картинки. Конечно, web-сёрфер и так имеет то же самое – сначала текст, потом постепенно картинки. Но не забывайте – то, что вы видите с помощью DjVu – это полностью графика, а не комбинация распознанного текста и картинок.

       Сетевые графические форматы

       Всезнающая статистика утверждает, что большинство пользователей Интернета на нашей планете применяют для связи со Всемирной сетью соединение по коммутируемым телефонным каналам при помощи модема. Поскольку это весьма медленный способ связи, время загрузки графического изображения в клиентский броузер в данном случае должно быть как можно меньшим. Действительно, длительное ожидание, когда закончится считывание картинки с сервера, занятие не из приятных. Именно поэтому два наиболее популярных стандарта, в которых хранится 90 % всей графики, представленной ныне в Интернете, это GIF и JPEG. В них заложены различные алгоритмы сжатия изображения с потерей качества, благодаря использованию которых удается значительно уменьшить размер целевого файла.

       GIF

       В далеком 1978 году двое израильских исследователей Якоб Зив (Jacob Ziv)и Абрахам Лемпел (Abraham Lempel) разработали принципиально  новый для того времени алгоритм сжатия информации без потери данных, которому, немудрствуя лукаво, дали полученное из сокращения собственных фамилий и даты завершения своего проекта название: LZ78. Информация о принципах построения этого алгоритма была общедоступной, и спустя несколько лет американский программист Терри Уэлч (Terry Welch) усовершенствовал его, добавил в обозначение первую букву своей фамилии и запатентовал новый алгоритм под названием LZW, также предоставив свою разработку для использования всем желающим.

       Одним из таких желающих оказался сотрудник  компании CompuServe Inc.Боб Берри (Bob Berry), взявший LZW в качестве основы для созданного им в 1987 году принципиально нового графического формата GIF (Graphic Interchange Format). Созданная Терри Уэлчем компания Unisys, которой и принадлежали авторские права на алгоритм LZW, взимала плату за его использование только с производителей аппаратного обеспечения для компьютеров, в котором применялся данный стандарт, например, с изготовителей модемов. Разработчики программного обеспечения комиссионными сборами не облагались.

       Однако зимой 1994 года компания Unisys, начавшая испытывать финансовые проблемы, объявила LZW коммерческим стандартом, использование которого требует оплаты. Это автоматически сделало GIF единственным в мире платным графическим форматом, что вызвало волну недовольства среди пользователей Интернета, поскольку практически на всех современных web-сайтах так или иначе применяются элементы GIF. Тем не менее GIF чрезвычайно широко используется в Интернете и сейчас, причем пользователи не обязаны оплачивать кому бы то ни было возможность разместить на своей страничке изображение в данном формате, так как упомянутые выше финансовые претензии касаются, в первую очередь, производителей работающего с GIF программного обеспечения. Ситуация с дальнейшей судьбой этого стандарта до сих пор остается не разрешенной.

       Благодаря возможностям алгоритма LZW стандарт GIF позволяет значительно сокращать  объем итогового графического файла  по сравнению с исходным изображением. Достигается это методом смешения сходных оттенков в один. Если, например, в составе рисунка имеется участок, состоящий из нескольких сходных полутонов, к примеру, голубого, светло-голубого и темно-голубого цвета, они будут кодированы одним оттенком - голубым. Информация об изображении в файле стандарта GIF записывается построчно то есть представляет собой массив описаний строк высотой в один пиксель. Именно это свойство GIF, а также то, что данный формат оперирует фиксированной, так называемой индексированной палитрой, причем число цветов в этой палитре не превышает 256,явилось основой для появления двух простых правил, применяющихся в современном web-дизайне. Вот они.

       Стандарт GIF используется в документах HTML только для отображения так называемой бизнес-графики: диаграмм, логотипов, кнопок, разделительных линий, других элементов оформления страницы. Для размещения на web-сайте фотографий, репродукций картин и изображений с большим количеством цветов и цветовых переходов используется стандарт JPEG.

       В упрощенном виде данный закон web-мастерства можно сформулировать так: если изображение рисованное, его следует представлять в стандарте GIF, во всех остальных случаях лучше воспользоваться JPEG.

       Подготавливая рисунок для сохранения его в  формате GIF, необходимо избегать следующих  художественных приемов: градиентных  заливок, размытый, постепенных цветовых переходов с множеством оттенков, а также графических фильтров, обеспечивающих неравномерное смешение нескольких цветов на одном участке изображения, например, эффектов изменения интенсивности освещения, подобных фильтру блик редактора Adobe Photoshop.

       Это правило продиктовано тем, что алгоритм замещения схожих оттенков одним  в формате GIF далеко не всегда работает корректно. Правильнее было бы, наверное, сказать работает некорректно почти  всегда. Поэтому участки со множеством различных оттенков на небольшом физическом пространстве рисунка после сохранения изображения в индексированной палитре будут выглядеть смазанными и грязными. Этого можно избежать, применяя в своей иллюстрации по возможности однотонные и контрастные цвета. Одно из замечательных свойств стандарта GIF - его уникальная особенность, названная разработчиками interlace, или, по-русски, черессторность. Она позволяет загружать картинку с сервера в клиентский броузер не целиком, а частями, причем процедура считывания файла выглядит следующим образом: сначала на экране отображаются первая, пятая и десятая строки, составляющие изображение, затем - вторая, шестая и одиннадцатая и т. д. Таким образом, для пользователя создается иллюзия постепенной загрузки графического элемента: картинка как бы медленно проявляется на странице, что иногда бывает очень полезно при включении в документ изображений большого размера -психологически зрителю легче дождаться полной прорисовки иллюстрации, чем несколько минут скучать перед пустым экраном. К тому же еще до полной загрузки файла пользователь может оценить приблизительное содержимое картинки и решить, стоит ли ему дожидаться ее полной прорисовки или нет.

       Через несколько лет после создания стандарта GIF, в 1989 году, компания CompuServe выпустила новую версию этого графического формата, получившую название GIF89a. Данная модификация включает в себя еще две уникальные особенности, широко использующиеся в современном Интернете. Первая называется transparency и подразумевает создание для изображения прозрачного фона методом сохранения вместе с файлом так называемого альфа-канала, представляющего собой маску прозрачности рисунка. Цвета, помеченные в альфа-канале как прозрачные, станут невидимы в броузерах и большинстве других программ, предназначенных для просмотра изображений. Эта функция необходима, например, при размещении картинок неправильной геометрической формы на странице со сложным фоновым рисунком, когда корректно подогнать части изображений друг к другу не представляется возможным.

       брать ненужный фон из файла GIF можно, воспользовавшись встроенной процедурой графического редактора Adobe Photoshop. Для этого вменю файл необходимо выбрать пункт экспорт, среди предложенных вариантов отметить GIF89a и в появившемся окне с  помощью инструмента пипетка указать цвета, в которых вы больше не нуждаетесь.

       Другая  полезная особенность стандарта GIF89a заключается том, что этот формат позволяет сохранять в файле  с одним физическим заголовком несколько  разных изображений, демонстрируя их на экране последовательно одно за другим, причем с возможностью специфицировать порядок их чередования и временной интервал между сменами кадра. Именно на этом принципе построена весьма распространенная в Интернете GIF-анимация, о которой мы поговорим подробнее в этом же уроке.

       JPEG

       JPEG (Joint Photographic Experts Group) - графический стандарт, созданный на основе одноименного  алгоритма сжатия изображений  с потерей качества, кодирующего  не идентичные элементы, как алгоритм LZW, а межпиксельные интервалы.  В упрощенном виде механизм сжатия изображения в файл формата JPEG выглядит следующим образом. Первой ступенью компрессии является преобразование изображения в цветовой образ LAB, раскладывающий картинку на три независимых канала, один из которых (Lightness) выделен для сохранения значений интенсивности цветов, а два других (А и В) - для запоминания непосредственно цветовой информации. Причем данные о цветах сохраняются в виде шкалы, организованной по принципу непрерывного спектра. Вторя ступень - собственно компрессия: из получившейся цветовой модели удаляются приблизительно три четверти информации о цвете, затем образ дробится на участки размером 8x8 точек и преобразуется в числовой массив данных. Заголовок каждого блока описывает доминирующий цвет участка, остальная информация - менее заметные оттенки. На третьей ступени сжатия из массива данных удаляется определенная часть информации, описывающей второстепенные оттенки, причем количество изымаемых данных зависит от выбранного пользователем качества результирующего изображения. И наконец, готовый файл сжимается согласно алгоритму Хаффмана, который предусматривает замену наиболее часто встречающихся в массиве данных знаков более компактной двух битной кодировкой. Декомпрессия файла JPEG происходит в обратном порядке.

       Из всего сказанного можно сделать вполне очевидное заключение: JPEG оптимален для передачи фотографических изображений, а также картинок с большим количеством полутонов и цветовых переходов. Максимальное число цветов, которое может содержать изображение в формате JPEG, достигает 16 миллионов. Очевидно также, что чем выше степень компрессии такого изображения, тем ниже его качество. Web-мастеру, создающему для сайта иллюстрации в формате JPEG, необходимо помнить следующее правило.

Информация о работе Современные методы хранения информации в сжатом виде