Автор: Пользователь скрыл имя, 17 Декабря 2010 в 23:04, реферат
При алфавитном подходе к определению количества информации отвлекаются от содержания информации и рассматривают информационное сообщение как последовательность знаков определенной знаковой системы.
Проще всего разобраться в этом на примере текста, написанного на каком-нибудь языке. Для нас удобнее, чтобы это был русский язык.
Однако любое техническое устройство не воспринимает содержание информации.Поэтому в вычислительной технике используется другой подход к определению количества информации. Он называется алфавитным подходом.
При алфавитном подходе
к определению количества информации
отвлекаются от содержания информации
и рассматривают информационное
сообщение как последовательность
знаков определенной знаковой системы.
Проще всего разобраться в этом на примере
текста, написанного на каком-нибудь языке.
Для нас удобнее, чтобы это был русский
язык.
Все множество используемых в языке символов
будем традиционно называть алфавитом.
Обычно под алфавитом понимают только
буквы, но поскольку в тексте могут встречаться
знаки препинания, цифры, скобки, то мы
их тоже включим в алфавит. В алфавит также
следует включить и пробел, т.е. пропуск
между словами.
Алфавит - множество символов, используемых при записи текста.
Мощность (размер) алфавита - полное количество символов в алфавите.
Будем обозначать
эту величину буквой N. Например,
мощность алфавита из русских букв и отмеченных
дополнительных символов равна 54.
Представьте себе, что текст к вам поступает
последовательно, по одному знаку, словно
бумажная ленточка, выползающая из телеграфного
аппарата. Предположим, что каждый появляющийся
на ленте символ с одинаковой вероятностью
может быть любым символом алфавита. В
действительности это не совсем так, но
для упрощения примем такое предположение.
В каждой очередной позиции текста может
появиться любой из N символов. Тогда, согласно
известной нам формуле N = 2I
(см. содержательный
подход) каждый
такой символ несет I бит информации, которое
можно определить из решения уравнения:
2I = 54. Получаем: I = 5.755 бит - такое
количество информации несет один символ
в русском тексте.
Чтобы найти
количество информации во всем
тексте, нужно посчитать число
символов в нем и умножить
на I.
Посчитаем количество информации на одной
странице книги. Пусть страница содержит
50 строк. В каждой строке — 60 символов.
Значит, на странице умещается 50x60=3000 знаков.
Тогда объем информации будет равен: 5,755
х 3000 = 17265 бит.
При алфавитном подходе к измерению информации количество информации зависит не от содержания, а от размера текста и мощности алфавита.
Таким образом,
алфавитный подход к измерению
информации можно изобразить
в виде таблицы:
При определении количества информации на основе уменьшения неопределенности наших знаний мы рассматриваем информацию с точки зрения содержания, ее понятности и новизны для человека. С этой точки зрения в опыте по бросанию монеты одинаковое количество информации содержится и в зрительном образе упавшей монеты, и в коротком сообщении "Орел", и в длинной фразе "Монета упала на поверхнПри использовании двоичной системы (алфавит состоит из двух знаков: 0 и 1) каждый двоичный знак несет 1 бит информации.
Применение алфавитного подхода удобно, прежде всего, при использовании технических средств работы с информацией. В этом случае теряют смысл понятия «новые - старые», «понятные - непонятные» сведения.
Алфавитный подход является объективным способом измерения информации в отличие от субъективного содержательного подхода.
Удобнее всего измерять информацию, когда размер алфавита N равен целой степени двойки. Например, если N=16, то каждый символ несет 4 бита информации потому, что 24 = 16. А если N =32, то один символ «весит» 5 бит.
Ограничения на
максимальный размер алфавита
теоретически не существует. Однако
есть алфавит, который можно
назвать достаточным. С ним мы встречались
при рассмотрении темы "Кодирование
текствовой информации".
Это алфавит мощностью 256 символов. В алфавит
такого размера можно поместить все практически
необходимые символы: латинские и русские
буквы, цифры, знаки арифметических операций,
всевозможные скобки, знаки препинания....
Поскольку 256 = 28, то один символ этого
алфавита «весит» 8 бит. Причем 8 бит информации
— это настолько характерная величина,
что ей даже присвоили свое название -
байт.
1 байт = 8 бит.
Для измерения больших объемов информации используются следующие единицы:
1 Кб (один килобайт)= 1024
байт=210байт
1 Мб (один мегабайт)=
1024 Кб=210Кбайт=220байт
1 Гб (один гигабайт)=
1024 Мб=210Mбайт=230байт
1Тбайт (один терабайт)=210Гбайт=1024Гбайт=2
1Пбайт(один петабайт)=210Тбайт=1024Тбайт=2
1Эбайт(один экзабайт)=210Пбайт=1024Пбайт=2
1Збайт(один зетабайт)=210Эбайт=1024Эбайт=2
1Йбайт(один йотабайт)=210Збайт=1024Збайт=2
ость земли той стороной вверх, на которой изображен орел".
.
Так, в русском алфавите, если не использовать букву ё, количество событий (букв) будет равно 32. Тогда:
32 = 2I, откуда I = 5 битов.
Каждый символ несет 5 битов информации (его информационная емкость равна 5 битов). Количество информации в сообщении можно подсчитать, умножив количество информации, которое несет один символ, на количество символов.
Информация о работе Алфавитный подход к определению количества информации