Автор: Пользователь скрыл имя, 20 Февраля 2013 в 21:47, реферат
Понятие информация является одним из фундаментальных в современной науке вообще и базовым для изучаемой нами информатики. Информацию наряду с веществом и энергией рассматривают в качестве важнейшей сущности мира, в котором мы живем. Однако, если задаться целью формально определить понятие “информация”, то сделать это будет чрезвычайно сложно. Аналогичными “неопределяемыми” понятиями, например, в математике является “точка” или “прямая”. Так, можно сделать некоторые утверждения, связанные с этими математическими понятиями, но сами они не могут быть определены с помощью более элементарных понятий.
1. Различные уровни представлений об информации
2. Непрерывная и дискретная информация
3. Единицы количества информации: вероятностный и объемный подходы
4. Информация: более широкий взгляд
5. Свойства информации
Информация, ее виды и свойства
План
1. Различные уровни
2. Непрерывная и дискретная информация
3. Единицы количества информации:
вероятностный и объемный
4. Информация: более широкий взгляд
5. Свойства информации
1. Различные уровни
Ранее мы неоднократно употребляли термин “информация”, никак его при этом не раскрывая.
Понятие информация является одним из фундаментальных в современной науке вообще и базовым для изучаемой нами информатики. Информацию наряду с веществом и энергией рассматривают в качестве важнейшей сущности мира, в котором мы живем. Однако, если задаться целью формально определить понятие “информация”, то сделать это будет чрезвычайно сложно. Аналогичными “неопределяемыми” понятиями, например, в математике является “точка” или “прямая”. Так, можно сделать некоторые утверждения, связанные с этими математическими понятиями, но сами они не могут быть определены с помощью более элементарных понятий.
В простейшем бытовом понимании с термином “информация” обычно ассоциируются некоторые сведения, данные, знания и т.п. Информация передается в виде сообщений, определяющих форму и представление передаваемой информации. Примерами сообщений являются музыкальное произведение; телепередача; команды регулировщика на перекрестке; текст, распечатанный на принтере; данные, полученные в результате работы составленной вами программы и т.д. При этом предполагается, что имеются “источник информации” и “получатель информации”.
Сообщение от источника к получателю передается посредством какой-нибудь среды, являющейся в таком случае “каналом связи” (рис. 1). Так, при передаче речевого сообщения в качестве такого канала связи можно рассматривать воздух, в котором распространяются звуковые волны, а в случае передачи письменного сообщения (например, текста, распечатанного на принтере) каналом сообщения можно считать лист бумаги, на котором напечатан текст.
Рис. 1. Схема передачи информации
Человеку свойственно субъективное восприятие информации через некоторый набор ее свойств: важность, достоверность, своевременность, доступность и т.д. В этом смысле одно и то же сообщение, передаваемое от источника к получателю, может передавать информацию в разной степени. Так, например, вы хотите сообщить о неисправности компьютера. Для инженера из группы технического обслуживания сообщение “компьютер сломался” явно содержит больше информации, чем для вахтера. Но, в свою очередь, для инженера сообщение “не включается дисплей” содержит информации больше, чем первое, поскольку в большей степени снимает неопределенность, связанную с причиной неисправности компьютера. Как видно, одно и то же сообщение для различных пользователей несет различную информацию.
Использование терминов “больше
информации” или “меньше
2. Непрерывная и дискретная информация
Чтобы сообщение было передано
от источника к получателю, необходима
некоторая материальная субстанция
– носитель информации. Сообщение,
передаваемое с помощью носителя,
назовем сигналом. В общем случае
сигнал – это изменяющийся во времени
физический процесс. Такой процесс
может содержать различные
В случае когда параметр сигнала принимает последовательное во времени конечное число значений (при этом все они могут быть пронумерованы), сигнал называется дискретным, а сообщение, передаваемое с помощью таких сигналов -дискретным сообщением. Информация, передаваемая источником, в этом случае также называется дискретной. Если же источник вырабатывает непрерывное сообщение (соответственно параметр сигнала – непрерывная функция от времени), соответствующая информация называется непрерывной. Пример дискретного сообщения – процесс чтения книги, информация в которой представлена текстом, т.е. дискретной последовательностью отдельных значков (букв). Примером непрерывного сообщения служит человеческая речь, передаваемая модулированной звуковой волной; параметром сигнала в этом случае является давление, создаваемое этой волной в точке нахождения приемника – человеческого уха.
Непрерывное сообщение может быть представлено непрерывной функцией, заданной на некотором отрезке [а, Ь] (см. рис. 2). Непрерывное сообщение можно преобразовать в дискретное (такая процедура называется дискретизацией). Для этого из бесконечного множества значений этой функции (параметра сигнала) выбирается их определенное число, которое приближенно может характеризовать остальные значения. Один из способов такого выбора состоит в следующем. Область определения функции разбивается точками x1, x2,... хn, на отрезки равной длины и на каждом из этих отрезков значение функции принимается постоянным и равным, например, среднему значению на этом отрезке; полученная на этом этапе функция называется в математике ступенчатой. Следующий шаг – проецирование значений “ступенек” на ось значений функции (ось ординат). Полученная таким образом последовательность значений функции у1, у2, ... уn. является дискретным представлением непрерывной функции, точность которого можно неограниченно улучшать путем уменьшения длин отрезков разбиения области значений аргумента.
Рис. 2. Процедура дискретизации непрерывного сообщения
Ось значений функции можно
разбить на отрезки с заданным
шагом и отобразить каждый из выделенных
отрезков из области определения
функции в соответствующий
Таким образом, любое сообщение может быть представлено как дискретное, иначе говоря последовательностью знаков некоторого алфавита.
Возможность дискретизации непрерывного сигнала с любой желаемой точностью (для возрастания точности достаточно уменьшить шаг) принципиально важна с точки зрения информатики. Компьютер – цифровая машина, т.е. внутреннее представление информации в нем дискретно. Дискретизация входной информации (если она непрерывна) позволяет сделать ее пригодной для компьютерной обработки.
Существуют и другие вычислительные машины – аналоговые ЭВМ. Они используются обычно для решения задач специального характера и широкой публике практически не известны. Эти ЭВМ в принципе не нуждаются в дискретизации входной информации, так как ее внутреннее представление у них непрерывно. В этом случае все наоборот – если внешняя информация дискретна, то ее “перед употреблением” необходимо преобразовать в непрерывную.
3. Единицы количества информации:
вероятностный и объемный
Определить понятие “
Вероятностный подход
Рассмотрим в качестве примера опыт, связанный с бросанием правильной игральной .кости, имеющей N граней (наиболее распространенным является случай шестигранной кости: N = 6). Результаты данного опыта могут быть следующие: выпадение грани с одним из следующих знаков: 1,2,... N.
Введем в рассмотрение численную величину, измеряющую неопределенность -энтропию (обозначим ее Н). Величины N и Н связаны между собой некоторой функциональной зависимостью:
H = f (N), (1.1)
а сама функция f является возрастающей, неотрицательной и определенной (в рассматриваемом нами примере) для N = 1, 2,... 6.
Рассмотрим процедуру бросания кости более подробно:
1) готовимся бросить кость; исход опыта неизвестен, т.е. имеется некоторая неопределенность; обозначим ее H1;
2) кость брошена; информация
об исходе данного опыта
3) обозначим неопределенность
данного опыта после его
I = H1 – H2 (1.2)
Очевидно, что в случае, когда получен конкретный результат, имевшаяся неопределенность снята (Н2 = 0), и, таким образом, количество полученной информации совпадает с первоначальной энтропией. Иначе говоря, неопределенность, заключенная в опыте, совпадает с информацией об исходе этого опыта. Заметим, что значение Н2 могло быть и не равным нулю, например, в случае, когда в ходе опыта следующей выпала грань со значением, большим “З”.
Следующим важным моментом является определение вида функции f в формуле (1.1). Если варьировать число граней N и число бросаний кости (обозначим эту величину через М), общее число исходов (векторов длины М, состоящих из знаков 1,2,.... N) будет равно N в степени М:
X=NM. (1.3)
Так, в случае двух бросаний кости с шестью гранями имеем: Х=62=36. Фактически каждый исход Х есть некоторая пара (X1, X2), где X1 и X2 – соответственно исходы первого и второго бросаний (общее число таких пар – X).
Ситуацию с бросанием
М раз кости можно
f(6M) = M ∙ f(6)
Данную формулу можно распространить и на случай любого N:
F(NM) = M ∙ f(N) (1.4)
Прологарифмируем левую и правую части формулы (1.3): lnX=M ∙ lnN, М=lnX/1nM. Подставляем полученное для M значение в формулу (1.4):
Обозначив через К положительную константу , получим: f(X) =К ∙ lnХ, или, с учетом (1.1), H=K ∙ ln N. Обычно принимают К = 1 / ln 2. Таким образом
H = log2 N. (1.5)
Это – формула Хартли.
Важным при введение какой-либо величины является вопрос о том, что принимать за единицу ее измерения. Очевидно, Н будет равно единице при N=2. Иначе говоря, в качестве единицы принимается количество информации, связанное с проведением опыта, состоящего в получении одного из двух равновероятных исходов (примером такого опыта может служить бросание монеты при котором возможны два исхода: “орел”, “решка”). Такая единица количества информации называется “бит”.
Все N исходов рассмотренного
выше опыта являются равновероятными
и поэтому можно считать, что
на “долю” каждого исхода приходится
одна N-я часть общей
Таким образом,
(1.6)
Та же формула (1.6) принимается за меру энтропии в случае, когда вероятности различных исходов опыта неравновероятны (т.е. Рi могут быть различны). Формула (1.6) называется формулой Шеннона.
В качестве примера определим количество информации, связанное с появлением каждого символа в сообщениях, записанных на русском языке. Будем считать, что русский алфавит состоит из 33 букв и знака “пробел” для разделения слов. По формуле (1.5)
Н = log2 34 ≈ 5 бит.
Однако, в словах русского языка (равно как и в словах других языков) различные буквы встречаются неодинаково часто. Ниже приведена табл. 1 вероятностей частоты употребления различных знаков русского алфавита, полученная на основе анализа очень больших по объему текстов.
Таблица 1. Частотность букв русского языка
i
Символ
Р(i)
i
Символ
P(i)
i
Символ
Р(i)
1
Пробел
0,175
13
0,028
24
Г
0.012
2
0
0,090
14
М
0,026
25
Ч
0,012
3
Е
0,072
15
Д
0,025
26
И
0,010
4
Ё
0,072
16
П
0,023
27
X
0,009
5
А
0,062
17
У
0,021
28
Ж
0,007
6
И
0,062
18
Я
0,018
29
Ю
0,006
7
Т
0,053
19
Ы
0,016
30
Ш
0.006
8
Н
0,053
20
З
0.016
31
Ц
0,004
9
С
0,045
21
Ь
0,014
32
Щ
0,003
10
Р
0,040
22
Ъ
0,014
33
Э
0,003
11
В
0,038
23
Б
0,014
34
Ф
0,002
12
Л
0,035
Воспользуемся для подсчета Н формулой (1.6) и получим, что Н ≈ 4,72 бит. Полученное значение Н, как и можно было предположить, меньше вычисленного ранее. Величина Н, вычисляемая по формуле (1.5), является максимальным количеством информации, которое могло бы приходиться на один знак.
Аналогичные подсчеты Н можно провести и для других языков, например, использующих латинский алфавит – английского, немецкого, французского и др. (26 различных букв и “пробел”). По формуле (1.5) получим
H = log2 27 ≈ 4,76 бит.
Как и в случае русского языка, частота появления тех или иных знаков не одинакова.
Если расположить все буквы данных языков в порядке убывания вероятностей, то получим следующие последовательности:
АНГЛИЙСКИЙ ЯЗЫК: “пробел”, E, T, A, O, N, R, …
НЕМЕЦКИЙ ЯЗЫК: “пробел”, Е, N, I, S, Т, R, …
ФРАНЦУЗСКИЙ ЯЗЫК: “пробел”, Е, S, А, N, I, Т, …
Рассмотрим алфавит, состоящий из двух знаков 0 и 1. Если считать, что со знаками 0 и 1 в двоичном алфавите связаны одинаковые вероятности их появления (Р(0)=Р(1)=0,5), то количество информации на один знак при двоичном кодировании будет равно