Автор: Пользователь скрыл имя, 18 Декабря 2010 в 04:06, реферат
Цель работы: формирование у студентов навыков практической работы с современными информационными системами и технологиями в одной из наиболее динамично развивающихся областей современной лингвистики, где математика и информатика – два неотъемлемых инструмента исследователя.
В данной работе мною будет проведён лингвистический анализ трёх произведений Толстого.
Введение 3
Глава 1 4
Глава 2 12
Таблица взаимной энтропии 13
Глава3 15
Случайная величина 15
Закон распределения случайной величины 16
Вариационный ряд 18
Гистограмма распределения вероятности 18
Математическое ожидание 20
Дисперсия случайной величины 21
Энтропия 21
Взаимная энтропия 23
Вывод 24
Список используемой литературы 25
Л.Н.Толстой «Анна Каренина» том 1 часть 1
Длина предло-жения | Частота появления в тексте |
1 | 0.010425 |
2 | 0.0336808 |
3 | 0.0737771 |
4 | 0.074579 |
5 | 0.0737771 |
6 | 0.0537289 |
7 | 0.0593424 |
8 | 0.0465116 |
9 | 0.0473136 |
10 | 0.0408982 |
11 | 0.042502 |
12 | 0.0376905 |
13 | 0.0376905 |
14 | 0.032077 |
15 | 0.0328789 |
16 | 0.0264635 |
17 | 0.0288693 |
18 | 0.0200481 |
19 | 0.0200481 |
20 | 0.0176423 |
21 | 0.0120289 |
22 | 0.0152366 |
23 | 0.0160385 |
24 | 0.0120289 |
25 | 0.0160385 |
26 | 0.0136327 |
27 | 0.00721732 |
28 | 0.00721732 |
29 | 0.0064154 |
30 | 0.00160385 |
31 | 0.00882117 |
32 | 0.0032077 |
33 | 0.00481155 |
34 | 0.00801925 |
35 | 0.00160385 |
36 | 0.00882117 |
37 | 0.00400962 |
38 | 0.00561347 |
39 | 0.0032077 |
40 | 0.00400962 |
41 | 0.00400962 |
42 | 0.00160385 |
44 | 0.00240577 |
45 | 0.00160385 |
46 | 0.00400962 |
47 | 0.00160385 |
48 | 0.000801925 |
49 | 0.00240577 |
50 | 0.000801925 |
51 | 0.000801925 |
53 | 0.000801925 |
54 | 0.000801925 |
55 | 0.00160385 |
58 | 0.000801925 |
59 | 0.000801925 |
61 | 0.000801925 |
63 | 0.00160385 |
65 | 0.000801925 |
75 | 0.000801925 |
76 | 0.000801925 |
83 | 0.000801925 |
Л.Н.Толстой «Анна Каренина» том 1 часть 2
Длина предло-жения | Частота появления в тексте |
1 | 0.0132509 |
2 | 0.020318 |
3 | 0.0574205 |
4 | 0.0556537 |
5 | 0.0600707 |
6 | 0.0644876 |
7 | 0.0591873 |
8 | 0.0415194 |
9 | 0.0503534 |
10 | 0.0459364 |
11 | 0.0415194 |
12 | 0.0415194 |
13 | 0.0300353 |
14 | 0.0291519 |
15 | 0.0309187 |
16 | 0.0326855 |
17 | 0.0344523 |
18 | 0.0273852 |
19 | 0.0220848 |
20 | 0.0159011 |
21 | 0.020318 |
22 | 0.0114841 |
23 | 0.0106007 |
24 | 0.0123675 |
25 | 0.0167845 |
26 | 0.0123675 |
27 | 0.00971731 |
28 | 0.0167845 |
29 | 0.0106007 |
30 | 0.00795053 |
31 | 0.00441696 |
32 | 0.00971731 |
33 | 0.00530035 |
34 | 0.00530035 |
35 | 0.00530035 |
36 | 0.00618375 |
37 | 0.00353357 |
38 | 0.00618375 |
39 | 0.00530035 |
40 | 0.00441696 |
41 | 0.000883392 |
42 | 0.00265018 |
43 | 0.00530035 |
44 | 0.00265018 |
45 | 0.000883392 |
46 | 0.00176678 |
47 | 0.00176678 |
48 | 0.00530035 |
49 | 0.00353357 |
50 | 0.00265018 |
51 | 0.000883392 |
52 | 0.000883392 |
53 | 0.000883392 |
54 | 0.00176678 |
55 | 0.000883392 |
56 | 0.00176678 |
58 | 0.000883392 |
71 | 0.000883392 |
73 | 0.000883392 |
74 | 0.000883392 |
75 | 0.000883392 |
76 | 0.000883392 |
80 | 0.000883392 |
82 | 0.000883392 |
Глава 2
Сравнивая полученные результаты по второму тому «Войны и Мира» приходим к неожиданным результатам. Математическое ожидание длины предложений в первой части тома составляет М =13,4955 а математическое ожидание длины второй части этого же тома М=15,41667 что на 2 целых больше первого. Такая же ситуация возникает с областью отклонения от среднего принимаемого значения. То есть дисперсией D = 2,09062 для первой части и D= 6,089173. Этот факт может говорить о том, что между написанием первой половины тома и второй прошло некоторое время, или же сам автор уже после написания романа возвращался ко второй половине тома и корректировал его. Это легко можно увидеть, если сравнить с данными по четвёртому тому, а именно М(1)=16,75726 и М(2)=16,23659, где разница между ожидаемыми длинами предложений незначительна, как впрочем, и дисперсия D(1) = 6,978726 и D(2)=6,74775. В то же время энтропия( мера хаотичности) отличается незначительно:
H(том 2 часть 1) = 5,268026
H(том 2 часть2)= 5,337842
H(том 4 часть 1)= 5,032997
H(том 4 часть2)= 5,180913
Особенностью
Роман Анна Каренина был
написан в период 1873 по 1877 годы. Разница
между первой и второй частями первого
тома «Анны Каренина», не столь очевидная
как в случае с первой частью второго тома
«Войны и мира», но всё же присутствует
(М(1)= 13,29671 и М(2)=14,70848). Разница указывает
на длительность периода написания произведения.
Таблица взаимной энтропии
1 | 2 | 3 | 4 | 5 | 6 | |
1 | 0,071944 | 0,099766 | 0,093662 | 0,065582 | 0,07786 | |
2 | 0,05830 | 0,066142 | 0,063207 | 0,09099 | 0,085681 | |
3 | 0,079518 | 0,056996 | 0,059223 | 0,093681 | 0,081313 | |
4 | 0,086461 | 0,067645 | 0,058267 | 0,093374 | 0,05361 | |
5 | 0,057407 | 0,085759 | 0,097459 | 0,090824 | 0,07391 | |
6 | 0,069056 | 0,081409 | 0,080514 | 0,052477 | 0,073463 |
Выводы:
Если проанализировать таблицу взаимной энтропии, то можно определить пару текстов максимально похожую друг на друга и ту пару, которая максимально разнится (по распределению СВ - длины предложений). Та пара текстов наиболее похожа друг на друга, чьё значение минимально в данной таблице. Таким образом это пара текстов 6\4 – вторая часть первого тома «Анны Карениной» и вторая часть четвёртого тома «Войны и мир». Максимально отличающейся друг от друга парой текстов является (по результату анализа) пара 5\3: первая часть первого тома «Анны Карениной» и первая часть четвёртого тома «Войны и мир». Максимальное различие объясняется тем, что книги написаны с разницей примерно в 10 лет. Так же можно предположить? что Толстой вкладывал разную эмоциональную нагрузку и смысл в четвёртом томе «Войны и мира» нежели в первом томе «Анны Карениной». Из результатов работы видно, что на всех этапах своего творчества Толстой тяготел к использованию пространных предложений со сложной стилистикой: нам он известен своими предложениями - «глыбами». Последнее подтверждается и в нашем исследовании при анализе вариационного ряда, гистограммы и результатов вычисления M, D, H.
Глава 3
Случайная величина — это величина, которая принимает в результате опыта одно из множества значений, причем появление того или иного значения этой величины до её измерения нельзя точно предсказать.
Если каждому
Случайные величины
могут принимать дискретные, непрерывные
и дискретно-непрерывные
Дискретной называется случайная величина, которая может принимать конечное или счетное множество значений (счетным называют множество, элементы которого можно пронумеровать).
Непрерывной СВ называют случайную величину, возможные значения которой сплошь заполняют некоторый числовой интервал.
Дискретная СВ может принимать возможные значения с различными вероятностями. Чтобы охарактеризовать дискретную случайную величину в статистическом смысле, необходимо указать вероятности всех ее значений.
Свойства.
1)Математическое ожидание числа есть само число.
M[a] = a
2)Математическое ожидание линейно, то есть
M[aX + bY] = aM[X] + bM[Y],
где X,Y — случайные величины с конечным математическим ожиданием, а — произвольные константы;
3) Математическое ожидание сохраняет неравенства;
4) Математическое ожидание не зависит от поведения случайной величины на событии вероятности нуль, то есть если X = Y почти наверное, то
M[X] = M[Y].
5) Математическое ожидание произведения двух независимых случайных величин X,Y равно произведению их математических ожиданий
M[XY] = M[X]M[Y].
Кумуляти́вная фу́нкция распределе́ния (или просто функция распределения) в теории вероятностей однозначно задаёт распределение случайной величины или случайного вектора.
Пусть дано вероятностное пространство , и на нём определена случайная величина X с распределением . Тогда функцией распределения случайной величины X называется функция , задаваемая формулой:
Если случайная величина X дискретна, то есть её распределение однозначно задаётся функцией вероятности