Автор: Пользователь скрыл имя, 06 Апреля 2011 в 12:31, курсовая работа
C помощью ППП "Statistica" показан анализ пациентов и клиник в которых они проходили лечение сердечно-сосудистых заболеваний.
Основные проблемы анализа выживаемости……………………………..……3
I. Таблицы времён жизни …………… …………… …………… …………… ..4
1.1 Исходные данные………………………………………………………….….4
1.2 Построение таблиц времён жизни……………………………………...……6
1.3 Аппроксимация эмпирических данных теоретическим распределением……………………………………………………………………11
II. Оценки Каплана-Майера…………………………………………………..…17
III. Сравнение выживаемости в группах…………………………………….…21
Список литературы………………………………………………………………23
МИНИСТЕРСТВО
НАУКИ И ОБРАЗОВАНИЯ РФ
МОСКОВСКИЙ
ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ
Курсовая работа:
«Анализ
выживаемости в системе
«Statistica»
гр. ДЭС-401
Москва,
2008
Содержание
Основные проблемы
анализа выживаемости…………………………
I. Таблицы времён жизни …………… …………… …………… …………… ..4
1.1 Исходные данные………………………………………………………….…
1.2 Построение
таблиц времён жизни……………………………
1.3 Аппроксимация
эмпирических данных теоретическим распределением…………………………………………
II. Оценки Каплана-Майера…………………………………………
III. Сравнение выживаемости в группах…………………………………….…21
Список литературы…………………………………
Методы анализа выживаемости (Survival Analisis) первоначально были развиты в медицинских, биологических исследованиях и страховании, но затем стали шароко применяться в социальных и экономических науках, а также в промышленности в инженерных задачах (анализ надежности и время отказов)
Одной из важных характеристик, описывающих течение болезни, является продолжительность жизни пациентов с момента поступления в клинику или после проведения операции. В принципе, для описания средних времен жизни и сравнения новой методики со старой можно использовать стандартные статистические методы. Однако рассматриваемые данные имеют специфику, которую следует учитывать. Дело в том, что в медицинской практике мы часто имеем дело с неполными данными.
Это связано с тем, что трудно наблюдать все время жизни пациента после операции, так как пациент мог быть выписан или переведен в другую клинику и связь с ним была утеряна. При этом мы располагаем не полной информацией о времени жизни пациента, а лишь частичной. Естественное желание исследователя использовать все данные, т. е. анализировать как полные времена жизни, так и неполные, и не терять с трудом собранную информацию. Для этого и предназначены методы анализа выживаемости, которые позволяют изучать неполные или цензурированные данные. Наблюдения, которые содержат неполную информацию, называются неполными или цензурированными (например, «пациент А был жив по крайней мере 4 месяца после того, как был переведен в другую клинику и контакт с ним был потерян»). Это пример цензурированного наблюдения: информация о том, что пациент был жив 4 месяца, важна и может быть использована для построения оценок. Наблюдения от момента операции до летального исхода называется полными.
Итак,
в анализе выживаемости различают
полные (по-английски complete) и неполные,
или цензурированные, наблюдения (по-английски
censored). Конечно, можно было использовать
только полные времена жизни, но тогда
мы имели бы в своем распоряжении очень
мало наблюдений и соответственно неточные
оценки. Использование, наряду с полными
наблюдениями, неполных или цензурированных
наблюдений является главной особенностью
методов анализа выживаемости.
I.Таблицы времён жизни
1.1.
Исходные данные
Таблица 1
Данные
о пациентах, перенесших
операцию на сердце
MONTH_1 | DAY_1 | YEAR_1 | MONTH_2 | DAY_2 | YEAR_2 | CENSORED | AGE | ANTIGEN | MISMATCH | HOSPITAL | |
1 | JANUARY | 6 | 68 | JANUARY | 21 | 68 | CENSORED | 54 | 0 | 1,11 | HILLVIEW |
2 | MAY | 2 | 68 | MAY | 5 | 68 | CENSORED | 40 | 0 | 1,66 | HILLVIEW |
3 | AUGUST | 31 | 68 | MAY | 17 | 70 | COMPLETE | 51 | 0 | 1,32 | HILLVIEW |
4 | SEPTEMBR | 9 | 68 | JANUARY | 14 | 69 | CENSORED | 48 | 0 | 0,36 | ST_AND |
5 | OCTOBER | 5 | 68 | DECEMBER | 8 | 68 | COMPLETE | 54 | 0 | 1,89 | ST_AND |
6 | OCTOBER | 26 | 68 | JULY | 7 | 72 | COMPLETE | 54 | 0 | 0,87 | BINER |
7 | NOVEMBER | 22 | 68 | AUGUST | 29 | 69 | COMPLETE | 49 | 0 | 1,12 | BINER |
8 | NOVEMBER | 20 | 68 | DECEMBER | 13 | 68 | CENSORED | 56 | 0 | 2,05 | HILLVIEW |
9 | FEBRUARY | 15 | 69 | FEBRUARY | 25 | 69 | COMPLETE | 55 | 1 | 2,76 | HILLVIEW |
10 | FEBRUARY | 8 | 69 | NOVEMBER | 29 | 71 | COMPLETE | 43 | 0 | 1,13 | BINER |
11 | MARCH | 29 | 69 | MAY | 7 | 69 | COMPLETE | 42 | 0 | 1,38 | HILLVIEW |
12 | APRIL | 13 | 69 | APRIL | 13 | 71 | COMPLETE | 58 | 0 | 0,96 | ST_AND |
13 | JULY | 16 | 69 | NOVEMBER | 29 | 69 | COMPLETE | 52 | 1 | 1,62 | ST_AND |
14 | MAY | 22 | 69 | APRIL | 1 | 74 | CENSORED | 33 | 0 | 1,06 | ST_AND |
15 | AUGUST | 16 | 69 | AUGUST | 17 | 69 | CENSORED | 54 | 0 | 0,47 | BINER |
16 | SEPTEMBR | 3 | 69 | DECEMBER | 18 | 71 | COMPLETE | 44 | 0 | 1,58 | BINER |
17 | SEPTEMBR | 14 | 69 | NOVEMBER | 13 | 69 | COMPLETE | 64 | 0 | 0,69 | HILLVIEW |
18 | JANUARY | 16 | 70 | APRIL | 1 | 74 | CENSORED | 49 | 0 | 0,91 | BINER |
19 | JANUARY | 3 | 70 | APRIL | 1 | 74 | CENSORED | 40 | 0 | 0,38 | HILLVIEW |
20 | MAY | 19 | 70 | JULY | 12 | 70 | COMPLETE | 49 | 0 | 2,09 | HILLVIEW |
21 | MAY | 13 | 70 | JUNE | 29 | 70 | COMPLETE | 61 | 1 | 0,87 | ST_AND |
22 | MAY | 9 | 70 | MAY | 9 | 70 | CENSORED | 41 | 0 | 0,87 | ST_AND |
23 | JULY | 4 | 70 | APRIL | 1 | 74 | CENSORED | 48 | 0 | 0,75 | BINER |
24 | OCTOBER | 15 | 70 | APRIL | 1 | 74 | CENSORED | 45 | 0 | 0,98 | BINER |
25 | JANUARY | 5 | 71 | FEBRUARY | 18 | 71 | CENSORED | 36 | 0 | 0,00 | ST_AND |
26 | JANUARY | 11 | 71 | OCTOBER | 1 | 73 | COMPLETE | 48 | 0 | 0,81 | BINER |
27 | FEBRUARY | 22 | 71 | APRIL | 14 | 71 | COMPLETE | 47 | 0 | 1,38 | HILLVIEW |
28 | MARCH | 22 | 71 | APRIL | 1 | 74 | CENSORED | 36 | 0 | 1,35 | HILLVIEW |
29 | APRIL | 24 | 71 | JANUARY | 2 | 72 | COMPLETE | 48 | 1 | 1,08 | HILLVIEW |
30 | AUGUST | 18 | 71 | OCTOBER | 8 | 71 | COMPLETE | 52 | 0 | 1,51 | ST_AND |
31 | NOVEMBER | 8 | 71 | APRIL | 1 | 74 | CENSORED | 38 | 0 | 0,98 | ST_AND |
32 | OCTOBER | 13 | 71 | AUGUST | 30 | 72 | COMPLETE | 48 | 1 | 1,82 | ST_AND |
33 | DECEMBER | 15 | 71 | APRIL | 1 | 74 | CENSORED | 41 | 0 | 0,19 | BINER |
34 | NOVEMBER | 20 | 71 | JANUARY | 9 | 72 | COMPLETE | 49 | 0 | 0,66 | BINER |
35 | JANUARY | 7 | 72 | APRIL | 1 | 74 | CENSORED | 32 | 1 | 1,93 | BINER |
36 | MARCH | 4 | 72 | SEPTEMBR | 6 | 73 | CENSORED | 48 | 0 | 0,12 | HILLVIEW |
37 | MARCH | 17 | 72 | MAY | 22 | 72 | COMPLETE | 51 | 0 | 1,12 | HILLVIEW |
38 | MAY | 18 | 72 | JANUARY | 1 | 73 | CENSORED | 19 | 0 | 1,02 | HILLVIEW |
39 | APRIL | 9 | 72 | JUNE | 13 | 72 | COMPLETE | 45 | 1 | 1,68 | ST_AND |
40 | JUNE | 10 | 72 | APRIL | 1 | 74 | CENSORED | 48 | 0 | 1,20 | ST_AND |
41 | JUNE | 21 | 72 | JULY | 16 | 72 | COMPLETE | 53 | 1 | 1,68 | ST_AND |
42 | AUGUST | 20 | 72 | APRIL | 1 | 74 | CENSORED | 47 | 0 | 0,97 | BINER |
43 | AUGUST | 17 | 72 | APRIL | 1 | 74 | CENSORED | 26 | 1 | 1,46 | BINER |
44 | OCTOBER | 7 | 72 | DECEMBER | 9 | 72 | COMPLETE | 56 | 1 | 2,16 | BINER |
45 | SEPTEMBR | 22 | 72 | OCTOBER | 4 | 72 | CENSORED | 29 | 0 | 0,61 | HILLVIEW |
46 | NOVEMBER | 18 | 72 | APRIL | 1 | 74 | CENSORED | 52 | 1 | 1,70 | HILLVIEW |
47 | MAY | 31 | 73 | APRIL | 1 | 74 | CENSORED | 49 | 0 | 0,81 | HILLVIEW |
48 | FEBRUARY | 4 | 73 | MARCH | 5 | 73 | COMPLETE | 54 | 0 | 1,08 | ST_AND |
49 | DECEMBER | 31 | 72 | APRIL | 1 | 74 | CENSORED | 46 | 0 | 1,41 | ST_AND |
50 | JANUARY | 17 | 73 | APRIL | 1 | 74 | CENSORED | 52 | 1 | 1,94 | ST_AND |
51 | FEBRUARY | 24 | 73 | APRIL | 13 | 73 | CENSORED | 53 | 0 | 3,05 | BINER |
52 | MARCH | 7 | 73 | DECEMBER | 29 | 73 | COMPLETE | 42 | 0 | 0,60 | BINER |
53 | MARCH | 8 | 73 | APRIL | 1 | 74 | CENSORED | 48 | 1 | 1,44 | BINER |
54 | MAY | 19 | 73 | JULY | 8 | 73 | COMPLETE | 46 | 0 | 2,25 | HILLVIEW |
55 | APRIL | 27 | 73 | APRIL | 1 | 74 | CENSORED | 54 | 0 | 0,68 | HILLVIEW |
56 | AUGUST | 21 | 73 | OCTOBER | 28 | 73 | COMPLETE | 51 | 1 | 1,33 | HILLVIEW |
57 | SEPTEMBR | 12 | 73 | OCTOBER | 8 | 73 | CENSORED | 52 | 1 | 0,82 | ST_AND |
58 | MARCH | 2 | 74 | APRIL | 1 | 74 | CENSORED | 45 | 0 | 0,16 | ST_AND |
59 | AUGUST | 7 | 73 | APRIL | 1 | 74 | CENSORED | 47 | 0 | 0,33 | ST_AND |
60 | SEPTEMBR | 17 | 73 | FEBRUARY | 25 | 74 | COMPLETE | 43 | 0 | 1,20 | BINER |
61 | OCTOBER | 16 | 73 | APRIL | 1 | 74 | CENSORED | 26 | 0 | 0,46 | BINER |
62 | DECEMBER | 12 | 73 | APRIL | 1 | 74 | CENSORED | 23 | 1 | 1,78 | BINER |
63 | MARCH | 19 | 74 | APRIL | 1 | 74 | CENSORED | 28 | 1 | 0,77 | HILLVIEW |
64 | MARCH | 31 | 74 | APRIL | 1 | 74 | CENSORED | 35 | 0 | 0,67 | ST_AND |
В строках располагаются данные о каждом из прооперированных пациентов. В столбцах указаны даты начала наблюдения за пациентом (дата поступления в клинику/дата операции) – первые три переменные, даты окончания наблюдения (пациент выписался, и связь с ним была потеряна или умер) – последние три переменные. Программа интерпретирует первую и четвёртую переменные как месяцы, вторую и пятую – как дни, а третью и шестую – как год. Имеется также возможность сразу ввести времена жизни (что соответствует одной переменной в файле данных, вместо шести указанных) или даты в другом формате (соответственно, две переменные: дата начала и дата окончания наблюдения).
Так, например, из пятой строки видно, что пациенту под номером 4 была сделана операция 9 сентября 1968, а выписался он 14 января 1969 года. Так как далее связь с этим пациентом была утеряна, то имеем неполное (цензурированное) наблюдение. Ему соответствует значение стоящей в седьмом столбце переменной – censored (цензурирован).
Следующая за ней переменная в столбце 8 (AGE) характеризует возраст пациентов.
Переменные в 9-м и 10-м столбцах содержат специальную медицинскую информацию об особенностях операции (ANTIGEN, MISMATCH).
Значение переменной в столбце 11 указывает на название клиники, где была сделана операция.
Файл
исходных данных содержит 64 наблюдения,
т.е. данные о 64 пациентах трех клиник.
1.2.
Построение таблиц
времени жизни
На основе данных таблиц времен жизни (таблиц смертности - в терминологии страхования) определяется ряд элементарных статистик, необходимых для описания времени жизни пациентов (клиентов - в страховании).
В
некоторых случаях времена
Таблицу
времен жизни подобного вида можно
рассматривать как «
Количество интервалов на временной оси пользователь может задать самостоятельно. В приведенной ниже таблице это число равно 12 (с учетом того, что стандартный период наблюдения за пациентом составляет обычно 1 год).
Применительно к страхованию, область возможных времен наступления страховых случаев разбивается на некоторое число интервалов, а затем для каждого из них вычисляются доли объектов, у которых на данном интервале наступил страховой случай.
В
модуле «Анализ выживаемости» предусмотрена
возможность, обрабатывать как непосредственно
файл первичных данных, так и сгруппированные
данные. Ниже приведена таблица времен
жизни, полученная в результате обработки
исходной информации:
Таблица 2
Таблица
времен жизни
Обратимся к интерпретации переменных, составляющих содержание полученной электронной таблицы времен жизни (по столбцам):
Число пациентов, которые были живы в начале рассматриваемого временного интервала.
Число пациентов, связь с которыми была утеряна (т.е. изъятых из дальнейшего рассмотрения после того, как они выписались/перевелись из данной клиники). Эти объекты имеют метку цензурированные (censored) в файле исходных данных.
Число пациентов, которые были живы в начале рассматриваемого временного интервала, за вычетом половины от числа изъятых (цензурированных).
Число пациентов, умерших на данном отрезке времени (интервалe). Умершие объекты имеют метку complete.
Отношение
числа объектов, умерших в соответствующем
интервале, к общему числу объектов,
попавших в этот интервал.
Информация о работе Анализ выживаемости в системе "Statistica"