Анализ выживаемости в системе "Statistica"

Автор: Пользователь скрыл имя, 06 Апреля 2011 в 12:31, курсовая работа

Описание работы

C помощью ППП "Statistica" показан анализ пациентов и клиник в которых они проходили лечение сердечно-сосудистых заболеваний.

Содержание

Основные проблемы анализа выживаемости……………………………..……3
I. Таблицы времён жизни …………… …………… …………… …………… ..4
1.1 Исходные данные………………………………………………………….….4
1.2 Построение таблиц времён жизни……………………………………...……6
1.3 Аппроксимация эмпирических данных теоретическим распределением……………………………………………………………………11
II. Оценки Каплана-Майера…………………………………………………..…17
III. Сравнение выживаемости в группах…………………………………….…21
Список литературы………………………………………………………………23

Работа содержит 1 файл

Курсовая НА ПЕЧАТЬ.doc

— 896.50 Кб (Скачать)

Таблица 3

Таблица времен жизни (окончание) 

 

  • Кумулятивная  доля выживших объектов  или функция выживания (Cum. Prop Survivng)

    Это кумулятивная доля выживших к началу соответствующего временного интервала. Полученная доля, как функция от времени, представляет собой оценку функции  выживания, то есть вероятность того, что пациент переживет данный период времени. Поскольку вероятности выживания считаются независимыми на разных интервалах, эта доля равна произведению долей выживших объектов по всем предыдущим интервалам.

  • Плотность вероятности (Problty Density)

    Это оценка вероятности смерти (отказа) на соответствующем интервале. Получается в результате вычитания из значения функции выживания на данном интервале значения функции выживания на следующем интервале с последующим делением на ширину соответствующего интервала:

    где - оценка вероятности смерти (отказа) в i-м интервале, - кумулятивная доля выживших объектов (функция выживания) к началу i-го интервала, - ширина i-го интервала.

    Например, значение второй строки столбца Problty Density рассчитывается следующим образом:

     .

    На  графике оценки плотности вероятности видно, что вероятность смерти в первые 160 дней после операции максимальна. Далее она резко падает.

    Большие вероятности смерти расположены  также в интервалах от 161 до 332, от 968 до 1129 и т.д. 
     

Рис. 1. Функция  плотности вероятности смерти. 
 

  • Функция мгновенного риска или функция интенсивности (Hazard Rate)

    Это одна из важных характеристик, описывающих  течение болезни, обладающая хорошими прогностическими свойствами. В общем случае формально она соответствует вероятности наступления отказа в течение малого интервала времени [t, t+dt), при условии, что до момента t отказ не произошел. В терминах анализа выживаемости значение функции интенсивности соответствует вероятности того, что пациент умрет на данном временном интервале, при условии, что в начале интервала он был жив.

    Оценка  функции интенсивности вычисляется  как число смертей (отказов), приходящихся на единицу времени соответствующего интервала, деленное на среднее число  пациентов (объектов), доживших до момента  времени, приходящегося на середину этого интервала. 

    

Рис. 2. Функция мгновенного риска. 

    График  функции мгновенного риска наглядно свидетельствует о том, что в  первые дни после операции на сердце риск смерти очень велик, затем он значительно падает до 322 дня, а спустя некоторое время вновь начинает возрастать до 806 дня, затем резко возрастает до 968 дня, после этого идет столь же резкое падение вероятности смерти до 1129 дня, после чего функция вновь начинает резкий рост. Заметим, что именно функция риска используется исследователем в дальнейшем для прогностических целей.

    Итак, исследователя интересует функция  риска, однако реально возможно получить лишь оценку функции риска. Поэтому важна точность получаемых оценок. Понятно, что нельзя доверять оценкам, имеющим большую погрешность (например, если погрешность имеет тот же порядок, что и сами оценки). Поэтому следует внимательно просмотреть построенную таблицу и, если позволяет объем выборки, удалить из неё все «плохие» оценки, т.е. оценки с большой погрешностью. Это чрезвычайно важный принцип анализа данных!

    С этой целью в таблице наряду с оценками приведены их стандартные ошибки для каждой из трех описанных выше функций (Std. Err. Cum. Proportion Surviving, Probability Density, Hazard Rate).

    Замечание. Для получения надежных оценок параметров трех вышеназванных основных функций (функции выживания, плотности вероятности и интенсивности) и их стандартных ошибок на каждом временном интервале в таблицах времен жизни требуется, чтобы исходный файл содержал не менее 30 наблюдений.

  • Медиана ожидаемого времени жизни (Median Life Exp)

    По  определению, медиана соответствует точке на временной оси, в которой кумулятивная функция выживания принимает значение 0,5. Например, из первой строчки таблицы столбца Median Life Exp видно, что пациент с вероятностью 0,5 будет жить 842 дня после операции. Если пациент пережил первый временной интервал (161 день после операции на сердце), то с вероятностью 0,5 он проживет еще 1037 дней, что соответствует второй строке таблицы и т.д. Другие процентили (например, 25-й и 75-й процентили или квартили) кумулятивной функции выживания вычисляются по такому же принципу. Следует иметь ввиду, что 50-й процентиль (медиана) кумулятивной функции выживания обычно не совпадает с точкой выживания 50% наблюдений данной выборки! Такое совпадение возможно только тогда, когда в течение прошедшего отрезка времени не было цензурированных наблюдений  

    Еще раз подчеркнем, что в общем  случае таблица времен жизни дает хорошее представление о распределении смертей (отказов – в технике) во времени, если наблюдений достаточно много (как минимум 30). 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

1.3. Аппроксимация эмпирических данных теоретическим распределением.

    Для целей прогноза часто необходимо знать аналитическую форму построенной функции выживания. Для описания продолжительности жизни в анализе выживаемости наиболее важны и часто используемы следующие семейства распределений: экспоненциальное распределение (в том числе модель с линейной интенсивностью), распределение Вейбулла (экстремальных значений) и распределение Гомперца.  

    Существует  два основных метода подгонки теоретического распределения к сгруппированным  данным.

    Первый  подход состоит в интерполяции, т.е. в переводе таблицы времен жизни в непрерывный массив данных, при этом предполагается, что:

  1. каждый отказ происходит в середине интервала группировки,
  2. цензурирование происходит после отказов (т.е. цензурированные наблюдения располагаются за отказами в каждом интервале группировки). Данный метод применим в ситуациях, когда интервалы группировки относительно малы.

    Во  втором подходе имеющиеся данные рассматриваются как таблица времен жизни. Для проведения оценивания параметров применима модель линейной регрессии, т.к. все перечисленные семейства распределений могут быть сведены к линейным относительно оцениваемых параметров с помощью соответствующих преобразований. Поэтому процедура оценивания основана на методе наименьших квадратов.

    Однако, такие преобразования приводят иногда к тому, что дисперсия остатков зависит от интервалов (то есть дисперсия различна на разных интервалах). Чтобы учесть это, в алгоритмах подгонки дополнительно используются оценки метода взвешенных наименьших квадратов двух типов. Программа по умолчанию сама выбирает те из них, которые производят лучшую аппроксимацию (на основе критерия c²). На практике оба подхода приводят к очень близким значениям оценок параметров. Возможно также для оценки параметров сгруппированных данных применение метода максимального правдоподобия.

    В модуле Анализ выживаемости (Survival Analysis) предусмотрена возможность аппроксимировать данные основными семействами распределений, используя либо обычный метод наименьших квадратов, либо две его модификации с весами.

    Чтобы выбрать наиболее подходящее семейство  распределений из имеющегося в арсенале исследователя списка, сначала рассмотрим модель  экспоненциального распределения (выбрав позицию Экспоненциальный (Exponential) в выпадающем списке поля Результаты для модели (Results for Model)). Кроме того, в этом поле имеется возможность выбрать следующие модели распределений: модель с линейной интенсивностью (Linear Hazard), модель Гомпертца (Gompertz) и модель Вейбулла (Weibull).

    Оценка  согласия теоретического и эмпирического  распределений проводится с помощью  критерия c².

    Чтобы определить оценки для выбранного семейства распределений, а также значение c², нажимаем кнопку Оценки параметров (Parameter estimates).

Таблица 4

Процедура оценки параметров экспоненциального  распределения 

    Если  критерий значим, делается вывод о  том, что подогнанное (теоретическое) распределение значимо отличается от эмпирического (как в данном примере), поэтому это семейство распределений отвергается для описания формы функции выживания.

    Из  приведенной таблицы  видно, что  ни один из представленных методов оценивания (подгонки) не даёт для экспоненциального распределения удовлетворительного согласия. Такую же картину можно наблюдать на приведенном ниже графике эмпирической функции выживания и кривых  экспоненциального распределения: ни одна из трех экспонент (соответствующих трем различным алгоритмам оценивания) не аппроксимирует наблюдаемую функцию выживания удовлетворительно. Эмпирическая функция выживания сильно отклоняется от второй аппроксимирующей функции (Weight 2); согласованность с двумя другими теоретическими кривыми (Weight 1, Weight 3) несколько лучше, но при этом сохраняется значимое их отличие от «волнообразного» характера поведения рассматриваемой эмпирической функции. Поэтому необходимо продолжить поиск лучшей аппроксимации. 
 

 

Рис.3. Графическое представление эмпирической функции выживания и теоретических кривых экспоненциального распределения. 
 
 
 
 
 

    Теперь рассмотрим модель с линейной интенсивностью (Linear Hazard). 
     

Таблица 5

Процедура оценки параметров линейного распределения 

 
 

Рис.4. Графическое представление эмпирической функции выживания и теоретических кривых линейного распределения.

    Эмпирическая  функция выживания сильно отклоняется  от второй аппроксимирующей функции (Weight 2); согласованность с двумя другими теоретическими кривыми (Weight 1, Weight 3) несколько лучше, но при этом сохраняется значимое их отличие от «волнообразного» характера поведения рассматриваемой эмпирической функции. Поэтому необходимо продолжить поиск лучшей аппроксимации. 
 
 

    Теперь рассмотрим модель Гомпертца (Gompertz). 
     
     
     
     
     
     

Таблица 6

Процедура оценки параметров распределения Гомпертца 

 
 

Рис.5. Графическое представление эмпирической функции выживания и теоретических кривых распределения Гомпертца. 

    Эмпирическая  функция выживания сильно отклоняется от первой аппроксимирующей функции (Weight 1); согласованность с двумя другими теоретическими кривыми (Weight 2, Weight 3) лучше, но всё же необходимо продолжить поиск лучшей аппроксимации. 
 

    Наконец, рассмотрим модель Вейбулла (Weibull). 
     

Таблица 7

Процедура оценки параметров распределения Вейбулла 

     

    Сравнив оценки параметров для остальных  семейств распределений, предлагаемых системой «Statistica», можно сделать вывод, что только для распределения Вейбулла (при оценивании по минимуму суммы взвешенных квадратов, т.е. по третьему алгоритму Weight 3) отсутствует значимое отличие от наблюдаемых значений: c²-критерий не даёт значимого отклонения (p=0,58). Следовательно, распределение Вейбулла с таким набором параметров описывает наблюдаемые времена жизни наилучшим образом. Однако стоит заметить, что исследователь ограничен в выборе  лишь из трех представленных наборов параметров.

Информация о работе Анализ выживаемости в системе "Statistica"