Автор: Пользователь скрыл имя, 13 Мая 2012 в 13:48, дипломная работа
В данном проекте рассматриваются вопросы оценки кредитоспособности физических лиц, анализируются существующие подходы анализа оценки кредитоспособности, описываются преимущества адаптивной скоринговой оценки кредитоспособности физических лиц, предлагается методика оценки кредитоспособности, производится апробация методики оценки кредитоспособности, анализируется ее эффективность.
введение
1. Оценка кредитоспособности физических лиц
1.1. Обобщенные кредитные продукты физических лиц
1.1.1. Потребительское кредитование на неотложные нужды
1.1.2. Овердрафт
1.1.3. Автокредитование
1.1.4. Ипотечное кредитование
1.2. Анализ подходов оценки кредитоспособности физических лиц.
1.2.1. Классическая скоринговая система
1.2.2. Статистические методы
1.2.3. Метод k-ближайших соседей
1.2.4. Нейросетевые методы
1.2.5. Методы построения деревьев решений
1.2.6. Экспертные системы
1.2.7. Преимущества использования скоринговой системы.
1.3. Выводы
2. разработка защищенной адаптивной скоринговой системы оценки кредитоспособности физических лиц
2.1. Формирование базы данных
2.1.1. Заявление анкета заемщика
2.1.2. Анализ доходов и расходов заемщика
2.1.3. База данных кредитных историй
2.2. Очистка, предобработка и подготовка данных
2.2.1. Обработка дубликатов и противоречий
2.2.2. Обработка аномалий
2.2.3. Корреляционный анализ
2.2.4. Трансформация данных
2.3. Построение дерева решений
2.3.1. Выбор критерия точности прогноза
2.3.2. Выбор типа ветвления
2.3.3. Определение момента прекращения ветвлений
2.3.4. Определение «подходящих» размеров дерева
2.4. Система оценки кредитоспособности физических лиц
2.4.4. Комплексная система оценки кредитоспособности физических лиц
2.4.5. Защита информационной системы.
2.5. Выводы
3. Апробация системы оценки кредитоспособности физических лиц
3.1. Цель апробация системы оценки кредитоспособности физических лиц
3.1.1. Определение адекватности построения дерева решений
3.1.2. Анализ целесообразности внедрения скоринговой системы в бизнес процесс
3.2. Условия и порядок проведения испытаний
3.2.1. Описание среды проведения испытаний
3.2.2. Получение исходных данных
3.2.3. Квантование данных
3.2.3. Замена данных
3.2.4. Очистка данных
3.2.5. Построение дерева принятия решений
3.3. Результаты апробации адаптивной скоринговой системы
3.4. Выводы
4. Безопасность жизнедеятельности
4.1. Введение
4.2. Охрана труда
4.2.1. Микроклимат рабочего помещения
4.2.2. Эргономика рабочего помещения
4.2.3. Освещенность рабочего места
4.2.2. Расчет естественного освещения
4.3. Охрана окружающей среды
4.3.1. Защита окружающей среды от электромагнитных излучений
4.3.2. Рекомендации
4.4. Чрезвычайные ситуации
5.Экономика защиты информации
5.1. Расчет затрат на внедрение системы
5.1.1. Общее описание системы
5.1.2. Расчет единовременных затрат
5.1.3. Расчет постоянных затрат
5.2. Расчет эффективности внедрения информационной системы оценки кредитоспособности физических лиц.
Заключение
Список литературы
Цель анализа с помощью деревьев классификации состоит в том, чтобы получить максимально точный прогноз. Эта проблема решается "переворачиванием с ног на голову": наиболее точным прогнозом считается такой, который связан с наименьшей ценой. Цена в нашем понятии - это доля неправильно классифицированных наблюдений. Понятие цена вводится для того, чтобы распространить на более широкий класс ситуаций ту идею, что самый лучший прогноз - такой, который дает наименьший процент неправильных классификаций.
Необходимость минимизировать не просто долю неправильно классифицированных наблюдений, а именно потери, возникает тогда, когда некоторые ошибки прогноза ведут к более катастрофическим последствиям, чем другие, или же когда ошибки некоторого типа встречаются чаще других.
Если априорные вероятности выбраны пропорциональными размерам классов, а цена ошибки классификации - одинаковая для всех классов, то минимизация потерь в точности эквивалентна минимизации доли неправильно классифицированных наблюдений. Рассмотрим априорные вероятности подробнее. Эти величины выражают то, как мы, не располагая никакой априорной информацией о значениях предикторных переменных модели, оцениваем вероятность попадания объекта в тот или иной класс.
Выбор априорных вероятностей, используемых для минимизации потерь, очень сильно влияет на результаты классификации. Если различия между исходными частотами в данной задаче не считаются существенными или если мы знаем заранее, что классы содержат примерно одинаковое количество наблюдений, то тогда можно взять одинаковые априорные вероятности. В случаях, когда исходные частоты связаны с размерами классов, следует в качестве оценок для априорных вероятностей взять относительные размеры классов в выборке. Наконец, если мы располагаем какой-то информацией об исходных частотах, то априорные вероятности нужно выбирать с учетом этой информации. В любом случае, приписывая классу ту или иную априорную вероятность, мы "учитываем" степень важности ошибки классификации объектов этого класса. Минимизация потерь - это минимизация общего числа неправильно классифицированных наблюдений с Априорными вероятностями, пропорциональными размерам классов, поскольку прогноз, чтобы давать меньший итоговый процент ошибок классификации, должен быть более точным на больших классах.
Цена ошибки классификации. Иногда необходимо по причинам, не связанным с размерами классов, для одних классов требуется более точный прогноз, чем для других.
На менее концептуальном уровне, использование весов наблюдений для весовой переменной в качестве множителей наблюдений для агрегированных данных также имеет отношение к минимизации потерь.
Априорные вероятности, цена ошибок классификации и веса наблюдений были рассмотрены здесь для того, чтобы показать, как самые разнообразные ситуации в прогнозировании можно охватить единой концепцией минимизации цены, - в противоположность достаточно узкому (хотя, возможно, часто встречающемуся) классу задач прогнозирования, для которых подходит более ограниченная (хотя и простая) идея минимизации доли неправильных классификаций. Далее, минимизация цены есть истинная цель классификации посредством деревьев классификации, и это отчетливо проявляется на четвертом (заключительном) этапе анализа: стремясь выбрать дерево "нужного размера", мы в действительности выбираем дерево с минимальной оценкой для цены. Для многих видов задач прогнозирования понять смысл уменьшения оценки для цены бывает очень важно для лучшего понимания окончательных результатов всего анализа.
Второй шаг анализа с помощью деревьев классификации заключается в том, чтобы выбрать способ ветвления по значениям предикторных переменных, которые используются для предсказания принадлежности анализируемых объектов к определенным классам значений зависимой переменной. В соответствии с иерархической природой деревьев классификации, такие ветвления производятся последовательно, начиная с корневой вершины, переходя к вершинам-потомкам, пока дальнейшее ветвление не прекратится и "неразветвленные" вершины-потомки окажутся терминальными. Ниже описаны три метода типа ветвления.
1. Дискриминантное одномерное ветвление. Если выбрано одномерное ветвление, прежде всего нужно решить вопрос, какую из терминальных вершин дерева, построенного к данному моменту, следует расщепить на данном шаге и какую из предикторных переменных при этом использовать. Для каждой терминальной вершины вычисляются p-уровни для проверки значимости зависимостей между принадлежностью объектов к классам и уровнями каждой из предикторных переменных. В случае категориальных предикторов p-уровни вычисляются для проверки гипотезы независимости принадлежности классам от уровня категориального предиктора в данном узле дерева. В случае порядковых предикторов p-уровни вычисляются для анализа взаимосвязи классовой принадлежности и значений порядкового предиктора в данном узле. Если наименьший из вычисленных p-уровней оказался меньше p-уровня для множественных 0.05-сравнений, принимаемого по умолчанию, или иного порогового значения, установленного пользователем, то для разветвления этого узла выбирается та предикторная переменная, которая и дала этот наименьший. Если среди p-уровней не оказалось ни одного, меньшего чем заданное пороговое значение, то p-уровни вычисляются по статистическим критериям, устойчивым к виду распределения.
Следующий шаг - ветвление. В случае порядковых предикторов для построения двух относящихся к данной вершине "суперклассов" применяется алгоритм кластеризации 2-средних. При этом находятся корни квадратного уравнения, характеризующего различие средних значений по "суперклассам" порядкового предиктора, и для каждого из корней вычисляются значения порога ветвления. Выбирается вариант ветвления, для которого значение ближе к среднему по "суперклассу". В случае категориального предиктора создаются фиктивные переменные, представляющие уровни этого предиктора, а затем с помощью метода сингулярного разложения фиктивные переменные преобразуются в совокупность неизбыточных порядковых предикторов. Затем применяется описанный выше алгоритм для порядковых предикторов, после чего полученное ветвление "проецируется обратно" в уровни исходной категоризующей переменной и трактуется как различие между двумя множествами уровней этой переменной.
2. Дискриминантное многомерное ветвление по линейным комбинациям. Другим типом ветвления является многомерное ветвление по линейным комбинациям для порядковых предикторных переменных (при этом требуется, чтобы предикторы были измерены как минимум по интервальной шкале). В этом методе способ использования непрерывных предикторных переменных, участвующих в линейной комбинации, очень похож на тот, который применялся в предыдущем методе для категоризующих переменных. С помощью сингулярного разложения непрерывные предикторы преобразуются в новый набор неизбыточных предикторов. Затем применяются процедуры создания "суперклассов" и поиска ветвления, ближайшего к среднему по "суперклассу", после чего результаты "проецируются назад" в исходные непрерывные предикторы и представляются как одномерное ветвление линейной комбинации предикторных переменных.
3. Полный перебор деревьев с одномерным ветвлением по методу CART. Третий метод выбора варианта ветвления - полный перебор деревьев с одномерным ветвлением по методу CART для категоризующих и порядковых предикторных переменных. В этом методе перебираются все возможные варианты ветвления по каждой предикторной переменной, и находится тот из них, который дает наибольший рост для критерия согласия. Для категоризующей предикторной переменной, принимающей в данном узле k значений, имеется ровно 2(k-1) - 1 вариантов разбиения множества ее значений на две части. Для порядкового предиктора, имеющего в данном узле k различных уровней, имеется k -1 точек, разделяющих разные уровни. Мы видим, что количество различных вариантов ветвления, которые необходимо просмотреть, будет очень большим, если в задаче много предикторов, у них много уровней значений и в дереве много терминальных вершин.
При полном переборе деревьев с одномерным ветвлением по методу CART ищется вариант ветвления, при котором максимально уменьшается значение выбранного критерия согласия. Классификация будет абсолютно точной, если согласие окажется полным.
Третий этап анализа с помощью деревьев классификации заключается в выборе момента, когда следует прекратить дальнейшие ветвления. Деревья классификации обладают тем свойством, что если не установлено ограничение на число ветвлений, то можно прийти к "чистой" классификации, когда каждая терминальная вершина содержит только один класс наблюдений (объектов).
1. Число неклассифицированных. В этом варианте ветвления продолжаются до тех пор, пока все терминальные вершины не окажутся чистыми или будут содержать не более чем заданное число объектов (наблюдений). Число неклассифицированных, и ветвление прекращается, когда все терминальные вершины, содержащие более одного класса, содержат не более чем заданное число объектов (наблюдений).
2. Доля неклассифицированных. При выборе этого варианта ветвления продолжаются до тех пор, пока все терминальные вершины не окажутся чистыми или будут содержать количество объектов, не превышающее заданную долю численности одного или нескольких классов. Ветвление прекратится, когда все терминальные вершины, содержащие более одного класса, будут содержать количество наблюдений, не превышающее заданную долю объема одного или нескольких классов. Если же априорные вероятности выбирались не одинаковыми, то ветвление прекратится, когда все терминальные вершины, содержащие более одного класса, будут содержать количество наблюдений, не превышающее заданную долю объема одного или нескольких классов.
Дерево классификации должно быть достаточно сложным для того, чтобы учитывать имеющуюся информацию, и в то же время оно должно быть как можно более простым. Дерево должно уметь использовать ту информацию, которая улучшает точность прогноза, и игнорировать ту информацию, которая прогноза не улучшает.
Существуют следующие правила остановки дерева классификации:
1. Использование статистических методов для оценки целесообразности дальнейшего разбиения, так называемая "ранняя остановка". В конечном счете "ранняя остановка" процесса построения привлекательна в плане экономии времени обучения, но здесь уместно сделать одно важное предостережение: этот подход строит менее точные классификационные модели и поэтому ранняя остановка крайне нежелательна.
2. Ограничить глубину дерева. Остановить дальнейшее построение, если разбиение ведет к дереву с глубиной превышающей заданное значение.
3. Разбиение должно быть нетривиальным, т.е. получившиеся в результате узлы должны содержать не менее заданного количества примеров.
Система оценки кредитоспособности физических лиц должна учитывать особенности кредитных продуктов, а также регионов, в которых оценивается кредитоспособность заемщика.
Рассмотрим алгоритм работы системы оценки кредитоспособности физических лиц (см. рис. 2.5).
1. На первом этапе кредитная заявка вводится в систему обработки кредитных заявок кредитным инспектором, который проверяет наличие всех документов и прикрепляет их для проверки в службу безопасности. Параметры, которые участвуют в расчете скорингового балла должны выбираться из списка заданной системой.
2. На данном этапе кредитная заявка проверяется на стоп-факторы. Стоп-факторы представляют собой условия кредитования, проверка клиента в списке неблагонадежных клиентов.
3. Расчет скорбалла осуществляется в системе обработки кредитных заявок по правилам, которые разработаны в аналитической платформе Detuctor 5.1. Дерево принятия решений должно разрабатываться с учетом особенностей кредитного продукта и региона рассматриваемой заявки, т.е. для каждого региона и обобщенного кредитного продукта строится отдельное дерево принятия решений.
4. Для каждого кредитного продукта подсчитанный скорбалл сверяется с необходимым для прохождения кредитной заявки, т.е. если клиент не набирает необходимое количество баллов, то заявка автоматически отклоняется.
5. Для пластиковых карт и потребительского кредитования с низкой суммой кредита при прохождении этапа сравнения скорбалла, осуществляется выдача кредита, в остальных случаях кредитная заявка отправляется на обработку в службу безопасности.
6. По некоторым типам продукта, такие как потребительское кредитование, овердрафт на средние суммы, а также автокредитование на низкие суммы после проверки службы безопасности и в случае если служба безопасности принимает положительное решение, то по заявке принимается положительное решение или отказ в выдаче. По остальным кредитным продуктам и другим условиям данных кредитных продуктов кредитная заявка отправляется на кредитный комитет.
Информация о работе Защищенная информационная система оценки кредитоспособности физических лиц