Автор: Пользователь скрыл имя, 13 Мая 2012 в 13:48, дипломная работа
В данном проекте рассматриваются вопросы оценки кредитоспособности физических лиц, анализируются существующие подходы анализа оценки кредитоспособности, описываются преимущества адаптивной скоринговой оценки кредитоспособности физических лиц, предлагается методика оценки кредитоспособности, производится апробация методики оценки кредитоспособности, анализируется ее эффективность.
введение
1. Оценка кредитоспособности физических лиц
1.1. Обобщенные кредитные продукты физических лиц
1.1.1. Потребительское кредитование на неотложные нужды
1.1.2. Овердрафт
1.1.3. Автокредитование
1.1.4. Ипотечное кредитование
1.2. Анализ подходов оценки кредитоспособности физических лиц.
1.2.1. Классическая скоринговая система
1.2.2. Статистические методы
1.2.3. Метод k-ближайших соседей
1.2.4. Нейросетевые методы
1.2.5. Методы построения деревьев решений
1.2.6. Экспертные системы
1.2.7. Преимущества использования скоринговой системы.
1.3. Выводы
2. разработка защищенной адаптивной скоринговой системы оценки кредитоспособности физических лиц
2.1. Формирование базы данных
2.1.1. Заявление анкета заемщика
2.1.2. Анализ доходов и расходов заемщика
2.1.3. База данных кредитных историй
2.2. Очистка, предобработка и подготовка данных
2.2.1. Обработка дубликатов и противоречий
2.2.2. Обработка аномалий
2.2.3. Корреляционный анализ
2.2.4. Трансформация данных
2.3. Построение дерева решений
2.3.1. Выбор критерия точности прогноза
2.3.2. Выбор типа ветвления
2.3.3. Определение момента прекращения ветвлений
2.3.4. Определение «подходящих» размеров дерева
2.4. Система оценки кредитоспособности физических лиц
2.4.4. Комплексная система оценки кредитоспособности физических лиц
2.4.5. Защита информационной системы.
2.5. Выводы
3. Апробация системы оценки кредитоспособности физических лиц
3.1. Цель апробация системы оценки кредитоспособности физических лиц
3.1.1. Определение адекватности построения дерева решений
3.1.2. Анализ целесообразности внедрения скоринговой системы в бизнес процесс
3.2. Условия и порядок проведения испытаний
3.2.1. Описание среды проведения испытаний
3.2.2. Получение исходных данных
3.2.3. Квантование данных
3.2.3. Замена данных
3.2.4. Очистка данных
3.2.5. Построение дерева принятия решений
3.3. Результаты апробации адаптивной скоринговой системы
3.4. Выводы
4. Безопасность жизнедеятельности
4.1. Введение
4.2. Охрана труда
4.2.1. Микроклимат рабочего помещения
4.2.2. Эргономика рабочего помещения
4.2.3. Освещенность рабочего места
4.2.2. Расчет естественного освещения
4.3. Охрана окружающей среды
4.3.1. Защита окружающей среды от электромагнитных излучений
4.3.2. Рекомендации
4.4. Чрезвычайные ситуации
5.Экономика защиты информации
5.1. Расчет затрат на внедрение системы
5.1.1. Общее описание системы
5.1.2. Расчет единовременных затрат
5.1.3. Расчет постоянных затрат
5.2. Расчет эффективности внедрения информационной системы оценки кредитоспособности физических лиц.
Заключение
Список литературы
Если обнаруженное аномальное значение действительно искажает информацию об исследуемом бизнес-процессе, может повлиять на эффективность аналитической модели и достоверность результатов анализа, то необходимо выполнить его корректировку. Для этого в зависимости от логики и особенностей решаемой задачи анализа можно использовать несколько способов.
1. Удаление записи с аномальным значением – если число записей в выборке данных существенно превышает минимум, требуемый для анализа, то записи, содержащие аномальные значения, можно просто удалить.
2. Ручная замена аномальных значений – применяется, если количество аномальных значений невелико и они могут быть обработаны вручную. При этом аналитик меняет аномальные значения на другие, более соответствующие модели поведения данных.
3. Сглаживание и фильтрация данных – для обработки аномальных значений можно использовать методы частотной или пространственной фильтрации, применяемые при сглаживании данных и очистке от шумов. Но при этом следует учитывать, что в результате обработки будут изменены не только аномальные значения
Для численной оценки связи между двумя случайными величинами используется корреляционный анализ. В математике зависимость между двумя величинами X и Y выражается с помощью функции y=f(x), где каждому возможному значению X ставится в соответствие не более одного значения Y (так называемая функциональная зависимость).
Важным частным случаем зависимости является корреляционная. Корреляционная связь чаще всего характеризуется выборочным коэффициентом корреляции r, который характеризует степень линейной функциональной зависимости между случайными величинами X и Y. Для двух
случайных величин X и Y коэффициент корреляции имеет следующие свойства[20]:
1) -1 ≤ r ≤ 1;
2) если r = ±1, то между X и Y существует функциональная линейная зависимость;
3) если r=0, то X и Y некоррелированны, что не означает независимости вообще (может иметь место нелинейная зависимость);
4) коэффициенты корреляции Y на X и X на Y совпадают.
Принцип корреляционного анализа состоит в поиске таких значений, которые в наименьшей степени коррелированны (взаимосвязаны) с выходным результатом. Такие факторы могут быть исключены из результирующего набора данных практически без потери полезной информации. Второе применение – поиск во входных признаках таких пар, между которыми существует функциональная линейная зависимость. В этом случае из двух признаков целесообразно оставить только один.
На практике считается, что корреляция, большая 0,6, означает очень высокую связь между двумя признаками, меньшая 0,3 – отсутствие зависимости, а промежуточные значения констатируют наличие определенной связи.
Каждая выборка исходных данных, загружаемая в аналитическое приложение, характеризуется набором свойств, которые могут оказать влияние на эффективность работы аналитической модели и снизить достоверность результатов анализа. Дело в том, что даже если данные очищены от таких факторов, снижающих их качество, как дубликаты и противоречия, шумы, аномальные значения, пропуски и т.д., они все еще могут не соответствовать методике и целям анализа. Это связано не с их содержанием, а с их представлением и внутренней организацией.
Может возникнуть парадокс – данные совершенно корректны с точки зрения их качества, а их информационное содержание вполне достаточно для решения аналитической задачи, но представление и организация данных делают анализ затрудненным или вообще невозможным. Данные могут быть разобщены, неупорядочены, представлены в форматах, с которыми не может работать определенная аналитическая модель или алгоритм. Трансформация данных, т.е. их преобразование к определенному представлению, формату или виду, оптимальному с точки зрения решаемой задачи, и призвана решить эту проблему.
Основные методы трансформации данных.
1. Преобразование временных данных. Позволяет оптимизировать представление данных во временном формате с целью обеспечения эффективности анализа во всех возможных интервалах даты и времени.
2. Квантование. Позволяет разбить диапазон возможных значений числового признака на заданное количество интервалов и присвоить номера интервалов попавшим в них значениям. Также обычно применяется операция обратная квантованию – восстановление функции по ее квантованным значениям.
3. Сортировка. Позволяет изменить порядок следования записей исходной выборки данных в соответствии с определенным пользователем алгоритмом. В некоторых случаях сортировка позволяет упростить визуальный анализ выборки, оперативно определить наибольшие и наименьшие значения признаков и т.д.
4. Слияние. Позволяет выполнить объединение двух таблиц по одноименным полям или дополнение одной таблицы записями из другой, которые отсутствуют в дополняемой. Слияние применяется в тех случаях, когда информацию в анализируемой выборке данных необходимо дополнить информацией из другой выборки. При объединении к записям исходной выборки добавляются все записи другой. В случае дополнения к исходной выборке добавляются только те данные, которые отсутствовали в исходной. Операция слияния является одним из инструментов для обогащения данных. Если выборка данных содержит недостаточно данных для выполнения анализа, то для ее обогащения можно дополнить недостающей информацией из другой выборки.
5. Группировка. Очень часто информация, интересующая пользователя с точки зрения анализа, оказывается в таблице «разбавлена» посторонними данными, разобщена, разбросана по отдельным полям и записям. Используя группировку, пользователь может обобщить нужную информацию, объединив ее в минимально необходимое количество полей и значений. Обычно предусматривают возможность выполнения и обратной операции - разгруппировки.
6. Настройка набора данных. Позволяет изменять имена, типы, метки и назначения полей исходной выборки данных. Например, если поле, содержащее числовую информацию, в источнике данных по какой-либо причине имеет строковый тип, значения этого поля не могут обрабатываться как числа. Чтобы работа с числовыми данными этого поля стала возможной, их следует преобразовать к числовому типу.
7. Табличная подстановка значений. Позволяет производить замену значений в исходной выборке данных на основе так называемой таблицы подстановки. Таблица подстановки содержит пары «исходное значение – новое значение». Каждое значение выборки данных проверяется на соответствие исходному значению таблицы подстановки, и если такое соответствие найдено, то значение выборки изменяется на соответствующее новое значение из таблицы подстановки. Это очень удобный способ для автоматической корректировки значений.
8. Вычисляемые значения. Иногда для анализа требуется информация, отсутствующая в явном виде в исходных данных, но которая может быть получена на основе вычислений над имеющимися значениями. Для этих целей в аналитическое приложение включается своего рода калькулятор, который позволяет выполнять над данными исходной выборки различные вычисления. Поскольку анализируемые данные могут иметь различные типы (строковый, числовой, дата/время, логический), то механизм расчетов должен поддерживать работу не только с числовыми данными, но и с данными других типов, например, выделять подстроку, выполнять логические операции и т.д.
9. Нормализация. Нормализация позволяет преобразовать диапазон изменения значений числового признака в другой диапазон, который более удобен для применения к данным тех или иных аналитических алгоритмов, а также согласовывать диапазоны изменений различных признаков.
Слияние данных
В практике анализа достаточно часто встречается ситуация, когда требуемые данные приходится собирать из нескольких таблиц. Необходимость в этом обычно возникает в следующих случаях:
данные, которые нужны для анализа, «разбросаны» по нескольким таблицам;
данные в исходной таблице несут недостаточно информации для качественного анализа, и поэтому требуется процедура их обогащения, которая обычно связана с добавлением в таблицу данных из сторонних источников.
Ситуация, когда анализируемые данные оказываются в нескольких таблицах или когда берутся из отдельных источников, а не из централизованного хранилища данных, может оказаться следствием непродуманного процесса консолидации и интегрирования данных. Что касается недостаточной информативности выборки, то это тоже распространенная ситуация. И дело здесь даже не столько в самой выборке, сколько в методике анализа, для которой она используется.
При необходимости соединить данные выполняется процедура слияния. Таблица, к которой в процессе слияния добавляются данные из другой, называется исходной или входящей, а вторую таблицу, данные из которой добавляются к исходной, часто называют связываемой.
Исходная и связываемая таблицы должны иметь одно или несколько одинаковых полей, на основе которых будет производиться связывание двух таблиц, это поля связи. Остальные, которые уникальны для каждой из таблиц, могут быть присоединены к результирующему набору после слияния.
Существуют несколько способов слияния, которые применяются в зависимости от того, какие данные и в каком виде должны быть объединены в результирующей таблице.
1. Объединение. Применяется в тех случаях, когда к строкам исходной таблицы требуется добавить все строки связываемой, при этом добавление строк производится снизу.
2. Внутреннее соединение. Внутреннее соединение позволяет получить в результирующем наборе только те записи, для которых значения в одном из связывающих полей совпадают, т.е. в таблице, полученной в результате внутреннего соединения, останутся только те записи, которые содержат одинаковые значения в заданном поле (или заданных полях).
3. Внешнее соединение. При внешнем соединении все записи одной таблицы дополняются значениями из другой, если значения этих записей по ключевым полям совпадают, т.е. таблицы связываются по определенному полю, и если существуют записи, где значения данного поля в обеих таблицах идентичны, то записи будут дополнены значениями, которые отсутствуют в одной таблице и присутствуют в другой. Фактически, данный механизм позволяет добавлять поля из одной таблицы в другую, но не по всем записям, а только по тем, значения которых в поле связи совпадают для обеих таблиц. Кроме того, различают левое и правое внешнее соединение. При первом записи исходной таблицы дополняются значениями из связанной таблицы, а при правом – наоборот.
2.2.2. Кодирование категориальных данных.
При использовании таких аналитических моделей, как деревья решений, данные должны подаваться на вход в числовом виде. Однако часто в качестве исходных данных для анализа используются категориальные данные. В этом случае к ним может понадобиться применение преобразования, аналогичного нормализации для числовых признаков, т.е приведение категориальных значений к числовым. При этом набор уникальных категориальных значений должен быть преобразован в определенный диапазон числовых кодов. Для этих целей можно использовать несколько способов.
1. Преобразование в уникальные числовые коды. В простейшем случае преобразование осуществляется к порядковым номерам. Данный метод используется в случае, если значения признака допускают порядковую интерпретацию (малый/средний/крупный; медленный/быстрый/скоростной и т.д.), т.е. позволяют указать, какое из них больше, а какое меньше (так называемый упорядоченный или ординальный тип данных). При этом числовые значения также будут отражать соответствующие порядковые отношения исходных значений.
Все дискретные значения переменных можно закодировать таким способом, пронумеровав их произвольным образом. Однако навязывание несуществующей упорядоченности только затруднит решение задачи. Оптимальное кодирование не должно искажать структуры соотношений между классами. Если классы не упорядочены, такова же должна быть и схема кодирования: здесь применяется двоичное кодирование.
2. Двоичное кодирование. Способ применяется для кодирования категориальных неупорядоченных признаков с помощью маски из двоичных цифр (битов). В этом случае каждому уникальному значению ставится в соответствие двоичное число, называемое маской. Пусть признак A исходной выборки содержит m уникальных значений {A0,A1,...,Am}. Тогда при кодировке признака каждому значению Ai нужно поставить в соответствие битовую маску. Самый простой способ – кодирование типа т → m, причем первое значение кодируется как (1,0,0,0,…,0), второе соответственно – (0,1,0,0,0,…,0) и т.д. вплоть до m-ной.
Однако, такое кодирование неоптимально в случае, когда классы представлены существенно различающимся числом примеров. В этом случае функция распределения значений переменной крайне неоднородна, что существенно снижает информативность этой переменной. Тогда имеет смысл использовать более компактный, но симметричный код, когда имена m классов кодируются n -битным двоичным кодом. При этом количество бит (т.е. нулей и единиц) должно быть достаточным для обеспечения такого количества состояний маски, чтобы их хватило для кодирования всех уникальных значений признака. Маска, состоящая из n двоичных цифр, способна дать 2n уникальных состояний, т.е. должно соблюдаться равенство 2n = m. Поэтому, например, если требуется закодировать 8 уникальных значений признака, для этого нужно использовать маску из трех цифр, поскольку 23=8.
Деревья решений – это способ представления правил в иерархической, последовательной структуре, где каждому объекту соответствует единственный узел, дающий решение. Под правилом понимается логическая конструкция, представленная в виде "если ... то ...".
Пусть нам задано некоторое обучающее множество T, содержащее объекты (примеры), каждый из которых характеризуется m атрибутами (атрибутами), причем один из них указывает на принадлежность объекта к определенному классу.
Информация о работе Защищенная информационная система оценки кредитоспособности физических лиц