Защищенная информационная система оценки кредитоспособности физических лиц

Автор: Пользователь скрыл имя, 13 Мая 2012 в 13:48, дипломная работа

Описание работы

В данном проекте рассматриваются вопросы оценки кредитоспособности физических лиц, анализируются существующие подходы анализа оценки кредитоспособности, описываются преимущества адаптивной скоринговой оценки кредитоспособности физических лиц, предлагается методика оценки кредитоспособности, производится апробация методики оценки кредитоспособности, анализируется ее эффективность.

Содержание

введение
1. Оценка кредитоспособности физических лиц
1.1. Обобщенные кредитные продукты физических лиц
1.1.1. Потребительское кредитование на неотложные нужды
1.1.2. Овердрафт
1.1.3. Автокредитование
1.1.4. Ипотечное кредитование
1.2. Анализ подходов оценки кредитоспособности физических лиц.
1.2.1. Классическая скоринговая система
1.2.2. Статистические методы
1.2.3. Метод k-ближайших соседей
1.2.4. Нейросетевые методы
1.2.5. Методы построения деревьев решений
1.2.6. Экспертные системы
1.2.7. Преимущества использования скоринговой системы.
1.3. Выводы
2. разработка защищенной адаптивной скоринговой системы оценки кредитоспособности физических лиц
2.1. Формирование базы данных
2.1.1. Заявление анкета заемщика
2.1.2. Анализ доходов и расходов заемщика
2.1.3. База данных кредитных историй
2.2. Очистка, предобработка и подготовка данных
2.2.1. Обработка дубликатов и противоречий
2.2.2. Обработка аномалий
2.2.3. Корреляционный анализ
2.2.4. Трансформация данных
2.3. Построение дерева решений
2.3.1. Выбор критерия точности прогноза
2.3.2. Выбор типа ветвления
2.3.3. Определение момента прекращения ветвлений
2.3.4. Определение «подходящих» размеров дерева
2.4. Система оценки кредитоспособности физических лиц
2.4.4. Комплексная система оценки кредитоспособности физических лиц
2.4.5. Защита информационной системы.
2.5. Выводы
3. Апробация системы оценки кредитоспособности физических лиц
3.1. Цель апробация системы оценки кредитоспособности физических лиц
3.1.1. Определение адекватности построения дерева решений
3.1.2. Анализ целесообразности внедрения скоринговой системы в бизнес процесс
3.2. Условия и порядок проведения испытаний
3.2.1. Описание среды проведения испытаний
3.2.2. Получение исходных данных
3.2.3. Квантование данных
3.2.3. Замена данных
3.2.4. Очистка данных
3.2.5. Построение дерева принятия решений
3.3. Результаты апробации адаптивной скоринговой системы
3.4. Выводы
4. Безопасность жизнедеятельности
4.1. Введение
4.2. Охрана труда
4.2.1. Микроклимат рабочего помещения
4.2.2. Эргономика рабочего помещения
4.2.3. Освещенность рабочего места
4.2.2. Расчет естественного освещения
4.3. Охрана окружающей среды
4.3.1. Защита окружающей среды от электромагнитных излучений
4.3.2. Рекомендации
4.4. Чрезвычайные ситуации
5.Экономика защиты информации
5.1. Расчет затрат на внедрение системы
5.1.1. Общее описание системы
5.1.2. Расчет единовременных затрат
5.1.3. Расчет постоянных затрат
5.2. Расчет эффективности внедрения информационной системы оценки кредитоспособности физических лиц.
Заключение
Список литературы

Работа содержит 1 файл

+Абдулхаков - Пояснительная записка.doc

— 2.25 Мб (Скачать)

      указание суммы обязательства заёмщика на дату заключения договора займа (кредита);

      указание срока исполнения обязательства заёмщика в полном размере в соответствии с договором займа (кредита);

      указание срока уплаты процентов в соответствии с договором займа (кредита);

      о внесении изменений и (или) дополнений к договору займа (кредита), в том числе касающихся сроков исполнения обязательств;

      о дате и сумме фактического исполнения обязательств заёмщика в полном и (или) неполном размерах;

      о погашении займа (кредита) за счёт обеспечения в случае неисполнения заёмщиком своих обязательств по договору;

      о фактах рассмотрения судом, арбитражным и (или) третейским судом споров по договору займа (кредита) и содержании резолютивных частей судебных актов, вступивших в законную силу, за исключением информации, входящей в состав дополни тельной (закрытой) части кредитной истории;

      иная информация, официально полученная из государственных органов РФ.

В дополнительной (закрытой) части кредитной истории физического лица содержатся следующие сведения в отношении источника формирования кредитной истории:

      полное и сокращённое (в случае, если таковое имеется) на именования юридического лица, в том числе фирменное наименование, наименование на одном из языков народов Российской Федерации и (или) иностранном языке;

      единый государственный регистрационный номер юридического лица;

      идентификационный номер налогоплательщика;

      код ОКПО.

Как видим, перечень сведений достаточно обширен, что предполагает с целью нормального функционирования кредитных бюро необходимость широкого применения программных продуктов и адекватных им технических средств.

Источники формирования кредитной истории представляют всю имеющуюся информацию в бюро кредитных историй на основании заключенного договора об оказании информационных услуг. Допускается заключение договора об оказании информационных услуг с несколькими бюро кредитных историй. Указанный договор является договором присоединения, условия которого определяет бюро кредитных историй.

Важно подчеркнуть, что законом предусмотрено только добровольное письменное или иным способом документально зафиксированное согласие заёмщика (ст. 5, п. 4): «Согласие заёмщика на представление информации в бюро кредитных историй может быть получено в любой форме, позволяющей однозначно определить получение такого согласия».

 

2.2. Очистка, предобработка и подготовка данных

Качество данных, которые собираются и консолидируются для анализа из различных источников, является одной из самых больших проблем аналитических технологий. Недостаточное внимание к проблеме качества данных способно свести на нет все преимущества самых современных и мощных методов анализа, все усилия аналитиков и экспертов по созданию аналитических решений. А сами аналитические решения, полученные на основе некачественных данных, могут оказаться сколь угодно далекими от действительности, исказить истинную картину исследуемых бизнес-процессов, показать ложные закономерности, тенденции и связи между объектами бизнеса. Следствием этого может оказаться выработка неверных управленческих решений, которые могут нанести большой ущерб бизнесу. Именно поэтому мониторинг качества данных, а также их преобразования с целью исключения факторов, служащих причиной снижения качества данных, производятся на всех этапах аналитического процесса: от извлечения данных из источников до их обработки в аналитической системе.

С целью повышения качества данных используется комплекс методов и алгоритмов, получивших название «очистка данных». Для того чтобы правильно подготовить данные к анализу необходимо иметь стратегию их очистки, которая разрабатывается на основе знания структуры и особенностей источников, из которых поступают данные, характера самих данных, методики и цели их анализа.

Кроме предобработки, целью которой является приведение данных в соответствие с определенными критериями качества, процесс подготовки данных к анализу обычно включает в себя ещё один этап, который называется трансформация данных.

Подготовку данных для построения дерева принятия решений можно разделить на следующие этапы(см. рис. 2.3):

1)     обработка дубликатов и противоречий;

2)     обработка аномалий;

3)     корреляционный анализ;

4)     трансформация данных.

90

 



Рис. 2.3. Схема подготовки данных

90

 



2.2.1. Обработка дубликатов и противоречий

Наличие в анализируемых данных дубликатов и противоречий часто является фактором, снижающим эффективность работы аналитических моделей и достоверность результатов анализа. Поэтому при подготовке данных к анализу устранению дубликатов и противоречий уделяют очень большое внимание, а инструментарий для этого включен в комплекс средств предобработки многих аналитических приложений.

В большинстве случаев выборка данных [18], на основе которой строится аналитическая модель, содержит некоторый набор признаков (атрибутов, показателей), которые описывают исследуемый бизнес-процесс или объект. Эти признаки можно разделить на две группы:

1)     входные – подаются на вход модели, и на основе их значений модель рассчитывает выходной результат, т.е. входные признаки играют роль независимых переменных;

2)     выходные (целевые) – значения таких признаков формируются на выходе модели как отклик на подачу на её вход набора выходных признаков. Выходные признаки играют роль зависимых переменных модели.

Пусть аналитическая модель реализует преобразование вида Y = f (X ), гдеY – вектор результата, состоящий из набора значений выходных признаков {y1,y2,…,ym} , а X – вектор входного воздействия, образованный набором входных признаков {x1,x2,…,xn}.

Таким образом, каждая запись множества данных представляет собой набор входных и выходных признаков. Тогда определения дубликатов и противоречий можно ввести следующим образом.

Две или более записи называются дубликатами, если они содержат идентичные наборы значений всех признаков.

Две или более записи являются противоречивыми, если они содержат одинаковые наборы значений входных признаков и различные наборы значений выходных.

Наличие в данных дубликатов и противоречий может вызвать следующие проблемы.

1. Дубликаты вызывают избыточность данных, увеличивают объем выборки и требуемой памяти, при этом совершенно не повышая информативность данных. Так, одинаковые примеры в обучающей выборке не способствуют процессу обучения, поскольку в них содержится одна и та же информация. Вместе с тем они увеличивают объем выборки и время, требуемое для обучения. Кроме этого, если объем выборки ограничен, то дубликаты «отнимают» в ней место у полезных примеров, что ухудшает результаты обучения. Для пояснения можно привести следующую аналогию. Представьте себе таблицу умножения, в которой некоторые примеры дублировались несколько раз. Очевидно, что с точки зрения изучения правил умножения это бессмысленно, а также приведет к разрастанию набора примеров и ухудшению их восприятия учеником.

2. Противоречия приводят к искажению результатов анализа и снижают качество обучения аналитических моделей, поскольку нарушают общие закономерности в данных, обнаружение которых и является целью анализа

Обработка дубликатов и противоречий должна производиться с учетом особенностей исходных данных и с логикой решаемой задачи. Возможны следующие подходы к решению проблемы наличия в данных дубликатов и противоречий.

1. Обработка дубликатов и противоречий не производится вообще. Это возможно в следующих случаях. Во-первых, когда формально дубликаты и противоречия присутствуют, но при этом корректность описания динамики исследуемых процессов не нарушается. Во-вторых, если дубликаты и противоречия были введены в данные искусственно. Наконец, в некоторых приложениях анализа дубликаты и противоречия могут быть индикаторами отклонений, поиск которых и является целью анализа.

2. Удаление дублирующих и противоречивых записей. Данный подход может применяться в том случае, если установлено, что из набора дублирующихся и противоречивых записей только одна отражает действительное наблюдение или событие, а остальные являются следствием ошибок. В этом случае из всех дублирующих друг друга записей оставляют только одну, а остальные –

удаляют. С противоречиями сложнее, поскольку в этом случае требуется ещё определить, какая из противоречивых записей является правильной, а какие – следствием ошибок.

3. Объединение (слияние) дублирующихся и противоречивых записей. Этот метод применяется тогда, когда дубликаты и противоречия отражают действительные события. Например, если регистрация поступления двух одинаковых партий товара привела к появлению двух одинаковых записей, то можно либо удалить одну запись, либо оставить все без изменений. В первом случае будет потеряна информация о реальном событии, а во втором – появится избыточность в данных, поэтому оптимальным будет объединить две записи в одну, выполнив агрегацию количества поступивших единиц товара и соответствующих сумм.

2.2.2. Обработка аномалий

Очень часто в больших наборах данных встречаются значения, которые не укладываются в общую модель поведения анализируемого процесса. Такие значения, которые сильно отличаются от окружающих данных или несовместимы с ними, называются аномальными значениями. Аномалии могут быть вызваны как ошибками измерений или ввода данных, так и являться результатом их сильной изменчивости. Если, например, возраст клиента в базе данных банка указан равным 1, это значение, очевидно, является некорректным. Данная ошибка может быть вызвана тем, что компьютерная программа по умолчанию установила данное значение, если возраст клиента не был указан вообще (т.е. имеет место фиктивное значение, которое также является и аномальным). С другой стороны, если в БД число детей у клиента указано 15, то данное значение является скорее подозрительным и должно быть подвергнуто проверке, т.е. аномальное значение может быть как ошибкой, так и отражать реальную изменчивость данного признака.

При подготовке данных к анализу необходимо выполнять поиск и корректировку аномальных значений, поскольку они являются одним из факторов, существенно снижающих качество данных и достоверность результатов их анализа. Аномальные данные способны значительно ухудшить работу аналитических моделей.

Все аномальные значения можно разделить на два класса [18]:

1)     искусственные – которые действительно связаны с ошибками ввода данных, некорректной работой программ или систем регистрации (например, сканера штрих-кода товара);

2)     естественные – отражают факты и события, имевшие место в действительности, но вызванные исключительными обстоятельствами, которые имеют место очень редко или в единичных случаях.

Отличить искусственное аномальное значение от естественного кроме очевидных случаев (типа, Возраст=250) практически невозможно. Но если возникают сомнения, то лучше произвести дополнительную проверку, например, связаться с менеджером подразделения, которое показало аномально высокую выручку, позвонить клиенту, чтобы уточнить его возраст и т.д.

Впрочем, такие действия возможны только тогда, когда объем выборки данных и число аномальных значений невелико и по каждому из них можно разобраться отдельно. Если же объем выборки составляет десятки и сотни тысяч записей и она содержит сотни аномальных значений, то для их обработки приходится использовать автоматические системы обнаружения и корректировки.

Таким образом, задача обработки аномальных значений состоит из двух этапов.

1.      обнаружение – производится поиск аномальных значений и, если возможно, производится проверка, является ли эта аномалия искусственной или естественной. Если аномалия искусственная, то соответствующую запись необходимо удалить совсем, либо произвести корректировку значений одним из доступных методов. Если аномалия естественная (т.е. отражает естественную изменчивость данных), то ее, возможно, следует оставить, но дальнейший анализ производить с соответствующими поправками;

2.      корректировка – обнаруженные аномальные значения исключаются или корректируются в зависимости от логики и особенностей решаемой задачи анализа.

Аналитик должен очень осторожно подходить к автоматическому исключению аномальных значений, поскольку если результаты, кажущиеся аномальными, на самом деле корректны, это может привести к потере важной скрытой информации. Кроме этого следует учитывать, что некоторые алгоритмы анализа направлены именно на обнаружении аномалий.

Если исходное множество данных не является очень большим и не содержит большого числа измерений данных, то одним из эффективных способов обнаружения аномалий является визуальный анализ по таблице или графику. В таблице аномальное значение может быть обнаружено по количеству цифр в числе или первой цифре. Более наглядным, конечно, служит графическое представление.

Наиболее простым является визуальный анализ одномерных рядов данных. В них аномалии выглядят как выбросы значений в ту или иную сторону (см. рис. 2.4).

 

Рис. 2.4. Ряд данных

Информация, полученная с помощью графика поиска аномалий, может быть использована двояко. С точки зрения анализа имеет смысл либо исключить аномальные значения, либо привести их в соответствие с общей моделью данных, чтобы они не влияли на результаты анализа. С точки зрения руководства кредитного учреждения эти два значения являются поводом к проверке. Лица, взявшие большой кредит, могут быть либо перспективными клиентами, к которым нужен особый подход (например, особые условия кредитования), чтобы повысить их лояльность к банку, либо мошенниками. Следует отметить, что если бы система автоматически подавляла аномальные значения, то потенциально ценная информация была бы утрачена.

Информация о работе Защищенная информационная система оценки кредитоспособности физических лиц