临汾山东漯河饰品美体美文
投稿投诉
美文创意
爱情通信
用品婚姻
爱好看病
美体软件
影音星座
瑜伽周边
星座办公
饰品塑形
搞笑减肥
幼儿两性
智家潮品
漯河衢州
兴义眉山
桂林阳泉
玉溪简阳
山东遂宁
永城新余
梧州洛阳
泸州温州
临汾清远
营口常熟
浙江大连
桐乡宜昌

详解风控模型中的逻辑回归评分卡与模型评估内容

12月4日 牵手手投稿
  今天我们来输出一篇风控长文,关于大家熟悉关注的逻辑评分卡的开发的内容,文章篇幅较长,大纲目录如下:
  1。建模前准备
  1。1特征预处理与转化
  1。2特征衍生与提取
  1。3特征选择与降维
  2。分箱
  2。1分箱概述
  2。2分箱方法
  3。Woe计算
  3。1WOE
  3。2IV
  4。建模
  5。模型评估
  5。1混淆矩阵
  5。2roc曲线与auc值
  5。3KS曲线与ks值
  6。分数校准
  1建模前准备
  在开始建模前,需要进行大量的数据处理工作,包括特征预处理和转化、特征衍生与提取、特征选择与降维,这一部分是整个建模流程的基石,约占整个建模流程的70的工作量。
  1。1特征预处理与转化
  特征预处理与转化包含数据清洗、编码和转化。
  1。1。1数据清洗
  本文介绍对错误值、异常值、缺失值的数据清洗方法。
  错误值:
  1。定义:录入错误、系统原因到时数据引入错误、后续加工计算错误
  2。处理办法:有两种。
  a)。找到错误原因进行修正变成正常值
  b)。直接删除
  异常值处理:
  定义:没有明确的定义,通常认为在置信区间199以外的数据,当做异常值,一般用箱型图来判断异常值(箱型图原理如下)。
  编辑切换为居中
  添加图片注释,不超过140字(可选)
  2、处理办法:修正、删除(要求随机),删除要求不影响y的分布和随机性,另外一种方法:将异常值放在头尾两个箱内,减少极值的杠杆效应,另外可将异常值当做缺失值,然后用均值替换、盖帽法等进行修正和填补
  缺失值处理:
  1、定义:在表关联匹配时没有匹配到时产生的空值
  2、处理方法:
  a)。缺失值有一定的含义,保留缺失值,如果这个字段本身大于0的,那么给他赋值999,如果这个字段有正有负,那么给他赋值9999。
  b)。有明确的逻辑的缺失:要通过逻辑进行填充
  c)。随机缺失的:通过众数中位数填充
  d)。转化:通过woe单独作为一箱
  e)。删除:如果该变量缺失率很高,大于85,和y的关联性不高的话,可以直接删除。如果和y关联性比较显著的话,不建议删除。
  1。1。2编码
  1。分类变量:如性别、学历、省份等,可采用onehot或labelencoder进行编码
  2。文本型变量:分词向量化后,用词袋模型onehotword2vec词嵌入
  3。二值化:是否、好坏等,直接转化成01映射
  1。1。3转化
  1。分布转化:当数据分布不符合正态分布时,通过特征处理,使得数据接近正泰分布。常见的转化有如下几种:
  对数:ln(x)、平方根、sigmoid,probit
  2。归一化标准化:
  编辑
  添加图片注释,不超过140字(可选)
  1。2特征衍生与提取
  特征衍生的方法通常有两种,1。专家经验,2。自动衍生:预定义算子和特征组合,批量化特征组合
  1。3特征选择与降维
  特征选择与降维是指通过一些手段,从业务角度和数据角度筛选对模型贡献度高的特征。
  1。3。1业务角度
  从业务角度要求数据的合规性、可获得性、可解释性
  1。3。2数据角度
  (1)通常要求数据缺失率不能太高、集中度不能太高、波动性不能太大。
  (2)时间稳定性PSI:不同时间分布是否变化
  评价特征稳定性:衡量特征是否随时间的推移发生大的波动,可用于变量监控。模型上线前做特征选择,剔除不稳定变量。
  评价模型的稳定性:对数据集的预测分类结果进行稳定性评价。模型上线部署后,可通过PSI曲线报表来观察模型的稳定性。
  PSI计算方式:PSISUM(实际占比预期占比)ln(实际占比预期占比)
  PSI越小,代表稳定性越好。
  编辑切换为居中
  添加图片注释,不超过140字(可选)
  (3)变量预测力:IV,通过IV筛选预测能力比较强的特征。IV计算可通过woe计算得到,IV越大,代表变量预测能力越强。
  编辑切换为居中
  添加图片注释,不超过140字(可选)
  1。3。3特征选择的方式
  过滤法:
  1)缺失率x,
  2)方差波动x,
  3)psix,
  4)corrx,
  5)woe单调,
  6)ivx
  嵌入法:特征选择整合为模型的一部分,比如决策树
  包装法:通过统计模型或者机器学习来选择特征
  2分箱
  2。1分箱概述
  分箱的定义:将变量取值划分成不同的分组。
  分箱的目的:适应缺失值和极端值,对于缺失值和极端值放在单独一个箱里。这样变量就会平滑一些,模型也更稳定。
  常用分箱方法:等频等距分箱,决策树bestks卡方分箱
  分箱的原则:组内差异小,组间差异大,每组分箱占比不小于5,必须有好坏两种分类(对于二分类而言必须一个箱里好坏样本都有)。
  2。2分箱方法
  等距分箱:每个箱的区间大小是相等的,每个箱内的数据量不一定相等。边界值:xminn(Xmaxxmin)10
  等频分箱:分箱之后,每个箱内的数据量相等。
  决策树分箱:单变量用树模型拟合目标变量,例如直接使用sklearn提供的决策树(是用cart决策树实现的),然后将内部节点的阈值作为分箱的切点。
  Bestks分箱:计算方式跟模型KS一样,只是这里的分箱不是模型评分,而是特征的分箱。具体的步骤如下:
  a)将特征取值按从小到大排序,每一个值作为一个分箱
  b)计算每一个分箱的KS值
  c)找到最大KS值对应的分箱,即特征值,以该特征值作为划分依据将数据划分成左右两份数据SET1和SET2(低于该特征值以及高于该特征值)
  d)按照第三步递归划分左右两个数据集,直到满足终止条件(一般以KS值低于某个阈值或分箱数达到预设的值)
  举例:
  编辑切换为居中
  添加图片注释,不超过140字(可选)
  注:bad占比累计坏人数sum(红框内)
  good占比累计好人数sum(蓝框内)
  ksabs(good占比bad占比)
  卡方分箱:卡方分箱是依赖于卡方检验的分箱方法,在统计指标上选择卡方统计量(chiSquare)进行判别,分箱的基本思想是判断相邻的两个区间是否有分布差异,基于卡方统计量的结果进行自下而上的合并,直到满足分箱的限制条件为止。如果两个相邻的区间具有非常类似的分布,那么这两个区间可以合并,否则,他们应该分开。低卡方表明他们具有相似的类分布。
  具体的步骤如下:
  a)预先设定一个卡方的阈值
  b)特征进行排序,每个取值属于一个区间
  c)合并区间:计算每一对相邻区间的卡方值,将卡防止最小的一对区间合并。
  举例:
  编辑切换为居中
  添加图片注释,不超过140字(可选)
  【表2卡方分箱案例】
  注:
  Bad期望totalsum(bad)sum(total)
  good期望totalsum(good)sum(total)
  相邻卡方:上下两组的卡方值相加。例如:年龄1819组的相邻卡方3。485203。3913
  相邻卡方越小,说明上下两组的分布越相似。
  如下表1819两个组,卡方值均为0,相邻卡卡方值000,所以1819两个组的分布一致。
  编辑切换为居中
  添加图片注释,不超过140字(可选)
  【表3低卡方案例】
  卡方分箱的终止条件:
  a)分箱个数:每次将样本中具有最小卡方值的区间与相邻的最小卡方区间进行合并,直到分箱个数达到限制条件为止,比如限制分箱个数为5。
  b)卡方阈值:根据自由度和显著性水平得到对应的卡方阈值,如果分箱的各区间最小卡方值小于卡方阈值,则继续合并,直到最小卡方值超过设定阈值为止。卡方停止的阈值一般设置置信度为0。9、0。95、0。99,自由度是n1,例如分箱数是5,那么自由度是4,参考下表,查看自由度是4、显著水平为0。05的卡方值:9。488,卡方值9。488,则拒绝原假设,认为两个bin分布一样,否则接受原假设,认为两个bin一样(原假设:两个bin不分布一样)。
  编辑切换为居中
  添加图片注释,不超过140字(可选)
  【表4卡方分布的临界值表】
  3WOE计算
  变量分完箱后,接下来要对每一箱计算woe和变量IV值。
  3。1WOE
  WOE公式:ln(p(1p)),其中p为违约概率,违约件占比高于正常件时,woe为负值,绝对值越高,表示该组别好坏客户的区别程度越高,各组之间woe值差距尽可能拉开并呈现由低至高的趋势。当p0。5时,说明违约概率较高,此时woe为正,反之为负。变量分箱后的Woe要求单调或者呈U型的分布。
  案例1:WOE计算:
  编辑
  添加图片注释,不超过140字(可选)
  3。2IV
  IV称为信息值,计算公式为sum((违约件占比正常件占比))woe,IV值表示变量预测能力的强度。
  分组i的IV值计算:
  编辑
  添加图片注释,不超过140字(可选)
  总体的IV:
  添加图片注释,不超过140字(可选)
  结合上面的公式,计算如下案例:
  编辑切换为居中
  添加图片注释,不超过140字(可选)
  同时,我们需要woe具有单调性或者呈U型,否则的话,需要进行手动调整。举例如下:
  编辑切换为居中
  添加图片注释,不超过140字(可选)
  4建模
  在做完如上准备工作后,接下来要开始建模。
  逻辑回归公式:
  编辑切换为居中
  添加图片注释,不超过140字(可选)
  编辑切换为居中
  添加图片注释,不超过140字(可选)
  编辑切换为居中
  添加图片注释,不超过140字(可选)
  5模型评估
  5。1混淆矩阵
  编辑切换为居中
  添加图片注释,不超过140字(可选)
  准确率(accuracy):正确预测的正负例样本与所有样本的壁纸,(AD)(ABCD)。
  正例覆盖率(sensitivity):正确预测的正例数在实际正例的比例,D(BD)
  负例覆盖率(specificity):正确预测的负例数在实际负例的比例,A(AC)
  正例命中率(precision):正确预测的正例数在预测正例数的比例,D(CD)
  一般前三个越高,模型越理想。
  5。2Roc曲线与auc值
  分类错误的正常记录比例1specificity,也叫误报率。Roc曲线通过在01之间改变创建混淆军阵的临界值,以纵轴敏感度sensitivity与横轴误报率(1specificity)勾绘的图。auction的值等于曲线下的面积。
  编辑
  添加图片注释,不超过140字(可选)
  从AUC判断分类器(预测模型)优劣的标准
  AUC1,是完美分类器,采用这个预测模型时,存在至少一个阈值能得出完美预测。绝大多数预测的场合,不存在完美分类器。
  0。5AUC1,优于随机猜测。这个分类器(模型)妥善设定阈值的话,能有预测价值。
  AUC0。5,跟随机猜测一样(例:丢铜板),模型没有预测价值。
  AUC0。5,比随机猜测还差;但只要总是反预测而行,就优于随机猜测。
  总结:AUC值越大,正确率越高
  5。3KS曲线与ks值
  Ks曲线:将样本数据,评分由低到高排序,累计坏占比和累计好占比的两条曲线的差,就是ks曲线。其中累计好分布,上凸,累计坏分布时下凹面积,所以ks曲线,是先增加后减少。
  Ks越大越好,但过大要考虑过拟合。
  KS值的取值范围是〔0,1〕,一般习惯乘以100。通常来说,KS越大,表明正负样本区分程度越好。KS的业务评价标准如下所示。由于理解因人而异,不一定完全合理,仅供参考。
  Ks0。2:区分能力弱
  20ks40:区分能力较好
  40Ks50:区分能力良好
  50Ks60:区分能力很强
  60Ks75:区分能力非常强
  Ks75:区分能力高但疑似过拟合
  6分数校准
  分数校准是将模型算出来的01的概率值转换成整数分数,分数越高表示客户风险越低(不同业务分数范围不同,解释存在差异)。
  逻辑回归的线性公式:
  编辑切换为居中
  添加图片注释,不超过140字(可选)
  该公式将自变量x与y之间的非线性关系转换为线性关系。
  客户的分
  编辑切换为居中
  添加图片注释,不超过140字(可选)
  定义
  编辑
  添加图片注释,不超过140字(可选)
  p(1p)表示坏好比,b可以使得违约概率越低,分数越高:
  odds1,表示坏客户概率高于好客户概率
  odds1,表示坏客户概率低于好客户概率
  odds1,表示坏客户概率等于好客户概率
  这里要做两个假设,将score公式中的A、B参数计算出来。
  (1)在某个特征比例下的分数。比如,设定坏:好1:60的时候,score600。(这里可根据个人习惯设定比例和分数值)
  (2)坏好比翻倍的分数。比如,坏:好1:120时,分数为620,也就是比率翻倍后,分数增加20分。设为pdo。
  解方程
  编辑切换为居中
  添加图片注释,不超过140字(可选)
  解得:
  编辑
  添加图片注释,不超过140字(可选)
  因此:score481。8928。85ln(p(1p))
  经过如上分数校准后,可将每一个违约概率对准到整数分数上。
  接下来我们根据具体实例介绍分数校准:
  编辑切换为居中
  添加图片注释,不超过140字(可选)
  【表5分数校准案例】
  如上表,,红色框表示回归模型算出来特征
  编辑切换为居中
  添加图片注释,不超过140字(可选)
  因此变量v211的分数是492。2。该客户得分分数所有变量分数的累加。
  如上,逻辑回归评分卡建模的分箱板块、模型评估和分数校准内容已介绍完毕。
  另外关于中小微财税票中的模型内容,有兴趣的童鞋可关注:
  编辑切换为居中
  添加图片注释,不超过140字(可选)
  。。。
  原创文章
投诉 评论

他曾信誓旦旦保证会重返恒大,如今却拒绝跟郑智共患难,提前解约日前,根据韩媒报道恒大功勋中卫朴志株已经提前跟球队解约。这让很多球迷都觉得非常意外,因为朴志株之前在离开恒大回韩国服兵役时,他就表示服役结束后,还会回到球队效力。本身,朴志株跟……伏尔加河欧洲第一长河,世界上最大的内陆河伏尔加河全长约3530km,是欧洲第一长河,流域面积达136万k。在这个流域内居住着俄罗斯6450万人,约占俄罗斯人口的43。著名的《伏尔加河上的纤夫》说的就是这条河,他……是NBA的皇帝,也是平凡的父亲,原来老詹也担心孩子上学问题几乎每个人在自己成长的过程中,都会经历这样的一段过程在进入青春期后,自我意识蓬勃而强烈,有了迫切地想要独立的意愿。这种想法的背后,其实是大脑的发育与变化所带来的,这种变化除了让……中超1梅州获2连胜,克雷桑破门郑铮任意球绝杀北京时间10月5日,中超第21轮继续进行,梅州客家主场与山东泰山打响对决。上半场刘洋进球但因段刘愚越位在先被吹无效,莫伊塞斯进球因费莱尼犯规在先也被判无效。第66分钟,科索维奇……新业态能否成为县域经济新风口来源:【消费日报】随着新型商业模式基础设施和城市配送服务网络的快速完善,以本地门店即时配送为特征的即时零售新业态,逐渐成为零售模式创新的风口。数据显示,2022年上半年,……国产GPU厂商推出7nm芯片,计划抢走NVIDIA在中国10众所周知,全球的GPU市场,其实是被三大厂商垄断了,分别是INTEL、AMD、NVIDIA。其中INTELAMD把垄断了集显市场,AMDNVIDIA垄断了独显市场。另外,……今年夏天,为什么都在穿醋酸?看完这3件单品就知道,太高级一提到夏季穿搭,想必大家脑海中首先闪现出来的词汇都是:清爽、舒适。没错,炎炎夏日穿衣要满足清凉属性,所以在选款上要着装考虑服装的面料材质,一些特殊面料打造的服装穿起来更加……详解风控模型中的逻辑回归评分卡与模型评估内容今天我们来输出一篇风控长文,关于大家熟悉关注的逻辑评分卡的开发的内容,文章篇幅较长,大纲目录如下:1。建模前准备1。1特征预处理与转化1。2特征衍生与提取……小雪节气,这3样别忘记吃,做好留着冬天慢慢吃,老传统别丢小雪是进入冬天的第二个节气,它是寒潮和强冷空气活动最频繁的节气,这个节气的到来,就意味着天气越来越寒冷,降水量也会明显增加。而且随着小雪的降临,气温下降,天气干燥,是腌制……这样回你微信的人,多半是瞧不起你现实生活中,一个人回你微信的方式和态度,决定了你在这个人心目中的位置。如果你给对方发消息的时候,对方用以下3种方式回复你的消息。那么这样的人,就断交吧。虽然两个人面子用不着撕破……某想上人民日报了?这两天网上关于联想上人民日报又成了热点,实际上这又是一个被过度解读的消息。从我发的截图大家可以清晰看到广告两个字,也就是说这个发表在人民日报生态版块的关于联想的报道是一篇……红河最神秘的茶室,藏在百年破房中,来的都是喊得上名号的大文人最近在网上偶然发现建水有一家非常火的下午茶,有很多像于坚这样的大文人慕名而来,因其优美的中式庭院环境和精致的茶食,被网友称为建水中式下午茶界的天花板。这么神秘的下午茶自然……
李亚鹏终于撑不住了?直播变卖房车营地,上亿投资打水漂李亚鹏直播变卖房车营地,1。8亿项目亏空,网红的尽头总是直播带货引言。李亚鹏创业史11月7日,李亚鹏发布了一则特别的短视频。在这条视频中,他声情并茂地朗读了一封道歉……你认为不是所有人,都适合留在朋友圈这句话对吗?头条创作挑战赛知乎上有人问:为什么曾经那么好的朋友,现在却如此的疏远?有一个高赞回答:渐老的岁月和渐远的三观。诚然,当年龄渐长,人生的路线一点点分岔,久而久之……莱西奥定位射手,登陆体验服,姜子牙上线前先削弱,马超被加强大家好我是指尖,之前预热了那么久的新英雄终于要来了,在刚刚爆料的时候,玩家们纷纷猜测这个火鹰船长到底是个什么职业,有玩家在体验用非常规手段看到了一些预设的出装,可以说几套出装看……这次又赢了?红米K60Pro再无悬念,卢伟冰太会玩了最近值得关注的机型都是骁龙8Gen2,刚刚发布的K60Pro成为了在3000档位有非常强劲表现的产品,3299元的价格,稳坐最具性价比的骁龙8Gen2手机之位。K60Pr……卡鲁索高调秀恩爱,社媒晒和女友甜蜜合照,女方穿比基尼大秀身材公牛球员卡鲁索在社交媒体当中晒出了个人度假的视频,光头卡鲁索和自己的女友在海边度假,晒出两人贴脸照片,非常的恩爱。卡鲁索的女友也是性感火辣,身穿比基尼大秀身材,光头的卡鲁索就像……最新消息!国乒全锦赛分组出炉,莎头组合遇劲敌,小胖或被保送北京时间11月6日,乒乓全锦赛进入到第一个高潮日,广东男团、上海男团、辽宁女团、江苏女团将向着冠军冲击。与此同时,组委会公布了五个单项的抽签分组情况,几大国手前两轮轮空,直接晋……一味中药,防脱,黑发,化痰,止咳,凉血,止血,秋天不烦恼介绍一个和秋天密切相关的中药,便宜,常见,却有一身本事。你能联想到咳嗽痰少是肺燥或肺热,那你是否知道脱发,白发,流鼻血,甚至皮肤瘙痒也和肺有关吗?今天我来告诉你!秋……让自己增值的4件事来源:人民日报网上有个很火的提问:有什么道理,是你特别想对别人说的?一个高赞回答是:从现在开始,去做让自己增值的事情。勤学似春起之苗,不见其增,日有所长;辍学如磨刀……其实父母爱情里王秀娥的去世是必然的,剧中早就埋下了伏笔《父母爱情》是近几年难得一见的好剧,如今已经成为了很多家庭必备的神剧,之所以说它神,是因为这部剧的观众没有年龄限制,无论是家里年老的长辈,还是牙牙学语的小朋友,每次看到这部剧都……(科技)研究人员利用测年新方法揭秘复杂沉积物年龄新华社兰州11月17日电(记者张文静、呼涛)兰州大学资源环境学院和中国科学院青海盐湖研究所等研究人员共同合作,创新性地提出了一种可用于复杂沉积物测年的单颗粒释光测年方法。这个新……泰山缺人,海毅不去U21队报到,主动驰援一线队,U21名单公U21联赛与10月25日开启,泰山队也组建了22人大名单,其中有超龄球员郝海毅在列,一线队的球员还方昊,U21组建是在一线队打不上比赛的人员和参加亚冠比赛的部分球员。由于……欧冠战报拜仁50大胜国米10巴萨利物浦20印尼死亡人数125今天凌晨,欧冠第三轮小组赛结束8场比赛,马赛4:1里斯本取首胜;阿贾克斯1:6不敌那不勒斯,波尔图2:0勒沃库森;布鲁日2:0马竞;法兰克福0:0热刺;拜仁5:0大胜比尔森;国……
友情链接:中准网聚热点快百科快传网快生活快软网快好知文好找