评分卡都看不懂怎么能说自己是做风控的
随着互联网在传统金融和电子商务领域的不断渗透,风控互联网的融合也对传统的风控提出了新的要求和挑战。以评分卡为例,互联网形态下的评分卡需要面临更多维数据、更实时数据、更异常数据的挑战。因此,懂得互联网业务下的风控评分卡已经成为互联网风控从业人员的新要求。
在之前的文章中,有好几位业内朋友沟通说要有一篇关于风控评分卡的教程类的文章,于是趁着周末赶紧完成了这篇似是而非的workingpaper。
一、引言
这两年随着互联网电商业务和互联网金融业务的兴起,原本着力于银行、证券、信托等传统金融领域的风控职能的HC,在这两大块也越来越多,而互联网自身独特属性的加入又给这个已经存在了近一百年的岗位赋予了新的外延与生命。
无论是风控职能中的什么岗位,产品、策略、数据分析、模型等等,最终都是要跟业务挂钩,而孕育风控岗位的金融业务又是一个天生以数据驱动的行业,这也就决定了风控天生的数字属性。
这个属性无论是在传统金融领域、新兴的互联网金融乃至更为广泛的电商领域,都无法磨灭其数学的印迹。
数据驱动业务是风控的核心,无论是金融风控还是电商风控!数学是定量解决复杂问题最有效的工具,在做风控的过程中你会发现你遗失多年的概率论、矩阵都开始有了新的用武之地。
在当前的互联网环境下,互联网风控已经成为了一项数学、金融学、信息安全、管理科学、行为心理学等多学科交叉的复杂业务,以定量定性分析的思维,使用传统的经济学分析范式:
在横向时间线上需要做到预知风险、监控风险和处置风险;
在纵向流程线上做到发现问题、分析问题和解决问题。
而作为风控最重要的工具之一评分卡自然而然就是这种套路的产物,所以作为风控从业者,看懂评分卡已经成为了风控从业人员的基本素质之一。
本文以经典的逻辑回归模型为主,完成一套标准评分卡构建。
二、样本准备与数据处理
本文所使用数据来源于某平台某年度数十万信贷样本数据,为保证业务隐私业务指标与关键变量已做脱敏处理,仅用于展示评分卡构建过程。
1。样本选取
选取一定时间周期内该平台上的信贷样本数据(以人为维度),按照会员号尾号(09)切分的方式做随机样本集,最终选取训练集17万,测试集11万,验证集11万。
为了更好表述样本特征,其中以逾期超过X天为bad样本(label为1),逾期小于y天为good样本(lable为0),中间模糊样本暂不进入模型训练。
具体以01样本的划分标准以实际业务为准,信贷业务中重点还是看贷后的迁移情况。
2。变量选取
基于选中的数十万样本,结合业务的经验,选择数百描述性变量,并对变量做进一步衍生工作。
基于不同的业务形式有不同的变量选择,每一个模型会有不同的样式,具体需要结合对业务的理解进行模型构建。此处读者可针对性的学习特征选择相关知识。
以下为模型选择的一小部分变量截图,部分敏感变量做脱敏处理:
3。数据处理
数据处理是模型构建之前最核心的也是最费工时的步骤,需要数据处理人员对于数据的来源、特点、字段本质有着较为深入的理解,才能有效处理好数据,失去了意义的数据仅仅是数字而已。
3。1异常数据处理
异常数据指的是因为多种不可预知的原因(数据原因、样本原因、技术原因、历史原因)导致的不能建模数据,常见的主要指的是缺失值和极端值。
3。1。1缺失值处理
这种情况在现实问题中非常普遍,尤其线上征信数据因为征信渠道覆盖不全、超时、前期未取数等多原因经常会出现大批量的数据确实问题,这会导致一些不能处理缺失值的分析方法无法应用。
因此,在评分卡模型开发的第一步我们就要进行缺失值处理。缺失值处理的方法,包括如下几种:直接删除含有缺失值的样本;根据样本之间的相似性填补缺失值;根据变量之间的相关关系填补缺失值。
3。1。2极端值处理
缺失值处理完毕后,我们还需要进行异常值处理。异常值是指明显偏离大多数抽样数据的数值,比如个人客户的年龄为0时,通常认为该值为异常值。找出样本总体中的异常值,通常采用离群值检测的方法。
3。2探索性分析、变量处理和选择
3。2。1探索性分析
探索性分析有助于帮助我们对数据结构有较为直观的认知,通过对已有的数据(特别是调查或观察得来的原始数据)在尽量少的先验假定下进行探索,常用的探索性数据分析方法有:直方图、散点图和箱线图等
3。2。2变量处理
完成了数据异常处理之后并不是直接可以进模型的,需要对特定变量进行处理,如对定性变量进行量化(如婚姻状态,并不能简单的用枚举值1、2、3、4代替)。我个人常用的方法主要有:
1)变量分箱(binning)是对连续变量离散化(discretization)的一种称呼。信用评分卡开发中一般有常用的等距分段、等深分段、最优分段。
如年龄,在外面的业务场景中年龄越小和年龄越大,违约概率都会偏大,所以这块需要做好分箱处理
2)WoE分析是对指标分箱、计算各个档位的WoE值并观察WoE值随指标变化的趋势。在进行分析时,我们需要对各指标从小到大排列,并计算出相应分档的WoE值。
其中:正向指标越大,WoE值越小;反向指标越大,WoE值越大
3。2。3变量选择
我们会用经过清洗后的数据看一下变量间的相关性。注意,这里的相关性分析只是初步的检查,进一步检查模型的IV(证据权重)作为变量筛选的依据。此处较简单,在此不赘述。
总之,数据处理的过程是占据整个标准评分卡构建的最大的工作量,整体的目标是:排除异常值对模型训练的干扰,将所有变量进行量化处理,自变量对因变量有明显的解释性,变量之间无明显相关性。
三、模型构建与评分卡转换
1。模型构建
将处理好的变量进入模型,逻辑回归模型较为简单,训练速度也很快,实现逻辑回归模型的工具也很多,在此不多赘述,读者可以根据自己的兴趣选择合适的实现方法。
逻辑回归的表达形式如下:
p代表一个样本是bad样本的概率,P越大bad概率越大,x指的是进入模型的各个变量,为该变量的系数,通过上述表达式,我们知道如果某个变量的为正值,那么x越大则p越大,代表这个变量越大越坏。
通过工具,我们可以计算出一组训练集对应的变量,下为展示截图:
2。评分卡转换
上为逻辑回归模型的构建过程,而逻辑回归模型可以通过以下步骤转化为评分卡。
由逻辑回归的基本原理,我们将客户违约的概率表示为p,则正常的概率为1p。因此,可以设:
此时,客户违约的概率p可表示为:
根据逻辑回归计算可得:
评分卡设定的分值刻度可以通过将分值表示为比率对数的线性表达式来定义,即可表示为下式:
其中,A和B是常数。式中的负号可以使得违约概率越低,得分越高。通常情况下,这是分值的理想变动方向,即高分值代表低风险,低分值代表高风险。
式中的常数A、B的值可以通过将两个已知或假设的分值带入计算得到。通常情况下,需要设定两个假设:
(1)给某个特定的比率设定特定的预期分值;
(2)确定比率翻番的分数(PDO)
根据以上的分析,我们首先假设比率为x的特定点的分值为P。则比率为2x的点的分值应该为PPDO。代入式中,可以得到如下两个等式:
假设我们期望x(badgood)5时的分值为50分,PDO为10分(即每增加10分badgood比例就会缩减一半),代入式中求得:B14。43,A6。78,这个时候badgood10时score40
评分卡刻度参数A和B确定以后,就可以计算比率和违约概率,以及对应的分值了。通常将常数A称为补偿,常数B称为刻度。则评分卡的分值可表达为:
式中:变量x1xn是出现在最终模型中的自变量,即为入模指标。由于此时所有变量都用WOE转换进行了转换,可以将这些自变量中的每一个都写(iij)ij的形式:
式中ij为第i行第j个变量的WOE,为已知变量;i为逻辑回归方程中的系数,为已知变量;ij为二元变量,表示变量i是否取第j个值。上式可重新表示为:
此式即为最终评分卡公式。如果x1xn变量取不同行并计算其WOE值,式中表示的标准评分卡格式,基础分值等于(AB0);由于分值分配公式中的负号,模型参数0,1,,n也应该是负值;变量xi的第j行的分值取决于以下三个数值:
总的来说整体的思想就是根据每个变量的系数进行评分转换,好的变量我们给与高的评分,坏的变量给与低分或者负分。
本文构建的评分卡如下(本文的odds设为50):
从上表来看,评分卡的表达形式是很简单的,如学历是硕士加几分这样。但是很多人就以为评分卡是拍脑袋出来的,这是个非常错误的想法,每一个变量的评分多少都是基于模型的结果,所以在此也给部分风控从业者小小的提示一下:评分卡是一个科学的度量工具,不是拍脑袋盲人摸象就能出来的,只知其一不知其二是很可怕的事情。
本文样本中在验证集上最终构建的评分卡结果表现如下:
X轴代表不同的评分区间,柱状图代表验证集下该评分区间的人数,折线图代表该评分区间的bad比例,我们发现柱状人数在整体评分区间下基本呈现正态分布,整体bad占比随着评分上升违约率不断下降,证明这是一个较为行之有效的评分卡,可以利用评分卡的结果做更多的策略应用(为保护业务数据隐私,已隐藏)。
上述是根据模型训练出来的结果在验证集中的表现情况,当有一个新的进件申请时,参考上述评分卡,可以对新进件有一个直观的评分,并基于模型表现可以大概预计新进件的违约概率,以此在业务决策中给出决定性的意见。
四、结论与展望
本文以经典的逻辑回归模型为主,结合实际业务数据构建一套评分卡模型,以此来帮助更好的理解评分卡模型的构建流程,以期能够帮助风控从业者更好的理解评分卡的本质、目的和应用。
更进一步的,我们在实际的风控业务应用中,评分卡模型的思路除了传统的申请信用平分之外,已经拓展到更多的业务场景,关键是在于定义好寻求的目标target,如是否团伙、是否羊毛党、是否DDOS攻击等等,并结合对目标的理解寻觅适合的变量。
用评分卡这种通用的方法可以解决在风控领域绝大多数拍脑袋的问题,真正的以数据来驱动业务。当然评分卡的模型可以是多种的,读者在了解评分卡的本质基础上可以尝试做更多试探性的研究。
参考文献
〔1〕WoodS,ReynoldsJ。Leveraginglocationalinsightswithinretailstoredevelopment?Assessingtheuseoflocationplanners’knowledgeinretailmarketing〔J〕。Geoforum,2012,43(6):10761087。
〔2〕MaioVD,ProdanR,BenedictS,etal。Modellingenergyconsumptionofnetworktransfersandvirtualmachinemigration〔J〕。FutureGenerationComputerSystems,2016,56(C):388406。
〔3〕Murthi,B。PS,Steffes。Developingameasureofriskadjustedrevenue(RAR)increditcards;market:Implicationsforcustomerrelationshipmanagement〔J〕。EuropeanJournalofOperationalResearch,2013,224(2):425434。
〔4〕朱卫东,吴鹏。引入TOPSIS法的风险预警模型能提高模型的预警准确度吗?来自我国制造业上市公司的经验证据〔J〕。中国管理科学,2015,23(11):96104。
〔5〕丁卫东。信用评分卡在电商小微企业信贷中的应用〔D〕。浙江大学,2016。
〔6〕鞠勐。N银行Y支行个人贷款信用风险管理研究〔D〕。南京师范大学,2015。
深陷造句用深陷造句大全151、但一个“赌”字,让他泥足深陷,最终成了溜门翻窗、攀爬入别墅区盗窃的“蜘蛛贼”。152、动物园林地间都是堆积了不知道多少年的腐土,层层叠叠的落叶又盖在腐土上,松松散……
小写造句用小写造句大全(61)选择符中属性名和值的大小写敏感性取决于文档语言的敏感性。(62)加州碎件字盘:英文铅字字盘的一种它盛载着大写和小写英文字母。(63)防风外衣,风衣:用于一种……
福特扩大非紧急医疗运输服务投放车辆提供专业司机自从推出非紧急医疗运输服务以来,福特一直在逐步地扩大GoRide的覆盖范围。现在,在密歇根州东南部(包括底特律)和俄亥俄州托莱多进行测试后,汽车制造商透露了未来四年内在全国40……
关于职场人际关系的名言关于职场人际关系的经典语录关于职场人际关系的名言,关于职场人际关系的20条经典语录分享。1。长相并不讨厌。长得不好,就让自己有才;如果你没有天赋,就经常微笑。2。与人打架时,请先坐在司机旁边……
晚安短句正能量一句话一、真正的梦想,永远在实现之中,更在坚持之中。累了,就停一停,让手贴着手,温暖冷漠的岁月;苦了,就笑一笑,让心贴着心,体味至爱的抚摸;哭了,就让泪水尽情流淌,痛彻心菲也是精彩。……
离我造句用离我造句大全151,恐惧中,我感到,他已经完全进入了自身中。我从来没有感到如此孤独,我不是他的一分子,无法触及他,天涯海角也没有他离我的距离那般遥远。赫尔曼黑塞152,我在一家餐饮公……
千古之谜秦始皇等私生子为何能登上皇帝大位私生子,即非婚生子女,是指那些在受孕期间或出生时其生父生母无婚姻关系的子女。由于中国历史传统社会对私生子颇有偏见,因此使一些私生子饱受歧视和羞辱。但是,就在这些难以计数的私生子……
学生社团学期工作总结【引言】2020学生社团学期工作总结为好范文网的会员投稿推荐,但愿对你的学习工作带来帮助。社团是具有某些共同特征、爱好的人相聚而成的互益组织,大学就又很多社团,每到学期末……
我喜欢旅游我爱旅游,旅游可以让我看到许多名胜古迹。风土人情,听到民间的传说,品着美味小吃,读万卷书,行万里路,果真如此。这不,我正巧来到盼望已久的桂林,桂林山水甲天下,名不虚传,山……
工地挖出古代建筑是怎么回事是什么朝代的揭秘最近在山东的滨州发生了一件事情,那就是在一家工地上面有挖出古代建筑了,但是规模什么的其实并不大,就目前的情况来看的话,好像只是有一座贞节牌坊,而且这个东西的时间也是确定的,那么……
鼓励原创微信公众好文章被转载也可以收赞赏微信公众号最近将赞赏功能升级为喜欢作者,原创作者可以直接收取读者赞赏,而且微信已经与苹果和解,iOS系统同样支持此功能。根据微信最新官方消息,今后,原创作者收赞赏又多了一……
日本石泽研究所怎样看是否是正品大米面膜真假对比日本石泽研究所怎样看是否是正品石泽研究所大米面膜真假对比:包装平整度正版真的包装比较平整,而假货的包装则显得不平整,这与包装里的面膜叠放方式有关。日本大米面膜真假鉴……
读林家铺子有感《林家铺子》讲的是在1932年一二八战争前后,上海的动乱生活。茅盾先生是本篇小说的作家,他从当时的经济方面,来揭露出当时旧社会的黑暗的制度,与老百姓被社会逼到了绝境,其中……
双生子十月色下,我又来到了属于我和他的小屋,我记不清回到小屋是第几回了,心里由期盼,忐忑不安,渐渐变成了追思、回忆他已经没法遵守我和他的誓言,我再也见不到他,而他还活在我的心里,……
喀什离新疆其它城市有多远喀什离新疆其它城市有多远?大概最少都是1000公里以上,所以大家不用担心喀什疫情会影响新疆,并不会,距离这么远,不用这么担心!而且,目前国家已经做好防控工作,并不会意味着秋冬第……
汽车刚镀晶可以洗车吗车子做镀晶有必要吗我们经常能看到有的车的车身油光锃亮的,可以当镜子照。这种车一般都是做过打蜡或者镀晶的。镀晶的车表面会有一层坚硬的透明膜,那么汽车刚做了镀晶能不能洗车呢?汽车刚镀晶可以洗车……
写给老婆的几句话第一:要感激上天让我娶了这么一个温柔的(备注:有点懒,有点傻,也有一点憨,除了样子稍丑点、性格慵懒点、耐心少点,(除了玩游戏,聊天的时候相当有耐性))很完美的(备注:除以上几点……
学生疥疮有哪些传播途径有很多在校的学生对疥疮疾病并不是很了解,这种疾病一旦发作之后会严重伤害皮肤,会出现红肿痒溃烂等症状,而且还具有非常强的传染性,这就要求学生平时在学校一定要多注意卫生,在发现同学……
卧室窗帘怎么选择卧室窗帘图片参考现如今的家居生活中,窗帘已经成为家居生活的重要组成部分了,不仅客厅,卧室,卫生间等等都需要它的存在,今天一起网小编主要为大家介绍一下卧室窗帘要怎么选择,希望能够帮助到大家,让大……
项目管理部党风廉政建设自查报告按照集团公司和土建处《党风廉政建设责任制实施办法》和《党风廉政建设责任制考核办法》,项目部认真组织学习贯彻,严格遵守《廉政准则》和党风廉政建设责任制的各项要求,加强日常廉政教育……
黄瓜种植病虫害防治黄瓜发生的主要病害有:黄瓜霜霉病、白粉病等;虫害有蚜虫、粉虱、斑潜蝇等。需要加强栽培和肥水管理,增施磷钾肥,提高植株的抗病能力,注意棚室通风、透光、降湿,创造不利于病虫害发生的……
教学设计怎么写教学设计怎么写?一、课前系统部分(一)教材分析教材分析部分的写作要求:三个操作要求:(1)分析《课程标准》的要求。(2)分析每课教材内容在整个课程标准中和每个模块(……
跑步过量小腿肌肉拉伤如何恢复很多人在运动的时候不小心就会将自己弄伤,其中肌肉拉伤是最常见的,虽然肌肉拉伤不像骨折那般严重,但是患者所遭受的痛苦也是很大的,如果不好好护理的话需要很长时间去恢复,跑步时小腿肌……
夏天贴膜大有讲究烈日炎炎,驾车一族都在为自己的爱车装贴太阳膜,以阻挡热浪。然而,现在的汽车贴膜品种繁多却良莠不齐,以次充好、夸大功效的事常有发生,又由于一般车主对膜的了解不够,贴膜前的盲目以及……