幼儿饰品瑜伽美体用品微软
投稿投诉
微软创意
爱情通信
用品婚姻
爱好看病
美体软件
影音星座
瑜伽周边
星座办公
饰品塑形
搞笑减肥
幼儿两性
智家潮品

通俗易懂06RegressionTree回归树

  1、决策树回归算法核心思想1。1、决策树结构回顾
  决策树的典型结构如下图所示:
  主流的决策树算法有:ID3:基于信息增益来选择分裂属性(每步选择信息增益最大的属性作为分裂节点,树可能是多叉的)。C4。5:基于信息增益率来选择分裂属性(每步选择信息增益率最大的属性作为分裂节点,树可能是多叉的)。CART:基于基尼系数来构建决策树(每步要求基尼系数最小,树是二叉的)。其中:CART树全称ClassificationAndRegressionTree,即可以用于分类,也可以用于回归,这里指的回归树就是CART树,ID3和C4。5不能用于回归问题。
  具体如下图:
  2、回归树算法原理
  回归树的构建核心问题:如何选择划分点?如何决定树中叶节点的输出值?
  假设X和Y分别为输入和输出变量,并且Y是连续变量,给定训练数据集D,考虑如何生成回归树。
  一个回归树对应着输入空间(即特征空间)的一个划分以及在划分的单元上的输出值。假设已将输入空间划分为M个单元R1,R2,RM,并且在每个单元Rm上有一个固定的输出值Cm,于是回归树模型可以表示为:
  当输入空间的划分确定时,可以用平方误差:
  来表示回归树对于训练数据的预测误差;用平方误差最小的准则求解每个单元上的最优输出值。易知,单元Rm上的Cm的最优值Cm是Rm上的所有输入实例Xi对应的输出Yi的均值,即:
  2。1问题1:怎样对输入空间进行划分?即如何选择划分点?
  CART回归树采用启发式的递归二分方法对输入空间进行划分,自顶向下的贪婪式递归方案,指的是每一次的划分,只考虑当前最优,而不回头考虑之前的划分
  选择第j个变量Xj和它取的值s,作为切分变量(splittingvariable)和切分点(splittingpoint),并定义两个区域:
  和
  然后寻找最优切分变量j和最优切分点s。具体地,求解:
  对固定输入变量j可以找到最优切分点s。2。2、问题2:如何决定树中叶节点的输出值?
  用选定的最优切分变量j和最优切分点s划分区域并决定相应的输出值:
  和
  遍历所有输入变量,找到最优的切分变量j,构成一个对(j,s)。依此将输入空间划分为两个区域。接着,对每个区域重复上述划分过程,直到满足停止条件为止。这样就生成一颗回归树。这样的回归树通常称为最小二乘回归树(leastsquaresregressiontree)。如果已将输入空间划分为M个区域R1,R2,Rm,并且在每个区域Rm上有一个固定的输出值Cm,于是回归树模型可以表示为:
  2。3算法流程
  3、回归树案例
  本示例来源于李航著的《统计学习方法》第5章决策树习题中的5。2题。已知如图3所示的训练数据,试用平方误差损失准则生成一个二叉回归树。
  寻找最优切分变量j和最优切分点s的方法为:
  其中,
  和
  例如,取s1。此时R1{1},R2{2,3,4,5,6,7,8,9,10},这两个区域的输出值分别为:
  C14。50
  C219(4。754。915。345。807。057。908。238。709。00)6。85
  根据上面的计算方法,可以得到下表:
  把C1,C2的值代入到均方差中,如下:
  C(1)0{(4。756。85)2(4。916。85)2(5。346。85)2(5。806。85)2(7。056。85)2(7。906。85)2(8。236。85)2(8。706。85)2(9。006。85)2}22。65
  同理,可以获得下表:
  显然取s5时,m(s)最小。因此,第一个最优切分变量为j5。8、最优切分点为s5。
  3。1、用选定的(j,s)划分区域,并决定输出值:
  两个划分的区域分别是:R1{1,2,3,4,5},R2{6,7,8,9,10}。输出值用公式:
  和
  得到C15。06,C28。18。
  3。2、对两个子区域继续调用算法流程中的步骤(1),(2)
  对R1继续进行划分:
  取切分点分别为:〔1,2,3,4,5〕,则各个区域的输出值c如下表:
  计算m(s):
  s3时,m(3)最小。之后的递归过程同上,我就不在赘述啦!最后,如下图所示给出完整的二叉回归树:
  4。、关于回归树的若干问题
  4。1、CART实现分类树与回归树的区别?
  CART分类树是一种二分递归分割的技术,分割方法采用基于最小距离的基尼指数估计函数,将当前的样本集分为两个子样本集,使得生成的的每个非叶子节点都有两个分支。因此,CART算法生成的决策树是结构简洁的二叉树。
  CART分类树是针对目标变量是离散型变量,通过二叉树将数据进行分割成离散类的方法。而回归树则是针对目标变量是连续性的变量,通过选取最优分割特征的某个值,然后数据根据大于或者小于这个值进行划分进行树分裂最终生成回归树。
  4。2、树形结构为什么不需要归一化?
  因为数值缩放不影响分裂点位置,对树模型的结构不造成影响。按照特征值进行排序的,排序的顺序不变,那么所属的分支以及分裂点就不会有不同。而且,树模型是不能进行梯度下降的,因为构建树模型(回归树)寻找最优点时是通过寻找最优分裂点完成的,因此树模型是阶跃的,阶跃点是不可导的,并且求导没意义,也就不需要归一化。
  4。3、既然树形结构(如决策树、RF)不需要归一化,那为何非树形结构比如Adaboost、SVM、LR、KNN、KMeans之类则需要归一化?
  对于线性模型,特征值差别很大时,运用梯度下降的时候,损失等高线是椭圆形,需要进行多次迭代才能到达最优点。但是如果进行了归一化,那么等高线就是圆形的,促使SGD往原点迭代,从而导致需要的迭代次数较少。
  4。4、决策树如何剪枝?
  决策树的剪枝基本策略有预剪枝(PrePruning)和后剪枝(PostPruning)。预剪枝:其中的核心思想就是,在每一次实际对结点进行进一步划分之前,先采用验证集的数据来验证如果划分是否能提高划分的准确性。如果不能,就把结点标记为叶结点并退出进一步划分;如果可以就继续递归生成节点。后剪枝:后剪枝则是先从训练集生成一颗完整的决策树,然后自底向上地对非叶结点进行考察,若将该结点对应的子树替换为叶结点能带来泛化性能提升,则将该子树替换为叶结点。
  在第3节回归树的示例中,我没有对生成的二叉回归树进行剪枝,感兴趣的同学可以自己尝试实现预剪枝和后剪枝,来避免生成的二叉回归树过拟合。5。、代码实现importnumpyasnpimportmatplotlib。pyplotaspltfromsklearn。treeimportDecisionTreeRegressorfromsklearnimportlinearmodelDatasetxnp。array(list(range(1,11)))。reshape(1,1)ynp。array(〔4。50,4。75,4。91,5。34,5。80,7。05,7。90,8。23,8。70,9。00〕)。ravel()Fitregressionmodelmodel1DecisionTreeRegressor(maxdepth1)model2DecisionTreeRegressor(maxdepth3)model3linearmodel。LinearRegression()model1。fit(x,y)model2。fit(x,y)model3。fit(x,y)PredictXtestnp。arange(0。0,10。0,0。01)〔:,np。newaxis〕y1model1。predict(Xtest)y2model2。predict(Xtest)y3model3。predict(Xtest)Plottheresultsplt。figure()plt。scatter(x,y,s20,edgecolorblack,cdarkorange,labeldata)plt。plot(Xtest,y1,colorcornflowerblue,labelmaxdepth1,linewidth2)plt。plot(Xtest,y2,coloryellowgreen,labelmaxdepth3,linewidth2)plt。plot(Xtest,y3,colorred,labellinerregression,linewidth2)plt。xlabel(data)plt。ylabel(target)plt。title(DecisionTreeRegression)plt。legend()plt。show()

不愧是杜锋的师傅,李春江指着裁判的鼻子骂,郭士强在旁拱火105101,上海队击败广州队取得三连胜,排名也升至联盟第三的位置!此役上海队虽然赢球了,但是赛后需要总结的问题很多,在实力绝对占优,一度领先22分的情况下,竟然险些进入加时赛……金鸡奖开幕红毯张子枫刘浩存清纯无害,韩雪刘敏涛谁更高贵?12月28日,第34届金鸡奖正式开幕,开幕红毯正在举行中,张子枫、刘浩存、王俊凯等人率先亮相。两大小花张子枫和刘浩存,两个30的优秀演员韩雪和刘敏涛都首先亮相了,一起来看看这些……皇马球星白菜价离队,当年8500万镑天价引进,上赛季仅踢7场北京时间6月26日,皇马球星贝尔在其个人社交平台发布加盟美职球队洛杉矶FC的消息。据媒体最新爆料,贝尔新赛季薪水为161万美元,而威尔士人上赛季在皇马的年薪高达3500万美元,……浪姐三公,王心凌组组名亮了吴爱凌Sa娇(我爱你撒娇)近日,王心凌在自己的社交平台发布了《乘风破浪》三公分组组名吴爱凌Sa娇(分别取自五位姐姐的名字:吴谨言、张天爱、王心凌、阿Sa蔡卓妍、阿娇钟欣潼)。嗯,这名字取得还是不错……乔振宇老婆王倩一恋爱四个月之后奉子成婚,如今儿女双全文URANUS。编辑小情书世事如棋,人海茫茫,人与人之间能够相遇相知,或是相亲相爱,是必然也是偶然,或许在冥冥之中自有缘分指引。而王倩一和乔振宇的感情就如此,……1972年出生,退休养老金每月能领到2396元,赚翻了?看这今天看到了一位朋友晒出的退休基本养老金核定表,1972年出生,2022年退休(江苏省徐州市退休),缴费年限是30年08个月,养老保险个人账户余额68544元,退休养老金达到了2……A股将迎来罕见的水牛行情今天两市跳空高开,继续上攻,上证指数和创业板指数均放量上攻,北上资金再度流入近百亿,其创业板指在新能源车的加持下,高举高打早就突破了牛熊分界线半年线。创业板指本月月线涨幅已经高……印度比中国更早探索火星,却无法登月,又要被阿联酋抢走全球第四印度航天技术水平相当不错的,在全球范围可以属于第二梯队,还属于名列前茅,比如:在外空控测领域,印度比中国更早探索火星,可惜印度存在的不足也不少,比如:探月领域,谁也没有想到印度……旗舰性能vivoS15系列上榜,vivoS12沦为乞丐机,不这次vivoS15系列的所有机型都在旗舰性能榜上,充分体现了这款手机的优异性能。在用户感知度高的性能、屏幕、充电方面,这款手机带来了针对性的提升。由此也可以看出,vivo非常重……奥斯卡获奖影片撞车导演因涉嫌性侵被捕,曾有被指控前科据外媒报道,奥斯卡最佳影片《撞车》的导演编剧保罗哈吉斯上周日在意大利,因被指控性侵被警方逮捕。保罗哈吉斯2004年执导的犯罪电影《撞车》获得第78届奥斯卡金像奖最佳原创剧……F1车队盘点2022年6月20日加拿大大奖赛落幕,红牛车队维斯塔潘获得了分站赛冠军。赛季前九站比赛结束,红牛、法拉利、梅奔分别位列13名。剩下的十四站比赛,哪只车队会成为年度车队冠军,哪位……七爪源码让我思考的JavaScript面试问题我真的了解JaJavaScript最让我惊讶的部分是它周围总是有新事物发生。而且,无论您对它了解多少,您都将始终了解有关它的新事物。这些问题我收集了很长时间。在大多数问题中,我真的不知……
体验阿尔法SHI版城市NCA,华为加持的人机共驾逻辑偏保守但在相当长的一段时间里,辅助驾驶系统的能力上限停留在自适应巡航、紧急制动、车道保持等L2级初级阶段。而随着芯片算力和电气架构这两大地基愈发坚实后,汽车的自动驾驶能力开始飞跃。……新能源智能驾驶汽车将会成为我国未来经济成长的核心动力今年以来的俄乌冲突,让俄罗斯石油产销受到相应的影响,欧佩克又减少对石油的生产和供应,从而使石油价格不断高涨,国内汽油价格一直维持在高位难以降价。基于出行成本等各方面的考虑……辽宁输给广东!杨鸣总结了三点原因,没提排兵布阵,还转移了火力12月15日消息,昨晚辽粤大战,最终广东99:85赢下了最终的胜利,本以为这场比赛过程会非常精彩,但令人没有想到是,广东在几员大将缺席的情况下,在开局极度不利的局面下,仍旧能完……多重折扣爆品秒杀海南离岛免税跨年狂欢季期间优惠多多海南离岛免税促消费新闻发布会。记者刘洋摄新海南客户端、南海网、南国都市报12月7日消息(记者王子遥)即日起,海南离岛免税跨年狂欢季正式启动。年末将至,海南各离岛免税经营主……为什么女生喜欢穿丝袜?丝袜该如何选择?穿丝袜的女人,总是给人们一种朦胧的美,这种美给人以高贵、含蓄、温柔的感觉,并且与合适的高跟鞋相配,将女人所特有的气质展现的一览无余。有些女人很不习惯穿长筒丝袜,其实,穿长……京东方回应拿下苹果手机大单传闻目前不便对单一客户信息透露过多本报记者贾丽在供应链风险加大的背景下,苹果正在引入更多合作伙伴。1月4日,天风国际证券知名苹果分析师郭明錤发文称,京东方已获得今年下半年发布的新款iPhone15与iPh……你是我遥不可及的幸福我时常在想,如果此时此刻你在我身边,那该有多幸运。在曾经可以结婚的年纪,没有匆匆忙忙的去按照他们的观念去生活,所以我现在可以庆幸后来遇到了你。周二刚刚见过,可是回来……世界最美黑人超模三婚嫁双性恋摇滚巨星,跨越生死与其相恋24年在绝美的五官面前,任何肤色都只是陪衬。她是索马里的黑珍珠,也是世界上的第一位黑人超模。出道即巅峰,她打破了白人统治的局面,也创造了不可磨灭的传奇!迈克尔杰克逊请她出……LPL各大战队转会大洗牌三大银河战舰诞生皆有望冲击S13世界2022英雄联盟S12过后,LPL赛区就迎来万众瞩目的转会期,因为很多选手都是短合约,而今年LPL赛区在世界赛成绩又不佳,所以必然会有很多战队进行大洗牌。转会过程必然是有人欢喜……超过了马云登顶中国的首富榜,大家对他了解多少?大家可能不知道钟睒睒是谁,但是只要看电视看广告应该都听过农夫山泉,有点甜这个语录,而钟睒睒就是农夫山泉的创始人。大家一定好奇就当当只卖矿泉水就能登上亚洲首富吗?且听我娓娓……网易迈起老碎步图片来源视觉中国文新立场NewPosition,作者VV,编辑李凡浙江奉化中学有三个杰出校友蒋介石、蒋经国、以及丁磊。学生时代的丁磊并不是个传统意义上循规蹈矩……神14太空出差6个月,堪称最繁忙的乘组,看看究竟多硬核?6月5日神14乘组出征太空神舟十四航天员乘组,6月5日前往空间站出差,担负着中国空间站建造的重任,为国出征再扣苍穹到目前已满6个月,与神舟十五号乘组完成首次在轨交接,圆满……
友情链接:易事利快生活快传网聚热点七猫云快好知快百科中准网快好找文好找中准网快软网