幼儿饰品瑜伽美体用品美文
投稿投诉
美文创意
爱情通信
用品婚姻
爱好看病
美体软件
影音星座
瑜伽周边
星座办公
饰品塑形
搞笑减肥
幼儿两性
智家潮品

解密百度大数据百度是如何使用的并且做了哪些改进

10月14日 六壬会投稿
  引读:百度作为全球最大的中文搜索引擎公司,提供基于搜索引擎的各种产品,几乎覆盖了中文网络世界中所有的搜索需求,因此,百度对海量数据处理的要求是比较高的,要在线下对数据进行分析,还要在规定的时间内处理完并反馈到平台上。百度在互联网领域的平台需求要通过性能较好的云平台进行处理了,Hadoop就是很好的选择。
  在百度,Hadoop主要应用于以下几个方面:
  日志的存储和统计;
  网页数据的分析和挖掘;
  商业分析,如用户的行为和广告关注度等;
  在线数据的反馈,及时得到在线广告的点击情况;
  用户网页的聚类,分析用户的推荐度及用户之间的关联度。
  MapReduce主要是一种思想,不能解决所有领域内与计算有关的问题,百度的研究人员认为比较好的模型应该如下图:
  HDFS实现共享存储,一些计算使用MapReduce解决,一些计算使用MPI解决,而还有一些计算需要通过两者来共同处理。因为MapReduce适合处理数据很大且适合划分的数据,所以在处理这类数据时就可以用MapReduce做一些过滤,得到基本的向量矩阵,然后通过MPI进一步处理后返回结果,只有整合技术才能更好地解决问题。
  百度现在拥有3个Hadoop集群,总规模在700台机器左右,其中有100多台新机器和600多台要淘汰的机器(它们的计算能力相当于200多台新机器),不过其规模还在不断的增加中。现在每天运行的MapReduce任务在3000个左右,处理数据约120TB天。
  百度为了更好地用Hadoop进行数据处理,在以下几个方面做了改进和调整:
  (1)调整MapReduce策略
  限制作业处于运行状态的任务数;
  调整预测执行策略,控制预测执行量,一些任务不需要预测执行;
  根据节点内存状况进行调度;
  平衡中间结果输出,通过压缩处理减少IO负担。
  (2)改进HDFS的效率和功能
  权限控制,在PB级数据量的集群上数据应该是共享的,这样分析起来比较容易,但是需要对权限进行限制;
  让分区与节点独立,这样,一个分区坏掉后节点上的其他分区还可以正常使用;
  修改DSClient选取块副本位置的策略,增加功能使DFSClient选取块时跳过出错的DataN
  解决VFS(VirtualFileSystem)的POSIX(PortableOperatingSystemInterfaceofUnix)兼容性问题。
  (3)修改Speculative的执行策略
  采用速率倒数替代速率,防止数据分布不均时经常不能启动预测执行情况的发生;
  增加任务时必须达到某个百分比后才能启动预测执行的限制,解决reduce运行等待map数据的时间问题;
  只有一个map或reduce时,可以直接启动预测执行。
  (4)对资源使用进行控制
  对应用物理内存进行控制。如果内存使用过多会导致操作系统跳过一些任务,百度通过修改Linux内核对进程使用的物理内存进行独立的限制,超过阈值可以终止进程。
  分组调度计算资源,实现存储共享、计算独立,在Hadoop中运行的进程是不可抢占的。
  在大块文件系统中,X86平台下一个页的大小是4KB。如果页较小,管理的数据就会很多,会增加数据操作的代价并影响计算效率,因此需要增加页的大小。
  百度在使用Hadoop时也遇到了一些问题,主要有:
  MapReduce的效率问题:比如,如何在shuffle效率方面减少IO次数以提高并行效率;如何在排序效率方面设置排序为可配置的,因为排序过程会浪费很多的计算资源,而一些情况下是不需要排序的。
  HDFS的效率和可靠性问题:如何提高随机访问效率,以及数据写入的实时性问题,如果Hadoop每写一条日志就在HDFS上存储一次,效率会很低。
  内存使用的问题:reducer端的shuffle会频繁地使用内存,这里采用类似Linux的buddysystem来解决,保证Hadoop用最小的开销达到最高的利用率;当Java进程内容使用内存较多时,可以调整垃圾回收(GC)策略;有时存在大量的内存复制现象,这会消耗大量CPU资源,同时还会导致内存使用峰值极高,这时需要减少内存的复制。
  作业调度的问题:如何限制任务的map和reduce计算单元的数量,以确保重要计算可以有足够的计算单元;如何对TaskTracker进行分组控制,以限制作业执行的机器,同时还可以在用户提交任务时确定执行的分组并对分组进行认证。
  性能提升的问题:UserLogscleanup在每次task结束的时候都要查看一下日志,以决定是否清除,这会占用一定的任务资源,可以通过将清理线程从子Java进程移到TaskTracker来解决;子Java进程会对文本行进行切割而map和reduce进程则会重新切割,这将造成重复处理,这时需要关掉Java进程的切割功能;在排序的时候也可以实现并行排序来提升性能;实现对数据的异步读写也可以提升性能。
  健壮性的问题:需要对mapper和reducer程序的内存消耗进行限制,这就要修改Linux内核,增加其限制进程的物理内存的功能;也可以通过多个map程序共享一块内存,以一定的代价减少对物理内存的使用;还可以将DataNode和TaskTracker的UGI配置为普通用户并设置账号密码;或者让DataNode和TaskTracker分账号启动,确保HDFS数据的安全性,防止Tracker操作DataNode中的内容;在不能保证用户的每个程序都很健壮的情况下,有时需要将进程终止掉,但要保证父进程终止后子进程也被终止。
  Streaming局限性的问题:比如,只能处理文本数据,mapper和reducer按照文本行的协议通信,无法对二进制的数据进行简单处理。为了解决这个问题,百度人员新写了一个类Bistreaming(BinaryStreaming),这里的子Java进程mapper和reducer按照(KeyLen,Key,ValLen,Value)的方式通信,用户可以按照这个协议编写程序。
  用户认证的问题:这个问题的解决办法是让用户名、密码、所属组都在NameNode和JobTracker上集中维护,用户连接时需要提供用户名和密码,从而保证数据的安全性。
  百度下一步的工作重点可能主要会涉及以下内容:
  内存方面,降低NameNode的内存使用并研究JVM的内存管理;
  调度方面,改进任务可以被抢占的情况,同时开发出自己的基于Capacity的作业调度器,让等待作业队列具有优先级且队列中的作业可以设置Capacity,并可以支持TaskTracker分组;
  压缩算法,选择较好的方法提高压缩比、减少存储容量,同时选取高效率的算法以进行shuffle数据的压缩和解压;对mapper程序和reducer程序使用的资源进行控制,防止过度消耗资源导致机器死机。以前是通过修改Linux内核来进行控制的,现在考虑通过在Linux中引入cgroup来对mapper和reducer使用的资源进行控制;将DataNode的并发数据读写方式由多线程改为select方式,以支持大规模并发读写和Hypertable的应用。
  百度同时也在使用Hypertable,它是以Google发布的BigTable为基础的开源分布式数据存储系统,百度将它作为分析用户行为的平台,同时在元数据集中化、内存占用优化、集群安全停机、故障自动恢复等方面做了一些改进。
投诉 评论 转载

青春期男子出现性冲动怎么办在的时候,很多少男少女们开始出现了,有的时候,他们在和异性相处的时候,会有一种从未有过的冲动,这让他们非常惊讶。其实,青春期有性冲动是非常正常的,只是大家一定要好好地应对这件事……想要变猛就使用春药这一神奇的道具吧男性主导世界已经有好几千年的历史了,给人造成的印象就是男性就是要主动,要猛,要有激情。但是随着社会的不断前进,女性在社会上的地位不断提高,女性中慢慢出现要与男性争个平等的声音。……吊兰怎么养才能抽藤学好个方法让吊兰藤满枝芽一般的花友家里都会养殖一盆吊兰,主要是比较好养活,而且还能够净化环境,给家居生活带来生气,这样的植物养在家里也确实会让人的心情也跟着变好,想把吊兰从小育苗养到它枝叶繁茂还是需要……不用背不用写家长后悔没早知道这学语文今天想和大家聊聊孩子的成绩和家庭教育。最近一直在想这样一个问题:孩子上了学后,我们作为家长到底该承担一个什么样的角色?我有个在500强外企做大客户经理的朋友,异常重……加装发动机护板爱车还是毁车很多车主买了车之后,或者4S或者身边的老司机都会提醒他做好2件事:一是趁早去做底盘装甲,越早就越好。二就是尽早去安装发动机护板。老司机说话总会有人听的,毕竟他们实战经验丰富,会……解密百度大数据百度是如何使用的并且做了哪些改进引读:百度作为全球最大的中文搜索引擎公司,提供基于搜索引擎的各种产品,几乎覆盖了中文网络世界中所有的搜索需求,因此,百度对海量数据处理的要求是比较高的,要在线下对数据进行分析,……都能怎么连考考你知道几种方法掏出口袋里的智能手机,我们最关注的就是屏幕顶端的WiFi图标,一看到它出现心里就会长舒一口气。在现在这个移动互联网时代,无线网络对于人们的重要性不言而喻,有了它我们可以开心的在……大葱褐斑病如何防治大葱褐斑病有什么症状?大葱褐斑病发生原因是什么?大葱褐斑病用什么农药可以防治?以下中国三农网就作简单介绍,供网友们参考。一、大葱褐斑病症状及危害大葱褐斑病又叫大葱叶尖黄萎……新任三大法则2009年06月16日来源:FortuneChina作者:JenniferReingold新上任的CEO有很多东西需要学习,也正因如此他们中的很多人都没能在自己的岗位上坚……年英国东安格利亚大学申请指南排名情况申请要求及优东安格利亚大学和驻中国的英国使馆文化处达成协议,为以下4个领域学习的学生提供联合奖学金:发展学,数学,社会工作和心理学,医药科学。本文将重点阐述下2018年英国东安格利亚大学排……狼牙怎么鉴定真假人们喜欢用狼牙做成装饰物来佩戴,价格还不菲,但是不识货的话容易买到假货,那么狼牙怎么鉴定真假?请看下文。操作方法01:hr一般商人会用狗牙来冒充狼牙,如果是用狗牙冒……王者荣耀怎么观战王者荣耀无法观战好友怎么办王者荣耀怎么去aclasstaghrefwiki10792Iaf97SA。html观战a好友呢?如果无法观战好友怎么办?一起看看我的教程吧。操作方法01:hr本身的……
补脾养阴茶可以治疗脾肺阴虚引起的盗汗症夜间出汗易绕着公司里的那些处事高人走同学你很优秀我们不打算录用你款中短发发型扎法步骤图解角瓜炒豆干的家常做法自体软骨隆鼻后效果会很自然吗年乡镇长个人述职述德述廉述法报告学校年落实全面从严治党主体责任工作总结火灾事故安全生产专项检查总结暖通工程施工全过程施工管理措施关于进一步规范党支部经常性工作的通知次新基金重振信心

友情链接:中准网聚热点快百科快传网快生活快软网快好知文好找漯河衢州兴义眉山桂林阳泉玉溪简阳山东遂宁永城新余梧州洛阳泸州温州临汾清远营口常熟浙江大连桐乡宜昌