幼儿饰品瑜伽美体用品微软
投稿投诉
微软创意
爱情通信
用品婚姻
爱好看病
美体软件
影音星座
瑜伽周边
星座办公
饰品塑形
搞笑减肥
幼儿两性
智家潮品

大数据图解常见的大数据平台架构设计思路

  常见的大数据平台架构设计思路
  本文主要包括以下几个章节:本文第一部分介绍一下大数据基础组件和相关知识。第二部分会介绍lambda架构和kappa架构。第三部分会介绍lambda和kappa架构模式下的一般大数据架构第四部分介绍裸露的数据架构体系下数据端到端难点以及痛点。第五部分介绍优秀的大数据架构整体设计从第五部分以后都是在介绍通过各种数据平台和组件将这些大数据组件结合起来打造一套高效、易用的数据平台来提高业务系统效能,让业务开发不再畏惧复杂的数据开发组件,无需关注底层实现,只需要会使用SQL就可以完成一站式开发,完成数据回流,让大数据不再是数据工程师才有的技能。
  一、大数据技术栈
  大数据整体流程涉及很多模块,每一个模块都比较复杂,下图列出这些模块和组件以及他们的功能特性,后续会有专题去详细介绍相关模块领域知识,例如数据采集、数据传输、实时计算、离线计算、大数据储存等相关模块。
  二、lambda架构和kappa架构
  目前基本上所有的大数据架构都是基于lambda和kappa架构,不同公司在这两个架构模式上设计出符合该公司的数据体系架构。lambda架构使开发人员能够构建大规模分布式数据处理系统。它具有很好的灵活性和可扩展性,也对硬件故障和人为失误有很好的容错性,关于lambda架构可以在网上搜到很多相关文章。而kappa架构解决了lambda架构存在的两套数据加工体系,从而带来的各种成本问题,这也是目前流批一体化研究方向,很多企业已经开始使用这种更为先进的架构。
  Lambda架构
  Kappa架构
  三、kappa架构和lambda架构下的大数据架构
  目前各大公司基本上都是使用kappa架构或者lambda架构模式,这两种模式下大数据整体架构在早期发展阶段可能是下面这样的:
  四、数据端到端痛点
  虽然上述架构看起来将多种大数据组件串联起来实行了一体化管理,但是接触过数据开发的人会感受比较强烈,这样的裸露架构业务数据开发需要关注很多基础工具的使用,实际数据开发中存在很多痛点与难点,具体表现在下面一些方面。
  缺乏一套数据开发IDE来管理整个数据开发环节,长远的流程无法管理起来。没有产生标准数据建模体系,导致不同数据工程师对指标理解不同计算口径有误。大数据组件开发要求高,普通业务去直接使用Hbase、ES等技术组件会产生各种问题。基本上每个公司大数据团队都会很复杂,涉及到很多环节,遇到问题难以定位难以找到对应负责人。难以打破数据孤岛,跨团队跨部门数据难以共享,互相不清楚对方有什么数据。需要维护两套计算模型批计算和流计算,难以上手开发,需要提供一套流批统一的SQL。缺乏公司层面的元数据体系规划,同一条数据实时和离线难以复用计算,每次开发任务都要各种梳理。
  基本上大多数公司在数据平台治理上和提供开放能力上都存在上述问题和痛点。在复杂的数据架构下,对于数据使用方来说,每一个环节的不清晰或者一个功能的不友好,都会让复杂链路变得更加复杂起来。想要解决这些痛点,就需要精心打磨每一个环节,将上面技术组件无缝衔接起来,让业务从端到端使用数据就像写SQL查询数据库一样简单。
  五、优秀的大数据整体架构设计
  提供多种平台以及工具来助力数据平台:多种数据源的数据采集平台、一键数据同步平台、数据质量和建模平台、元数据体系、数据统一访问平台、实时和离线计算平台、资源调度平台、一站式开发IDE。
  六、元数据大数据体系基石
  元数据是打通数据源、数据仓库、数据应用,记录了数据从产生到消费的完整链路。元数据包含静态的表、列、分区信息(也就是MetaStore)。动态的任务、表依赖映射关系;数据仓库的模型定义、数据生命周期;以及ETL任务调度信息、输入输出等元数据是数据管理、数据内容、数据应用的基础。例如可以利用元数据构建任务、表、列、用户之间的数据图谱;构建任务DAG依赖关系,编排任务执行序列;构建任务画像,进行任务质量治理;提供个人或BU的资产管理、计算资源消耗概览等。
  可以认为整个大数据数据流动都是依靠元数据来管理的,没有一套完整的元数据设计,就会出现上面的数据难以追踪、权限难以把控、资源难以管理、数据难以共享等等问题。
  很多公司都是依靠hive来管理元数据,但是个人认为在发展一定阶段还是需要自己去建设元数据平台来匹配相关的架构。
  关于元数据可以参考饿了么一些实战:https:www。jianshu。compf60b2111e414
  七、流批一体化计算
  如果维护两套计算引擎例如离线计算Spark和实时计算Flink,那么会对使用者造成极大困扰,既需要学习流计算知识也需要批计算领域知识。如果实时用Flink离线用Spark或者Hadoop,可以开发一套自定义的DSL描述语言去匹配不同计算引擎语法,上层使用者无需关注底层具体的执行细节,只需要掌握一门DSL语言,就可以完成Spark和Hadoop以及Flink等等计算引擎的接入。
  八、实时与离线ETL平台
  ETL即ExtractTransformLoad,用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程。ETL一词较常用在数据仓库,但其对象并不限于数据仓库。一般而言ETL平台在数据清洗、数据格式转换、数据补全、数据质量管理等方面有很重要作用。作为重要的数据清洗中间层,一般而言ETL最起码要具备下面几个功能:支持多种数据源,例如消息系统、文件系统等支持多种算子,过滤、分割、转换、输出、查询数据源补全等算子能力支持动态变更逻辑,例如上述算子通过动态jar方式提交可以做到不停服发布变更。
  九、智能统一查询平台
  大多数数据查询都是由需求驱动,一个需求开发一个或者几个接口,编写接口文档,开放给业务方调用,这种模式在大数据体系下存在很多问题:这种架构简单,但接口粒度很粗,灵活性不高,扩展性差,复用率低。随着业务需求的增加,接口的数量大幅增加,维护成本高企。同时,开发效率不高,这对于海量的数据体系显然会造成大量重复开发,难以做到数据和逻辑复用,严重降低业务适用方体验。如果没有统一的查询平台直接将Hbase等库暴露给业务,后续的数据权限运维管理也会比较难,接入大数据组件对于业务适用方同样很痛苦,稍有不慎就会出现各种问题。
  通过一套智能查询解决上述大数据查询痛点问题
  十、数仓建模规范体系
  随着业务复杂度和数据规模上升,混乱的数据调用和拷贝,重复建设带来的资源浪费,数据指标定义不同而带来的歧义、数据使用门槛越来越高。以笔者见证实际业务埋点和数仓使用为例,同一个商品名称有些表字段是goodid,有些叫spuid,还有很多其他命名,对于想利用这些数据人会造成极大困扰。因此没有一套完整的大数据建模体系,会给数据治理带来极大困难,具体表现在下面几个方面:
  数据标准不一致,即使是同样的命名,但定义口径却不一致。例如,仅uv这样一个指标,就有十几种定义。带来的问题是:都是uv,我要用哪个?都是uv,为什么数据却不一样?造成巨大研发成本,每个工程师都需要从头到尾了解研发流程的每个细节,对同样的坑每个人都会重新踩一遍,对研发人员的时间和精力成本造成浪费。这也是目标笔者遇到的困扰,想去实际开发提取数据太难。没有统一的规范标准管理,造成了重复计算等资源浪费。而数据表的层次、粒度不清晰,也使得重复存储严重。
  因此大数据开发和数仓表设计必须要坚持设计原则,数据平台可以开发平台来约束不合理的设计,例如阿里巴巴的OneData体。一般而言,数据开发要经过按照下面的指导方针进行:
  有兴趣的可以参考阿里巴巴的OneData设计体系。
  十一、一键集成平台
  很简单的就能将各种各式数据一键采集到数据平台,通过数据传输平台将数据无缝衔接到ETL平台。ETL通过和元数据平台打通,规范Schema定义,然后将数据转换、分流流入到实时与离线计算平台,后续任何针对该数据离线和实时处理,只需要申请元数据表权限就可以开发任务完成计算。数据采集支持多种各式数据来源,例如binlog、日志采集、前端埋点、kafka消息队列等
  十二、数据开发IDE高效的端到端工具
  高效的数据开发一站式解决工具,通过IDE可以完成实时计算与离线计算任务开发,将上述平台全部打通提供一站式解决方案。数据开发IDE提供数据集成、数据开发、数据管理、数据质量和数据服务等全方位的产品服务,一站式开发管理的界面,通过数据IDE完成对数据进行传输、转换和集成等操作。从不同的数据存储引入数据,并进行转化和开发,最后将处理好的数据同步至其他数据系统。通过高效率的大数据开发IDE,基本上让大数据工程师可以屏蔽掉各种痛点,将上述多种平台能力结合起来,让大数据开发可以向写SQL一样简单。
  关于数据开发工具可以参考阿里云的DataWorks。
  解决端到端难点还需要其他若干能力辅助,这里就不再叙述,有兴趣的同学可以自行研究。
  十三、其他
  完整的数据体系研发还包括告警与监控中心、资源调度中心、资源计算隔离、数据质量检测、一站式数据加工体系,这里就不再继续讨论了。
  文章来源:https:www。bemore。cn常见的大数据平台架构设计思路

小米发布120W秒充芯片,为12系列新机造势电子发烧友网报道(文李诚)距小米12系列发布日期愈发临近,每天给你一个小惊喜的小米官方于12月24日再爆猛料,小米将会在12Pro机型中搭载自研芯片澎湃P1,这是小米澎湃系列继……华为Mate40pro全球限量版,最高售价达46万华为联合Caviar奢侈品牌推出的全球限量定制版华为Mate40pro,该机型是与Caviar奢侈品牌联合推出的,共14个版本,也可以根据自己爱好定制,目前最高售价达几十万元,……EDG冠军皮肤确定男枪破败王佐伊月男露露LOL的海外合作伙伴表示,EDG的冠军皮肤已经选好了英雄,并且皮肤已经在制作中了。首先是上单男枪,大家一点也不意外,本来有可能是杰斯的,但是现在看来,或许是圣枪哥当时的杰……长春双阳经济开发区等三地获批全国首批国家级专利导航服务基地近期,国家知识产权局运用促进司公布了全国首批国家级专利导航服务基地。吉林省有长春双阳经济开发区、吉林省知识产权保护中心、长春市知识产权保护中心三地成为全国首批国家级专利导航服务……纳斯从未见过这么奇怪的比赛需要巴恩斯从头到尾都更具侵略性直播吧1月5日讯NBA常规赛,猛龙加时101104不敌雄鹿。赛后猛龙主帅纳斯接受了采访。对于本场比赛,纳斯认为:我从没见过这么奇怪的比赛。当谈到巴恩斯的表现,纳斯表……关于西方伟大哲学家对人生意义的不同的各种思想幸福主义人生观。快乐主义和禁欲主义都是幸福主义,快乐主义以物质欲望的满足为幸福,禁欲主义以摆脱物质欲望为幸福,此外还有各种幸福主义,它们都以追求幸福作为人生的目标,但对幸福的理……炒芹菜,直接炒或焯水都不对,大厨教你一妙招,爽脆入味还不塞牙炒芹菜,直接炒或焯水都不对,大厨教你一妙招,爽脆入味还不塞牙芹菜是一种很好吃的蔬菜,口感爽脆,营养价值也很高。它含有丰富的纤维素,可以促消化、助排便。味甘、苦,性凉,归肺……C罗内马尔要实力更要帅气!是兄弟就一起做医美吧男人爱美的时候比女人还认真!都说世界杯帅哥多,那是因为形象管理很重要啊,全世界都盯着他们看,而且他们变帅以后,自身的形象也会更有商业价值。C罗是出了名的医美达人,曾在曼联……暗区突围致富计划第三弹哈喽大家好!我是执星者。这里是暗区致富计划的第三弹!01主武器z俗话说想致富先修路,所以第一期我就制定了行动路线(第一期只制定了一条路线,后续我将补齐其他常见……年度8K真旗舰三星QN900C为高端用户而生如今一台高端的电视已经成为了追求高品质生活的必备产品,因为只有电视大屏才能给我们带来无可替代的震撼视听体验与沉浸感。自显示技术诞生并发展以来,人们对于更高分辨率的追求从未改变。……NBA超级巨星里,谁职业生涯合作过的状元队友最多?乔丹只有一因为超级巨星的定义标准不同,所以我们这里直接采用ESPN给出的NBA历史前十名,当然这里面斯蒂芬库里没有进入前十,很多人都知道库里搭档过博古特和维金斯这两位状元队友,但实际01……拼多多,带上乡镇去赶集产业带不强、传统手工艺品面临失传,拼多多有新手段。撰文蓝洞商业郭朝飞山西祁县是晋商的重要发源地之一,今天的这里依然商业文化浓厚。90后大学生颉育麟毕业后,从省……
春晚奇葩出圈合集马凡舒的敬酒服,张小斐的妆发,谭维维的遮瑕都说每年春晚,是最大的带货现场。果不其然,张小斐今年又是带货王,价值万元的大衣,10分钟就直接被售罄。紧接着,她穿的价值6500的鞋子,也被网友顶上热搜。这行……玛瑙手串的鉴别方法nbspnbsp多个角度出发助您买到正品玛瑙是石英的一种隐晶质变体,其特征是质地细腻且色彩鲜艳,硬度、折光率都明显高于普通玉石,深得收藏家的喜爱。大家在购买的时候,需要科学鉴别是否是正品玛瑙。玛瑙是现代玉石市场……图手工编织有多少编法一双巧手造就传统工艺手工编织用简单的材料就能创造出具有欣赏价值的精美物品,以下有几种非常容易上手的编法介绍给大家,让你随时随地都能进行创作,以下内容可全部都是干货哦。首先我来介绍一种非常简单……猫眼石手镯有什么效果nbspnbsp增强免疫力的天然佳品说起猫眼石,想必不少爱美的女性对它不陌生,由于它在光线的照耀下看起来就像是猫的眼瞳,变换多端,堪称具有猫眼效应的金绿宝石。佩戴在身上还具有增强免疫力的功效。猫眼石,作为金……图大家都爱玩的羊毛毡是什么轻松学会只需5步在家无聊,不想看剧、玩游戏的时候该做些什么好?简单易学、好玩好看的羊毛毡戳戳乐是一个不错的选择。无论你心灵手巧,还是眼拙手笨,只需5步,就能做出可爱的戳戳乐。漫漫长假,不……翡翠和玉的区别nbsp小诀窍教你快速分辨区分翡翠和玉有什么区别,简单的办法就是拿翡翠或者玉往玻璃上划,因为翡翠与玉的硬度不一样,翡翠是非常硬的,被称为硬玉,而剩下的玉都被称为软玉。翡翠和玉很多人以为是不同的的,……事实就是,这位日本设计师对中式元素的运用至今影响国潮2017年,一个名为tokyofashion的日本时尚网站刊登了在东京街头拍摄的两位日本女孩照片,文字描述她们都穿了中式风格的上衣,右边的女生搭配JeanPaulGaultie……碧玺手链禁忌有哪些nbsp佩戴应遵循左进右出原则碧玺是我国无数珍宝中的奇葩,它色泽明亮、颜色丰富、晶莹饱满,巧通灵性,是女性优先选择的首饰配件。可是,碧玺虽美,但佩戴的时候却很有讲究,并非所有人都适合碧玺。随着珠宝行业……图简笔画人物动手创造奇妙色彩对于每个人来说,简笔画都是一种比较容易掌握的画画技术。不仅深受小孩的喜爱,更受到年轻朋友们的喜爱。简笔画不仅可以画出简单的人物,更能够画出各种不同的场景。简笔画是一种言简……绿松石原石怎么鉴别真假nbspnbsp3个技巧帮你避免上当绿松石原石,作为上帝赐予我们人类的天然圣宝,深受不少广大群众的喜爱。但市面上琳琅满目的绿松石原石,真真假假看得让人眼花缭乱。因此,掌握几个辨别技巧是很重要的。绿松石原石,……山冈晃外山圭一郎,全新作品野狗子正式公开外山圭一郎(《重力异想世界》《寂静岭》《死魂曲》)在离开SIEJapan工作室后,成立了新工作室BokehGameStudio,集结了不少行业内的大佬。在今天的TGA20……欢乐颂3杀青!江疏影晒新五美合影,演员大换血恐失收视率1月11日,江疏影在网上晒出了杀青照,她的新戏《欢乐颂3》正式杀青了!曾经《欢乐颂1》大获成功,实现了口碑、收视的双丰收,也让刘涛、杨紫再度翻红,让关雎尔的饰演者乔欣也进……
友情链接:易事利快生活快传网聚热点七猫云快好知快百科中准网快好找文好找中准网快软网