临汾山东漯河饰品美体美文
投稿投诉
美文创意
爱情通信
用品婚姻
爱好看病
美体软件
影音星座
瑜伽周边
星座办公
饰品塑形
搞笑减肥
幼儿两性
智家潮品
漯河衢州
兴义眉山
桂林阳泉
玉溪简阳
山东遂宁
永城新余
梧州洛阳
泸州温州
临汾清远
营口常熟
浙江大连
桐乡宜昌

企业级数据中台架构

3月7日 终不悔投稿
  一、什么是数据中台
  数据中台是一种将企业沉睡的数据变成数据资产,持续使用数据、产生智能、为业务服务,从而实现数据价值变现的系统和机制。通过数据中台提供的方法和运行机制,形成汇聚整合、提纯加工、建模处理、算法学习,并以共享服务的方式将数据提供给业务使用,从而与业务联动。再者,结合业务中台的数据生产能力,最终构建数据生产一消费一再生的闭环。
  数据中台与大数据、数据仓库、数据湖、商业智能BI有什么区别,请参考另外一篇文章:https:www。toutiao。comarticle7166179034006209061。二、数据中台功能架构
  数据中台建设是一个宏大的工程,涉及整体规划、组织搭建、中台落地与运营等方方面面的工作,本文重点从物理形态上讲述企业的数据中台应该如何搭建。一般来讲,企业的数据中台在物理形态上分为三个大层:工具平台层、数据资产层和数据应用层。
  2。1工具平台层
  工具平台层是数据中台的载体,包含大数据处理的基础能力技术,如集数据采集、数据存储、数据计算、数据安全等于一个的大数据平台;还包含建设数据中台的一系列工具,如离线或实时数据研发工具、数据联通工具、标签计算工具、算法平台工具、数据服务工具及自助分析工具。以上工具集基本覆盖了数据中台的数据加工过程。
  (1)数据开发平台
  大数据的4V(Volume数据量大、Variety类型繁多、Velocity速度快效率高、Value价值密度低)特征决定了大数据处理是一个复杂的工程。建设数据中台需要搭建数据中台的基建工具,要满足各种结构化、非结构化数据的采集、存储与处理,要根据场景处理离线和实时数据的计算与存储,要将一个个数据处理任务串联起来以保障数据的运转能赋能到业务端。
  (2)数据资产管理
  数据中台建设的成功与否,与数据资产是否管理有序有直接关系。数据中台是需要持续运营的,随着时间的推移,数据不断涌人数据中台,如果没有一套井然有序的数据资产平台来进行管理,后果将不堪设想。
  数据资产管理工具既能帮助企业合理评估、规范和治理信息资产,又可以发挥数据资产价值并促进数据资产持续增值。对于数据资产管理,不推荐事后管理,而要与数据研发的过程联动。也就是说,当数据经过数据开发平台加工的链路时,数据资产管理平台就已经无声无息地介入了。数据资产管理的首要任务是管理好进入数据中台的元数据,这里的元数据包括数据源、构建的各种模型、通过模型拆解出来的指标与标签。有序管理这些数据资产的元数据是前提条件,只有做好了这一步,才能继续对数据流向的追溯,对指标、标签体系的生命可期进行管理。
  (3)标签工厂
  标签工厂又称标签平台,标签建设是数据中台走向数据业务化的关键步骤,严格来说标签工厂也属于数据开发平台的一部分。一个强大的标签工厂是数据中台价值体现的有力保障,标签的使用场景丰富,标签与业务结合得非常紧密。标签工厂致力于屏蔽底层复杂的大数据框架,面向普通开发人员、数据分析师、运营人员提供友好的界面交互配置,完成标签的全生命周期管理;同时,对上层业务系统提供自身API能力,与各业务系统形成数据闭环。
  标签工厂按功能一般分为两部分:底层的标签计算引擎与上层的标签配置与管理门户。标签计算引擎一般会使用MapReduce、Spark、Flink等大数据计算框架,而计算后的标签存储可采用Elasticsearch或者HBase,这样存储的好处是便于快速检索。而标签配置与管理门户则支持通过配置标签规则提交到标签计算引擎,就能定时算出所需要的标签。标签配置和官理户还提供标准的标签服务申请与调用。通过标签工厂,数据中口团队可减少大量的数据开发工作。
  (4)IDMapping
  IDMapping又称ID打通工具,是数据中台建设的可选项,可选不代表不重要,在一些多渠道、多触点的新零售企业,离开这个工具,数据质量将大打折扣。IDMapping功能的建设一般会利用强大的图计算功能,通过两两之间的关系实现互通,目动高效地将关联的身份映射为同一身份即唯一ID的数据工具。它能大幅度降低处理成本,提高效率,挖掘更多用户信息,形成更完整的画像,大大利于数字营销的推进。另外,IDMapping工具也可用于企业主数据治理。
  5)机器学习平台
  在整个机器学习的工作流中,模型训练的代码开发只是其中一部分。除此之外,数据准备、数据清洗、数据标注、特征提取、超参数的选择与优化、训练任务的监控、模型的发布与集成、日志的回收等,都是流程中不可或缺的部分。机器学习平台支持训练数据的高质量采集与高效标注,内置预训练模型,封装机器学习算法,通过可视化拖曳实现模型训练,支持从数据处理、模型训练、模型部署为在线预测服务,通过RESTfulAPI的形式与业务应用集成,实现预测,打通机器学习全链路,帮助企业更好地完成传统机器学习和深度学习的落地。
  (6)统一数据服务
  统一数据服务旨在为企业搭建统一的数据服务门户,帮助企业提升数据资产的价值,同时保证数据的可靠性、安全性和有效性。统一数据服务支持通过界面配置的方式构建API和数据服务接口,以满足不同数据的使用场景,同时降低数据的开发门槛,帮助企业实现数据应用价值最大化。统一数据服务作为唯一的数据服务出口,实现了数据的统一市场化管理,在有效降低数据开放门槛的同时,保障了数据开放的安全。2。2数据资产层
  数据资产层是数据中台的核心层,它依托于工具平台层,具体内容因企业的业务与行业而异,但总体来讲,可以划分为主题域模型区、标签模型区和算法模型区
  (1)主题域模型
  主题域模型是指面向业务分析,将业务过程或维度进行抽象的集合。业务过程可以概括为一个个不可拆分的行为事件,如订单、合同、营销等。为了保障整个体系的生命力,主题域即数据域需要抽象提炼,并且长期维护和更新,但是不轻易变动。在划分数据域时,既要涵盖当前所有业务的需求,又要保证新业务能够无影啊地被包含进来。
  (2)标签模型
  标签模型的设计与主题域模型方法大同小异,同样需要给日业务过程进行设计,需要充分理解业务讨程。标签一般会涉及企业经营过程中的实体对象,如会员、商品、门店、经销商等,这些主体一般来说都穿插在各个业务流程中,比如会员一般都穿插在注册、登录、浏览、下单、评价、服务等环节。那么在设计标签系统的时候就而要充分理解这此业务流程,在流程中发现标签的应用点,结合这些应用点来搭建企业的标签系统。设计标签模型时非常关键的要索是标签模型一定要具有可扩展性。毕竟标签这种数据资产是需要持续运营的,也是有生命周期的,在运营的过程中随时可能增加新的标签。
  (3)算法模型
  算法模型更加贴近业务场景。在设计算法模型的时候要反复推演算法模型使用的场景,包括模型的冷启动等问题。整个模型搭建过程包含定场景、数据源准备、特征工程、模型设计、模型训练、正式上线、参数调整7个环节。以新零售企业为例,常用的机器学习算法有决策树、神经网络、关联规、聚类、贝叶斯、支持问量机等。这些算法已经非常成熟,可以用来实现商品个性化推荐、销量预测、流失预测、商品组货优化等新零售场景的算法模型。2。3数据应用层
  数据应用层严格来说不属于数据中台的范畴,但数据中台的使命就是为业务赋能,几乎所有企业在建设数据中台的同时都已规划好数据应用。数据应用可按数据使用场景来划分为以下多个使用领域。
  (1)分析与决策应用
  分析与决策应用主要面向企业的领导、运营人员等角色,基于企业的业务背景和数据分析诉求,针对客户拉新、老客运营、销售能力评估等分析场景,通过主题域模型、标签模型和算法模型,为企业提供可视化分析专题。用户在分析与决策应用中快速获取企业现状和问题,同时可对数据进行钻取、联动分析等,深度分析企业问题及其原因,从而辅助企业进行管理和决策,实现精准管理和智能决策。
  (2)标签应用
  标签旨在挖掘实体对象(如客户、商品等)的特征,将数据转化成真正对业务有价值的产物并对外提供标签数据服务,多应用于客户圈选、精准营销和个性化推荐等场景,从而实现资产变现,不断扩大资产价值。标签体系的设计立足于标签使用场景,不同使用场景对你签需求是不同的,警如在客户个性化推荐场景下,需要客户性别、近期关注商品类型、消费能力和消费习惯等标签。因此,在标签体系设计前,需要先基于业务需求分析标签的使用场景,再详细设计标签体系和规则。
  (3)智能应用
  智能应用是数智化的一个典型外在表现。比如在营销领域,不仅可实现千人千面的用户个性化推荐,如猜你喜欢、加购推荐等,还可借助智能营销工具进行高精准度的用户触达。除了传统统计分析、机器学习之外,还可以融入深度学习,自然语言处理等,满足更多智能化应用场景。三、数据中台技术架构
  随着大数据与人工智能技术的不断迭代以及商业大数据工具产品的推出,数据中台的架构设计大可不必从零开始,可以采购一站式的研发平台产品,或者基于一些开源产品进行组装。企业可根据自身情况进行权衡考虑,但无论采用哪种方案,数据中台的架构设计以满足当前数据处理的全场景为基准。
  以开源技术为例,数据中台的技术架构如下图所示,总体来看一般包含以下几种功能:数据采集、数据计算、数据存储和数据服务;在研发、运维和公共服务方面包括离线开发、实时开发、数据资产、任务调度、数据安全、集群管理。
  3。1数据采集层
  按数据的实时性,数据采集分为离线采集和实时采集。离线采集使用DataX和Sqoop,实时米集使用KafkaConnect、Flume、Kafka。在离线数据采集中,建议使用DataX和Sqoop相结合。DataX适合用在数据量较小且采用非关系型数据库的场景,部署方式很简单。Sqoop适合用在数据量较大且采用关系型数据库的场景。在实时数据采集中,对于数据库的变更数据,如MySQL的binlog、Oracle的OGG,使用KafkaConnect进行数据的实时采集。对于其他数据,先将数据实时写成文件,然后采用Flume对文件内容进行实时采集。将实时采集后的数据推送到Kafka,田Flink进行数据处理。3。2数据计算层
  数据计算采用YARN作为各种计算框架部署的执行调度引擎,计算框架有MapReduce、Spark及SparkSQL、Flink、SparkMLlib等。MapReduce是最早开源的大数据计算框架,虽然性能相当较差,但它的资源占用比较小,尤其是内存方面。因此在部分数据量过大,而其他计算框架由干硬件资源的限制(主要是内存限制)无法执行的场景,可以将MapReduce作为首选框架。SparK及SparkSQL是在批处理方面拥有出色的性能技术方案,适合大部分的离线处理场景。Flink是实时数据处理方面的首选,在处理的时效性、性能和易用性方面都有很大优势。
  机器学习一般采用Spark家族的SparkMLlib为技术底座。SparkMLlib内置大量的常规算法包,如随机森林、逻辑回归、决策树等,可以满足大部分数据智能应用场景。同时,数据中台不断进化,也还新融人AI能力。如人脸识别、以图搜图、智能客服等能力的实现就需要AI平台。目前较为成熟的AI平台有TensorFlow及PyTorch。3。3数据存储层
  数据存储层所有的存储引擎都基于Hadoop的HDFS分布式存储,从而达到数据多份冗余和充分利用物理层多磁盘的IO性能。在HDFS上分别搭建Hive、HBase作为存储数据库,在这两个数据库的基础上再搭建Impala、Phoenix、Presto引擎。
  Hive为大数据广泛使用的离线数据存储平台,用于存储数据中台的全量数据,在建模阶段可以使用HiveSQL、SparkSQL进行数据处理和建模。HBase为主流的大数据NoSQL,适合数据的快速实时读写。在实时数据处理时,可将数据实时保存到HBase中,并且可以从HBase中实时读取数据,从而满足数据的时效性。Impala可以对Hive、HBase等大数据数据库进行准实时的数据分析,能满足对分析结果速度有一定要求的场景。
  Phoenix是构建在HBase上的一个SQL层,能让我们用标准的JDBCAPI而不是HBase客户端API来创建表、插人数据和对HBase数据进行查询。Presto是一个开源的分布式SQL查询引擎,适用于交互式分析查询。Presto支持Hive、HBase、MySQL等多种关系型和大数据数据库的查询,并且文持join表。对于对接自助分析和统一数据服务的场景,可以通过Presto来统一访问具体存储的数据库,从而达到语法统一和数据源统一。3。4数据服务层
  数据服务层采用的技术与业务应用类似,主要基于开源SpringCloud、SpringBoot等构建,使用统一的服务网关、低代码平台来构建。
投诉 评论 转载

高峰论坛国际对话权威发布应有尽有这场数字贸易盛会有看头当疫情冲击全球经济之时,数字贸易依然保持强大活力和韧性,扮演着全球贸易稳定器的角色。加强数字基础设施建设,解码数字贸易发展机遇,对激发全球市场活力有着重要作用。12月11……河西宝藏历史遗迹永昌北海子塔(北海子塔全貌)北海子塔始建于明代,又名观河楼塔。位于永昌县城北侧的北海子公园内,形制为七级八角实心砖塔,通高33米,由塔基、塔身、塔刹三部分组成。塔基平面呈长方形,南北……王者荣耀法师位置的克制链敌方选小乔我方安琪拉安琪拉开启大招有霸体可以免疫小乔的击飞而且在前期安琪拉一套技能就可以带走小乔敌方选安琪拉我方拿司马懿司马懿灵……斯诺克德国大师赛资格赛特鲁姆普爆冷出局,丁俊晖今晚再度登场2022年11月25日,斯诺克德国大师赛资格赛首轮比赛全部结束。希金斯53复仇傅家俊;威廉姆斯和特鲁姆普相继爆冷出局。李行、曹宇鹏、范争一、庞俊旭携手晋级。埃文斯全场三度领先,……高龄产妇孕育风险大,这五个劝告一定要听,为胎儿提供更多保障当下社会很多年轻女性都选择晚婚晚育,因而临床上出现了越来越多的高龄产妇,针对这种情况,需要注意的是,高龄产妇其实存在的妊娠风险并不低,只是很多人不把它当成一回事,若是放任不管,……苹果全系新品预售!到底买Plus还是Pro?今年苹果秋季发布会终于结束了,相信很多小伙伴的钱包和哎妹的一样跃跃欲试,何况现在已经开启预售。怎样选到一台心仪的苹果新品,让你在这个秋天脱颖而出?来来来,看这里第一……华为手机可以卫星发短信,是否是一招另有内涵的杀招呢现在外界普遍用本能的思考反应,认为,华为手机上卫星,是顺理成章,水到渠成的,普通得不能再普通的一招了,并没有针对第三方的意思,只是自已在努力拯救自已而已。其实我也是这么认……NBA往事科比跟腱撕裂,巴斯撒手人寰,湖人内部上演宫心计洛杉矶湖人队引进魔兽德怀特霍华德和两届MVP史蒂夫纳什,与科比布莱恩特、保罗加索尔组成新F4阵容,却自1967年以来首次被横扫出局。湖人队老板杰里巴斯撒手人寰,球队内部上……距离100光年NASA发现两颗超级地球,或适合生命存活原标题:移民其他星球有可行性?距离100光年NASA发现两颗超级地球:或适合生命存活NASA(美国航空航天局)的苔丝(TESS)任务近日宣布发现两颗系外行星,距离地球约1……研究发现平板电脑使学龄前儿童的游戏缺乏创造力?与实体玩具相比,学龄前儿童使用平板电脑进行的游戏缺乏创造性和想象力?乌普萨拉大学的一项新研究显示了这一点,差异很大。结果反驳了偶尔声称新技术会使孩子更有创造力的说法。乌普……企业级数据中台架构一、什么是数据中台数据中台是一种将企业沉睡的数据变成数据资产,持续使用数据、产生智能、为业务服务,从而实现数据价值变现的系统和机制。通过数据中台提供的方法和运行机制,形成……俄罗斯离在国际贸易中使用比特币又近了一步据俄罗斯塔斯社报道,俄罗斯财政部和央行已经就一项法案草案达成一致,允许用比特币和加密货币支付国际贸易结算。财政部副部长莫伊谢耶夫表示,该法案整体上规定了如何购买加密货币,……
泰山队是郭废了,雷炸了,安被进五拉胯了路由器要多久关闭一次?幸亏宽带师傅告诫,难怪网速变慢了辽宁第三阶段五对手10场比赛,战上海与浙江最关键,能否全胜收对女排新秀王逸凡的期待35分史诗逆转!剩8秒输7分大翻盘,快船疯狂庆祝,比尔摇头不热血传奇武林至尊宝刀屠龙号令天下莫敢不从倚天不出谁与争锋修水的井和巷小米上新2K全彩夜视,电子围栏,声光报警,24小时用心守护北慕为了超越可杰太卑微,遇到演员还道歉,冲段只剩最后一个办法文案有内涵的自信文案原神提纳里PV成3。0牌面?一对狐耳防水尾巴,隔壁五郎都馋哭全网都在台湾省地图上找家乡美食!而街道命名更是让人破防了什么样的黄雀鸟是上品房屋常识多少年的房子算危房手指骨折工伤怎么赔偿多少钱丙寅秋,木犀盛开,诚斋与张功脐带脱垂的几率大吗清洁激光打印机与硒鼓的方法亚马逊AWS被选为美国西南航空公司首选云提供商win7如何配置iis服务器图文教程联想s890怎么样?好不好?语文教学月光曲的课后教学反思职场正能量的语录85条电脑开机键盘鼠标没反应怎么处理

友情链接:中准网聚热点快百科快传网快生活快软网快好知文好找