大数据Hadoop之ApacheHudi与PrestoTri

微软创意
爱情通信
用品婚姻
爱好看病
美体软件
影音星座
瑜伽周边
星座办公
饰品塑形
搞笑减肥
幼儿两性
智家潮品

　　一、概述
　　ApacheHudi是一个快速增长的数据湖存储系统，可帮助组织构建和管理PB级数据湖。Hudi通过引入诸如升序、删除和增量查询之类的原语，将流式处理引入到批处理式大数据中。这些功能有助于在统一服务层上更快、更新鲜的数据。Hudi表可以存储在Hadoop分布式文件系统（HDFS）或云存储上，并与流行的查询引擎（如Presto（Trino）、ApacheHive、ApacheSpark和ApacheImpala）集成良好。鉴于Hudi开创了一种新的模型，它不仅仅是将文件写入到一个更受管理的存储层，该存储层可以与所有主要的查询引擎进行互操作，因此在集成点是如何演变的方面有了有趣的经验。
　　使用presto或者trino分析hudi表数据，最终将结果存储到mysql表中。
　　Hive中创建表，关联Hudi表Presto集成Hive，加载Hive表数据Presto集成MySQL，读取或者保存数据二、Trino环境部署
　　关于trino或者presto的介绍，可以参考我这篇文章：大数据Hadoop之基于内存型SQL查询引擎Presto（PrestoTrino环境部署），这里部署trino单机版进行测试。1）安装JDK
　　【注意】Trino不同的版本要求的JDK版本也不一样的。这里我安装Trino最新版，JDK也安装最新版本。wgethttps：cdn。azul。comzulubinzulu19。30。11cajdk19。0。1linuxx64。zipunzipzulu19。30。11cajdk19。0。1linuxx64。zip
　　配置环境变量etcprofile文件中追加如下内容：exportJAVAHOMEoptbigdatatrinozulu19。30。11cajdk19。0。1linuxx64exportPATHJAVAHOMEbin：PATHexportCLASSPATH。：JAVAHOMElibdt。jar：JAVAHOMElibtools。jar加载生效sourceetcprofile2）安装pythonversion2。6。x，2。7。x，or3。xyumyinstallpython3python3versionlnsusrbinpython3usrbinpython3）安装Trino
　　这里部署单机版，Coordinator和Worker同进程。1、下载解压并配置环境变量wgethttps：repo1。maven。orgmaven2iotrinotrinoserver401trinoserver401。tar。gztarxftrinoserver401。tar。gz配置环境变量etcprofileexportTRINOHOMEoptbigdatatrinotrinoserver401exportPATHTRINOHOMEbin：PATH2、修改配置
　　首先创建etc和data目录，后面配置文件需要用到cdTRINOHOMEmkdirpdataetccatalognode。propertiescatEOFTRINOHOMEetcnode。properties环境的名字。集群中所有的Trino节点必须具有相同的环境名称。node。environmentdev此Trino安装的唯一标识符。这对于每个节点都必须是唯一的。node。idtrinoworker数据目录的位置（文件系统路径）。Trino在这里存储ahrefhttps：www。bs178。comrizhitargetblankclassinfotextkey日志a和其他数据。node。datadiroptbigdatatrinotrinoserver401dataEOFjvm。configcatEOFTRINOHOMEetcjvm。configserverXmx2GXX：UseG1GCXX：G1HeapRegionSize32MXX：ExplicitGCInvokesConcurrentXX：ExitOnOutOfMemoryErrorXX：HeapDumpOnOutOfMemoryErrorXX：OmitStackTraceInFastThrowXX：ReservedCodeCacheSize512MXX：PerMethodRecompilationCutoff10000XX：PerBytecodeRecompilationCutoff10000Djdk。attach。allowAttachSelftrueDjdk。nio。maxCachedBufferSize2000000EOFconfig。propertiescatEOFTRINOHOMEetcconfig。properties设置该节点为coordinator节点coordinatortrue允许在协调器上调度工作，也就是coordinator节点又充当worker节点用nodescheduler。includecoordinatortrue指定HTTP服务器的端口。Trino使用HTTP进行内部和外部web的所有通信。httpserver。http。port9000查询可以使用的最大分布式内存。【注意】不能配置超过jvm配置的最大堆栈内存大小query。maxmemory1GB查询可以在任何一台机器上使用的最大用户内存。【注意】也是不能配置超过jvm配置的最大堆栈内存大小query。maxmemorypernode1GBhadoopnode1也可以是IPdiscovery。urihttp：local168182130：9000EOFlog。propertiescatEOFTRINOHOMEetclog。properties设置ahrefhttps：www。bs178。comrizhitargetblankclassinfotextkey日志a级别，有四个级别：DEBUG，INFO，WARNandERRORio。trinoINFOEOF配置hive数据源，hive。propertiescatEOFTRINOHOMEetccataloghive。propertiesconnector。namehivehive。metastore。urithrift：local168182130：9083hive。config。resourcesoptbigdatahadoophadoop3。3。2etchadoopcoresite。xml，optbigdatahadoophadoop3。3。2etchadoophdfssite。xmlEOF配置mysql数据源，mysql。properties所有节点都得添加catEOFTRINOHOMEetccatalogmysql。propertiesconnector。namemysqlconnectionurljdbc：mysql：local168182130：3306connectionuserrootconnectionpassword123456EOF3、启动服务TRINOHOMEbinlauncherstart查看ahrefhttps：www。bs178。comrizhitargetblankclassinfotextkey日志atailfTRINOHOMEdatavarlogserver。lognetstattnlpgrep：90004、测试验证
　　web访问验证：http：local168182130：9000
　　下载对应trino版本的客户端进行连接测试cdTRINOHOMEbinwgethttps：repo1。maven。orgmaven2iotrinotrinocli401trinocli401executable。jar改名，加执行权限mvtrinocli401executable。jartrinochmodxtrino非交互式连接操作TRINOHOMEbintrinoserverlocal168182130：9000executeselectfromsystem。runtime。nodes；交互式连接测试TRINOHOMEbintrinoserverlocal168182130：9000命令不区分大小写showcatalogs；查库showschemasfromsystem；查表showtablesfromsystem。runtime；查具体记录，查看当前node节点记录selectfromsystem。runtime。nodes；
　　三、在Hive中创建表关联Hudi表
　　hive查询hudi数据主要是在hive中建立外部表，数据路径指向hdfs路径，同时hudi重写了inputformat和outpurtformat。因为hudi在读的数据的时候会读元数据来决定我要加载那些parquet文件，而在写的时候会写入新的元数据信息到hdfs路径下。所以hive要集成hudi查询要把编译的jar包放到HIVEHOMElib下面。否则查询时找不到inputformat和outputformat的类。1）添加jar包cphudihudi0。12。0packaginghudihivesyncbundletargethudihivesyncbundle0。12。0。jarHIVEHOMElib重启metastore服务nohuphiveservicemetastore重启hiverserver2nohuphiveservicehiveserver2devnull21查看ahrefhttps：www。bs178。comrizhitargetblankclassinfotextkey日志atailftmproothive。log连接beelineujdbc：hive2：local168182130：10000nroot2）创建库表关联Hudi1、创建数据库CREATEDATABASEIFNOTEXISTShudihive；USEhudihive；2、创建hive表，指定数据存储路径，关联hudi表路径。beelineujdbc：hive2：local168182130：10000nrootCREATEEXTERNALTABLEhudihive。tblcustomer（idstring，customerrelationshipidstring，createdatetimestring，updatedatetimestring，deletedstring，namestring，idcardstring，birthyearstring，genderstring，phonestring，wechatstring，qqstring，emailstring，areastring，leaveschooldatestring，graduationdatestring，bxgstudentidstring，creatorstring，origintypestring，originchannelstring，tenantstring，mdidstring）PARTITIONEDBY（daystrstring）ROWFORMATSERDEorg。apache。hadoop。hive。ql。io。parquet。serde。ParquetHiveSerDeSTOREDASINPUTFORMATorg。apache。hudi。hadoop。HoodieParquetInputFormatOUTPUTFORMATorg。apache。hadoop。hive。ql。io。parquet。MapredParquetOutputFormatLOCATIONhudihivecustomerhudi；
　　就会在DFS上创建相关的目录
　　数据来源可以是flink或者spark任务去写数据，根据具体场景而定。四、Hudi与Trino集成
　　trino集成hudi是基于hivecatalog，同样是访问hive外表进行查询，如果要集成，需要把huditrinojar包copy到trinopluginhive插件下面。cphudihudi0。12。0packaginghuditrinobundletargethuditrinobundle0。12。0。jarTRINOHOMEpluginhive
　　查询TRINOHOMEbintrinoserverlocal168182130：9000showschemasfromhive；showtablesfromhive。hudihive；selectfromhive。hudihive。tblcustomer；
　　trino或者presto将需要查询的数据进行统计写入到其它数据源，这是trinopresto的优势，因为trinopresto本身支持很多种数据源（catalog）。
　　Hudi与Trino（Presto）的集成讲解就先到这里了，有任何疑问欢迎给我留言，后面会持续更新【大数据云原生】相关的文章，请小伙伴耐心等待

再好的文案也比不过你在我的身边冬日生活打卡季日记文案01hr1。铃铛遇到风会响，我遇到你心里的小鹿会乱撞2。那片海的浪不会停，我对你的爱也是3。和你今年明年年年4。记得人潮汹涌……特大喜讯！南京首条无人驾驶地铁线南京地铁7号线来了南京首条无人驾驶地铁线、南京地铁7号线北段（仙新路站至幕府西路站）于2022年12月28日12时正式开通运营，这也是南京市开通运营的第十二条地铁线路。南京地铁7号线北段开……274431亿元，苹果遮羞布掉落，人民网点名小米11众所周知，进入2022年之后，全球电子消费市场就遭遇了寒冬，尤其是智能手机领域，可谓是一片哀鸿，不仅国内厂商销量出现了连续下跌，就连苹果、三星也同样没有例外。例如苹果，作……恭喜你！朋友，你幸运看到今年第一个HUAWEIMate30PHUAWEIMate30ProHUAWEIMate30Pro是于2019年9月19日发布的一款智能手机，这款手机是但是最高端的手机，时间已经过去了三年了，那这款手机现在性……保暖穿搭图鉴！20块钱就能搞定的时髦单品！头条创作挑战赛这个天可真冷啊，尤其是室外，简直冻死了，光有厚衣服可不行，保暖的漂亮配饰也得安排上！今天给你们准备了一堆超实用的冬日配饰，保暖时髦还百搭，秋冬氛围感更……广东赢球输人，首节伤人主力，马尚砍分三少看，京粤大战后遗症202223赛季CBA第20轮，广东对阵北京，这是本赛季两队第二次对决，最终广东双杀北京，获得赛季十一连胜！第二节的马尚如有神助，单节16分投篮6中6，三分球4中4，没有……东契奇近5战场均贡献40得分三双，历史第三人独行侠主场129114战胜火箭，全场比赛独行侠后卫卢卡东契奇首发出战34分钟，21投11中，三分球9投4中，罚球12罚9中得到35分12篮板13助攻1抢断2封盖。最近5场……我，上海人，旅游印度后发现人很善良，食品健康，医疗发达病人少这是给大家讲述的第19个真实故事我在上海退休后就独自开启了全球旅行，我去过世界上很多国家，但是印度却令我印象深刻，因为在我没有前往印度前的认知中，我和大家的想法是一致的，……阳了之后才发现，有个学渣孩子也挺好放开后，经历了阳，让人们也看开了很多事情，其他事情固然重要，但是身体健康更重要！一家人在一起更是幸福的事情。这是一个老年人的感悟，阳了之后才发现，有个学渣孩子也挺好，从此……69岁赵雅芝真时髦，中长款大衣搭微喇裤，优雅又显气质头条创作挑战赛赵雅芝是一个很会穿衣搭配的大龄女明星，不少人都很羡慕她的身材和衣品，她的美一点儿不受年龄的限制，已经69岁的赵雅芝，看上去还是那么年轻漂亮，而且，她的穿衣风……晚点独家丨AMD前全球副总裁单羿加入自动驾驶公司鉴智机器人新供应商的机会是，高级别辅助驾驶的渗透率仍不到10。文张家豪编辑程曼祺《晚点Auto》独家获悉，AMD前全球副总裁单羿已正式加入去年8月成立的自动驾驶公司鉴智……如何成为一名优秀的动画导演？金鸡奖最佳美术片导演黄家康专访转自wuhu动画人空间订阅01086092062动画人都是敢于冒险的，正因放不下的这份爱的执念，为了向自己证明它是真的毕生所爱他用了二十二年的青春，从看似更有钱途的……

<<<<<<－>>>>>>

6个小米手机超实用的隐藏功能，知道2个以上的，几千块手机没白小米手机作为全国知名的手机品牌，相信很多人都用过。但很多人却不知道，小米手机隐藏着6个不为人知的超实用功能，如果你知道2个以上，那几千块手机没白花。下面，就让我们一起去看……4月装机配置走向与推荐装机建议：目前cpu市场变化不大，英特尔方面还是以12代为主，核显方面可以直接上12400即可，等等党可以考虑13代酷睿。【入门型市场：600800元】入门级梯队：……关注丨支持生育组合拳落地，备孕生娃前您需要看看这个3月24日上午，自治区十三届人大常委会第二十八次会议表决通过了新修订的《广西壮族自治区人口和计划生育条例》。条例规定一对夫妻可以生育三个子女，同时新增育儿假、产前检查陪护假、延……全国十大美食街攻略对于吃货而言，戒不掉旅游的病。那一定是戒不掉各地的美食小吃，这些汇聚了全国各地美食的小吃街，吃货的你都造吗？那么跟黑猫一起看看都有哪些地方！1、广西南宁中山路这里有……苹果砍单小米转行，手机行业真的卖不动了？图片来源视觉中国文雷科技leitech你已经有多久没换手机了？关于换机周期的话题在这段时间悄然兴起，参与讨论的网友意外地发现，自己其实已经有相当长时间没有更换……如何预防高血压发展为脑梗死脑出血？记住这6点，值得收藏高血压本身并不可怕，可怕的是高血压发展到各种高血压并发症。高血压最大的影响就是脑血管，我国的脑血管病发病率一直高于其他国家。一个主要的原因就是我们的高血压患者人数太多，而……2021年即将结束，分享一下我的年度歌单，一定有你喜欢的歌曲我的年度歌单要说我的2021年的年度歌单啊，里面的歌就多了，有11首之多，而且每首我都翻唱发布了。第1首是贺一航的《原来占据你内心的人不是我》，这首歌旋律优美，贺一……深度解析戴森创新之路不计成本的投入，方有颠覆生活的产品如今，室内生活场景已成为科技造福人类的主要阵地之一。人们对当下生活场景未被满足的需求、对未来生活的无限畅想，都在被一一完成、实现。科技如何改变生活？今天，我们不妨以全球小家电市……抗日根据地危急关头，党中央为什么要给刘伯承庆生？党史天天读刘伯承是中国人民解放军的创始人之一，位列共和国十大元帅。1942年12月，时任八路军第129师师长的他迎来50岁生日。一向反对讲排场的中国共产党，为何作出特别指示，坚持要为刘伯……全家都爱吃的面包，不用揉面，不用出膜，出炉柔软又拉丝，太香了面包我们都爱吃，它跟我们的包子馒头差不多，都有发酵食物，但一个是烤出来的一个是蒸出来的。面粉是用高筋面粉做的，且水量很大，所以会更柔软，我们经常会用拉丝效果来评论这个面包好不好……关于宇宙大爆炸的几个误解，其中肯定有你的影子现代主流科学认为，我们的宇宙起源于宇宙大爆炸。不过，有不少人并不相信宇宙大爆炸。质疑一种理论很正常，毕竟科学就是用来质疑的，况且宇宙大爆炸理论也并不完美，也有瑕疵。不过，……04无缘欧联杯四强4月15日凌晨，欧联杯四分之一决赛次回合，巴萨带着11的比分，回到主场迎战法兰克福，结果主场被完爆，第67分钟，法兰克福就30领先，总比分41，尽管巴萨补时阶段追回两球，仍然3……

友情链接：易事利快生活快传网聚热点七猫云快好知快百科中准网快好找文好找中准网快软网