幼儿饰品瑜伽美体用品微软
投稿投诉
微软创意
爱情通信
用品婚姻
爱好看病
美体软件
影音星座
瑜伽周边
星座办公
饰品塑形
搞笑减肥
幼儿两性
智家潮品

阿里云发生重大事故,凸显三大基础隐患

  阿里云发生重大事故,凸显三大基础隐患
  原创张栋伟张栋伟2022122822:06
  收录于合集
  阿里云2个
  AWS2个
  亚马逊3个
  云计算2个
  云服务1个
  阿里云崩了。
  12月18日,澳门司法警察局官微发布消息称,由于阿里云的香港机房节点发生故障,导致澳门金融管理局、澳门银河、莲花卫视、澳门水泥厂等关键基础设施营运者的网站、澳觅和MFood等外卖平台、以及澳门日报等本地传媒应用程式,自今天(18日)中午开始暂时无法访问使用。
  不仅如此,甚至Linux中国的官网也因此而无法访问,很多个人站长也表示阿里云的长时间故障影响了他们网站的运营。
  随后,阿里云在官网发布公告,称香港地域某机房设备异常,影响香港地域可用区C的云服务器ECS、云数据库PolarDB等云产品使用,阿里云工程师已在紧急处理中。
  根据多方报道显示,此次阿里云宕机时间持续了超过12小时之久,如此长时间的持续性服务故障,在业界也属于相当罕见的事件,OKGroup的创始人徐明星甚至把此次故障称为阿里云发展史上重大丑闻。
  长久以来服务器宕机一直是数据安全事故当中最为常见也是影响较大的问题之一,当云计算已成为现代企业最基础的底层设施之后,如何降低宕机对业务的影响,企业的安全系统建设是至关重要的。
  阿里云一直号称是中国最大公有云服务商,更是声称自己获得了多项全球第一的殊荣。香港机房作为连接大陆内地与海外市场的桥头堡,其地位不可谓不重要。如此关键的数据设施,仅仅因为制冷设备故障就引发如此巨大的损失,且修复时间如此之缓慢,实在令人难以信任。
  12月25日,阿里云终于发布了本次服务中断事件的官方说明,说明中列举了事件的处理过程,服务影响,问题分析与改进措施。
  阿里云声明的全文链接:https:mp。weixin。qq。comsrJ2TEc9mDxfJ1q4gCNZg。
  这份报告可以看出,阿里云相关团队态度真诚。
  但是,作为自称多项全球第一殊荣的云服务企业,再真诚的文字粉饰,也无法掩盖其专业度上的缺陷。
  作者张栋伟今天就以粗浅的知识认知,就阿里云的官方说明所涉及的产品和技术问题,略举一二,与读者们探讨。
  一、StatusPage形同虚设
  阿里云的说明中提到:
  故障发生后阿里云启动对客钉群、公告等通知手段,由于现场冷机处理进展缓慢,有效信息不够。StatusPage页面信息更新不及时引发客户困惑。
  而其改进措施是:
  提升故障影响和客户影响的快速评估和识别拉取能力。尽快上线新版的阿里云服务健康状态页面(StatusPage),提高信息发布的速度,让客户可以更便捷地了解故障事件对各类产品服务的影响。
  StatusPage这个角度确实比较独特!
  阿里云为什么在报告里面,以这么个专业词汇来负责事故的背锅呢?
  于是,作者在网上搜索了一下业内关于阿里云本次宕机事故的评论,不看不知道,一看吓一跳,原来多位业界技术达人们的指责矛头,都是针对阿里云StatusPage服务。
  我们要知道任何云服务都不可能保证所有的后端和提供的服务都能始终维100的可用性,所以当我们的线上业务出现问题时,首先需要确认的是,导致问题的原因是云的问题,还是我们业务环境自身的问题,此时,来自云平台的及时全面的健康状态信息至关重要。
  例如,杨攀在他的《中国云服务走向全球?先把StatusPage搞定》一文中,不仅阐述了Statuspage的重要价值,更是揭示出国内云服务商普遍不重视StatusPage的现状。
  (杨攀的原文链接:https:mp。weixin。qq。comshVYXyA9ZMyWwbPtPoXuHhQ)
  而马工在他的文章《我们可以信任阿里云的故障处理吗?》则提到:
  作为云用户,我们对云厂家的要求更高:状态页之外,还要有服务运行状况API,但是却很遗憾的看到,没有一家中国云厂家提供此类API。
  (马工原文链接:https:mp。weixin。qq。comslwlOdZ6DbPNDrfePiCcKg)
  会说话的波吉在其公众号发布的《给阿里云的一封公开信》中讲,阿里云显然整个服务可用性的页面变成了一个摆设。并向阿里云提出建立可靠的服务状态信息页的要求。
  (原文链接:https:mp。weixin。qq。comsulAAvPL3hnutGrAc8CUXQg)
  这些文章在评述阿里云的同时,均分别举例了海外云厂商以及SaaS服务商在Statuspage方面的做法。
  那么,海外的云服务厂商是如何提供Statuspage服务的呢?
  以全球第一市场份额的亚马逊云(AWS)的Statuspage服务为例:
  首先,时间早。
  亚马逊早在2008年就开始提供一项叫作AmazonHealth的专业的服务来做这件事情,可以公开提供Amazon全球所有Region,200多项服务的状态信息。
  作为全球云计算服务的开创者之一和领导者之一,亚马逊云如此早期的就提供这种服务,就说明Statuspage类的服务是云厂商的基础服务。
  而至今,国内很多云厂商要么根本没有这种服务,要么就是敷衍凑合。
  其次,技术深。
  AmazonHealth服务,不仅仅提供一个公共看板,还提供跟客户账号相关的事件信息。而且亚马逊云有很明显APIFirst的设计理念,Health这个服务也不例外,这种方式让解决方案更容易,跟IaC结合让运维更自动化。
  在主流的开源生态中,IaC的部分对于AWS都是原生支持(而其他很多云服务企业还需要自己贡献或者开发者贡献,质量无法保证),例如比较流行的Terraform,Pulumi,ServerlessFramework。AWS服务中也针对IaC也做了多种方式的支持。
  对IaC的友好支持让客户可以使用脚本或高级语言的方式来运维自己的云环境,结合CICD的方案进行自动化部署。当某个AZ甚至region出现问题的时候,只需要提前做好数据的跨可用区地域的备份,即可自动在没有问题的可用区地域段时间内重新拉起所有的服务,这有可能比等待服务恢复还要快!
  这一点非常重要!
  例如这次阿里云宕机事件中,如果在香港区域的客户选择了AWS,并且完成了跨可用区地域的备份,那么当这次宕机发生时,自动运维就可以自动在备份区域重新拉齐服务,极大的减少业务损失。
  所以,在这里也提示一下云服务的企业客户,在选择云厂商的时候,应该先做一下IaC的PoC验证。
  最后,生态繁荣。
  正是因为有了API,才繁荣了生态。Datadog,Splunk,Pagerduty公司都和AmazonHealth进行了集成,已经形成了非常体系化和完整的解决方案。
  选择云服务不是孤立的选择一款云产品,而是在选择一个生态,更完整的生态意味着更多的方案选择和满足紧急需求的可能性。
  反观阿里云现在的StatusPage服务,至今还只是一个看板,连订阅功能都找不到,这连亚马逊云14年前的功能都比不上。
  (2022年12月28日,阿里云)
  (2008年4月17日,亚马逊AWS)
  二、高可靠设计自欺欺人
  依赖,是阿里云报告中最让人觉得搞笑的用词,整篇文章可以找到很多依赖。
  简单列举如下:
  1、单可用区高可用实例,由于依赖单可用区的数据备份。。。
  2、支持跨可用区切换的RDS实例没有及时完成切换。经排查是由于这部分RDS实例依赖了部署在香港Region可用区C的代理服务
  3、新扩容的ECS管控系统启动时依赖的中间件服务部署在可用区C机房,导致较长时间内无法扩容
  4、ECS管控依赖的自定义镜像数据服务,依赖可用区C的单AZ冗余版本的OSS服务,导致客户新购实例后出现启动失败的现象。
  从阿里云官网可以明确看的,阿里云从2014年就开始拓展海外市场,香港Region也是那个时候对外运营,以香港为主的东南亚市场是阿里云海外投入最早的,也是具备优势的区域。(参考https:www。alibabacloud。comzhgloballocations)。
  这次香港Region事故,一下子曝光出来,原来阿里云有这么多的高可靠服务都依赖不那么高可靠的服务。
  作为运营最早、且已经有3个可用区的成熟Region都这样,那么阿里云有大量Reigon只有12个可用区的又会怎样?
  使用这些区域的客户依赖阿里云的高可靠,然后阿里云的高可靠依赖低可靠。
  这个风险系数,阿里云的客户知道吗?
  除此之外,还有一个问题我特别想问问,高可用的设计是用来给人看的还是用来给人用的?
  如果只是看看,那文档上写了确实算是合格了。如果运气好还真的有一部分代码写进去了,那真是走运啊。
  如果是用的,有没有人验证过?
  如果验证过,这么多问题之前没有发现么?
  产品文档上发布功能的时候是因为有几行代码写进去了就算,还是功能实际验证过,并且经历过长时间的考验才算?
  我对技术的理解,肯定不如阿里云的专家们深刻,但是类比一下同样是软件的自动驾驶功能,如果是这么交付的(代码写了就算有),谁敢用?
  也许云行业还没有规范到发布产品和说明需要第三方去验证,但是我也常看到云厂商发布产品一般有Preview,Alpha,Beta之类的标签,然后最后上线的功能会有GA(GeneralAvailability)。
  比如阿里云文档上有预发布功能用于对已测试通过的版本进行预发布(灰度),通过限定一个较小的发布范围来观察升级效果,提前发现问题。
  那么,我想问问你们能不能重新审查一遍文档,重新标注一下你们有多少东西只能算是预发布?
  不对,按照阿里云的说法,对预发布的定义是已测试通过的版本。
  那么,是不是以后需要再发明一个新的阶段?比如用来描述只是文档里有,代码里面也写了一些,但是能不能用不知道的功能阶段,比如试试版本已经上线,研发说他写好了。
  三、基础设施捉襟见肘
  为什么数据中心机房不配备气体消防?
  在阿里云这次故障的问题分析与改进措施中提到,一机房包间温度达到临界值触发消防系统喷淋,电源柜和多列机柜进水,部分机器硬件损坏。
  阿里云的基础设施就这样?
  (1)整篇文章为何看不到气体消防系统是否存在?
  我还一度怀疑中国香港地区不支持气体消防,为了验证随手查看了香港消防局的政策文件。
  香港认证的消防设备显然已经包括气体灭火。比如FM200灭火系统采用氮气加压,无水,激活后,FM200会释放出气体以迅速降温并抑制火灾。
  另外,作者还查询到一些国际级数据中心的规范文档和知名供应商的宣传资料上,都提到关于消防部分数据中心应该采用惰性气体抑制系统。
  (2)为什么冷机系统没有储水?
  阿里云的故障说明提到机房冷却系统缺水,为何专业的数据中心冷机没有配套的储水系统?如果市政供水意外中断如何处理。
  我很想知道阿里的数据中心有柴油发电备用么?里面有储油么?这些不专业的事情,万一出事儿是谁来买单呢?
  此时要补一句,阿里云还是很厚道的,已经早早的提出了补偿方案,据说是可以让受损失的客户免费多用一个月。
  (3)为什么冷机故障处理需要这么久?
  从阿里云报告看09:01,定位到冷机异常,12:30,冷机设备供应商到场,在香港这样的城市经历3个半小时才有相关人士现场处理。18:55,4台冷机恢复到正常制冷量。
  近7个小时,才解决了冷机问题!
  现场读文档再操作的么?
  这个冷机问题处理效率简直还不如普通的IDC机房。
  下次如果UPS故障呢?
  3个可用区的香港Region都这样,其他阿里云海外数据中心情况呢?
  尾声:
  云计算是2B的生意,服务的客户大部分都是企业客户,云服务商应该以专业的水准服务这些用户,而显然阿里云做的并不够,一份事故分析报告就已经暴露了三方面的问题。
  今天,这些问题出现在了香港地区,如果这些问题找不到明确的答案,就很难不让人担心,明天会不会出现在全球的其他区域。
  当然,即使云服务会由于诸多原因而发生故障宕机事件,但是相对于传统数据机房IDC服务,云服务已经极大降低了故障发生概率。
  Everythingfails,allthetime是我很欣赏的一句名言。既然所有的东西最终都会坏,那么设计上为何不能学下人家的控制爆炸半径。
  通过此次阿里云故障事件,可以看出云服务在为企业提供更好,更便宜和更可靠的应用过程中,也不可避免会发生不同程度的故障,故障原因多种多样不仅与技术有关,在故障发生之前的监测和检测、故障发生后的修复和恢复、故障原因的排查和公布,也尤为重要。
  云服务商应该更加重视数据中心基础设施、硬件设备和传输网络的可靠性和稳定性,对于不可预期的外部故障和事故,云服务商应汲取教训,积累经验,做好提前检测和压力测试,减少故障发生频率,也尽力减少故障对客户造成的损失。
  类似亚马逊AWS这样可以充分保障用户权益的功能措施,应该成为所有云服务企业的标准配置。
  作为用户的我们,也应该对云服务采取更加包容支持的态度。相信云服务在未来的发展过程中有望进入下一个发展阶段,服务于更多用户。
  阿里云更应该通过这次事故真正看到差距和问题,加快向专业的水准迈进,才配得上国内第一公有云的称谓。
  张栋伟关注互联网产业、市场营销、大学生就业创业399篇原创内容
  公众号
  作者:张栋伟(资深互联网人士、市场营销专家、大学生就业创业导师)
  张栋伟

王思聪被传现身孙一宁的直播间,狂刷至榜一,把女方气得气喘吁吁孙一宁能跟王思聪成为冤家的人还真不多见,网红孙一宁算是头一例,毕竟是曾经的首富之子,身家财产自然不用多说,网红美女更是趋之若鹜,可即便如此,大美女孙一宁就是不上贼船!要说……关于人类未来的猜想躺若人类拥有星际航行的能力,那么,宇宙中不存在人类了!很遗憾告诉你,碳基生物只能生活在自己诞生的星球上。地球从有生命以来,可以说,诞生一个灭绝一个,没有哪种生物能长盛不衰……胃胀不消化,食欲差用吗丁啉没用?送你4个治疗胃病的中成药大家好,我是沈医生,很多人胃胀,不消化,食欲差,吃点东西就腹胀,反酸,还老爱拉肚子,用了吗丁啉,或者奥美拉唑,也作用不大,这是怎么回事呢?这种情况,在中医看来,不一定是单……今日油价消息今天8月6日,调整后国内929598号汽油价格国内油价在上个月刚刚迎来了三连跌以后,很多人还沉浸在喜悦当中,听说油价又要变了,国内油价预计9日会涨,这样的话语还沉浸在前两天,小编通过通过今日最新油价走势分析,可能8月9日油……咳嗽老是不好,中医温肺化饮化痰止咳治愈患者孙先生,43岁,患者年龄虽然不大,可是患咳嗽病却有七八年了。患者说自己自觉腹中有寒气上涌而咳,痰少,痰质稀白,时有发灰,稍饮凉水便可引发咳嗽。患者说自己平常喜欢喝热饮,腹部……幸福到万家万传家和王秀玉私情终于曝光,难怪他只忌惮她最近大家看《幸福到万家》了吗?被万传家气到了吗?由曹征饰演的万传家这个角色可真是把农村有权有钱的村霸演绎得淋漓尽致。从第一集他借闹婚名义在幸福和庆来的婚礼上非礼了幸运,他……有很多酒店的钟点房,为何最多只有4小时,离职员工告诉你时代在不断发展的今天,人们对精神上的享受要求是越来越高。(此处已添加小程序,请到今日头条客户端查看)不过大家出门在外,也会根据自己的需求,合理的选择,比如人们在入住酒店的……39岁林丹去打高尔夫,1米78谢杏芳陪同,40岁逆生长变白富北京时间7月14日,近日,前羽毛球世界冠军林丹和谢杏芳夫妇,两人一起解锁了运动新技能!来到了某大型的高尔夫球场,背靠一望无际的山峰,山清水秀,空气清新,周围整体环境非常优美,是……湖人有意贝弗利,黑贝湖蜜当年把我喷惨了,这是对我的尊重据名记杰克费舍尔透露,在戈贝尔交易中被送到爵士队的贝弗利,已经引起了多支球队的兴趣,其中对贝弗利最感兴趣的球队,正是最需要后场防守的湖人队。贝弗利上赛季效力于森林狼,场均……男篮不敌韩国,一分梗被重新提起,胡明轩和郭艾伦谁更糟糕?北京时间7月12日,男篮亚洲杯拉开帷幕,中国男篮首秀就迎来了老对手韩国的调整。中国男篮是亚洲的绝对霸主,韩国更多是一个追赶者的角色。过往的交锋,男篮赢多输少。近几年,韩国篮球一……李泽楷开始逐渐放权,他不会像李嘉诚那样不知疲倦,有舍才有得李泽楷的保险事业做得越来越大,他的富卫保险即将上市,这家公司的资产已经达到1500亿,如果上市成功,那么市值将会达到两千亿。富卫保险的成功,也证明了李泽楷并不完全靠父亲,……夏季天热无食欲,糖友可以试试这三类食物进入夏季,天气一热,糖友就很容易没有食欲,可是也不能不吃,会影响血糖稳定,那这种情况下怎么办呢?炎炎夏日,推荐下面这三类适合糖友夏季吃的食物:富含维生素C的食物……
手机发热发烫怎么办?快关闭这个开关,手机不发热不卡顿,更流畅平时我们的手机玩的时间长了很容易发热发烫,让人非常的苦恼,其实我们只需要关闭这些开关,手机就不会再发烫了,而且玩起来会更加的流畅,到底如何操作呢?一起跟着小编来看吧。我们……生活如歌,有歌便有快乐常常,因为追求完美,我们的生活便如井台上的辘轳,转得沉重而滞缓。我们有许多望而兴叹的目标,因而,我们的理想不够完美。我们有许多失之交臂的幸福,因而,我们的生活无法完美。看……看看别人做父母为了孩子有多拼无意间刷到一个视频,是一个山东的大老爷们儿,为了配合孩子画画,自己动手制作造型,百变成各种造型,去给孩子做模特。那雷人的造型,还得配上音乐和舞蹈,简直要把人给笑死了,前有……早秋时节,半身裙才是你的扮美神器!这四款尤其值得拥有嗨,大家好!我是跟大家分享怎么变美的南曦,希望我的文章会给大家带来一些时尚灵感,愿每个人都能活出自己最美的样子!如果说夏天是连衣裙的主场,那么到了早秋时节最让时髦精们爱不……Hinova9z正式开售,搭载高通5G处理器120Hz屏665月6日消息,Hinova9z正式开售,一共有8GB128GB、8GB256GB两个版本,售价分别为1799元、1999元。配置上,Hinova9z搭载骁龙690处理器,……北影开幕式红毯一众女星精心打扮却输给妈妈级前辈,赵雅芝躺枪春有百花秋有月,夏有凉风冬有雪。美从来都应该是丰富的,多元的,而不应该偏于一隅。北影开幕式红毯如同明星们的秀场,争奇斗艳,美不胜收。尤其是一众女星们,身着高定礼服,……自由之刃攻速版新手职业介绍,新手职业选择攻略哈喽,大家好!今天给大家推荐一款经典热血的手游:自由之刃。小编作为经典怀旧版传奇的骨灰级玩家,可以说自由之刃攻速版完美复刻了当年版本,不论是画风还是玩法内容都是满满的回忆感!今……Gartner的2022年IT自动化趋势(上)Gartner的2022年IT自动化趋势系列共上、中、下三篇疫情已经永久地扰乱了我们的工作、购物和获取服务的方式。为了应对危机,企业组织在2022年将继续转向数字优先的商……暗物质最终可以通过自我相互作用显露出来关于暗物质性质的一个假设是,其中一些可能是自相互作用的,这意味着单个粒子之间会有轻微的相互作用。尽管有大量的间接证据证明暗物质的存在暗物质是主宰星系和星系团的神秘物质形式……罗斯姚明根本没资格入选名人堂!网友笑了你不配说这话名人堂对于一名球员来说是有着至高无上的荣誉,能够进入名人堂毫无疑问都是受到了一定的认可。而相信球迷们对于姚明都不会感到陌生吧,大姚作为02年的状元秀,在他的职业生涯中都进入了N……30年前,被赵本山抛弃后葛淑珍才发现,自己把这辈子都交给了他我们离婚吧赵本山淡淡地开口道。面对突然来的消息,葛淑珍慌了手脚,她从来没想过自己会有这么一天,她也不明白自己做错了什么?12年的时间,她陪着赵本山一路从无到有……亡羊补牢最终幻想14想通过萌系海报回收误退还的房屋抽签押金《最终幻想14》(FF14)希望通过一张可爱的海报来说服玩家自愿退还错误的房屋彩票押金。在6。2补丁的一个更广泛的更新中,《最终幻想14》开发团队最终确认了解决住房彩票系……
友情链接:易事利快生活快传网聚热点七猫云快好知快百科中准网快好找文好找中准网快软网