幼儿饰品瑜伽美体用品微软
投稿投诉
微软创意
爱情通信
用品婚姻
爱好看病
美体软件
影音星座
瑜伽周边
星座办公
饰品塑形
搞笑减肥
幼儿两性
智家潮品

企业级监控告警产品专题层监控设计概述

  本文作为监控告警产品的专题系列的第二篇文章,主要讨论的是IAAS层的监控(服务器状态与性能、网络设备状态与性能、网络流量分析等等),从前文所述的监控类型来说,IAAS层一般来说属于基础监控层面
  前文回顾:监控告警产品专题(1):企业级监控产品设计基础
  庖丁解牛
  IaaS
  IaaS、PaaS、SaaS这三个概念想必大家是耳熟能详了,其实就是云计算的三个分层,InfrastructureasaService(IaaS)基础设施即服务,PlatformasaService(PaaS)平台即服务,SoftwareasaService(SaaS)软件即服务。
  IaaS层其实就是一些显性可见的资源对象,如运维小伙伴经常接触的服务器、网络设备与存储设备等等。用一座大厦类比的话IAAS层就好比是负责了最基础的水电通信等能力。上层的服务都是依赖于IaaS层,假定IaaS层管理不好,那么PaaS与SaaS的高效与可控管理其实也是非常难了,甚至可以说空谈了。IaaSI层的不稳定会直接导致企业对外的服务质量大打折扣。笔者以前在负责手机QQ业务运维的时候,名下有4k多的机器,如果没有一套高效与可度量的管理平台,光凭人肉去管理4K多的机器,那基本和噩梦差不多了。
  IaaS的监控
  对于IaaS层的监控,本质来说就是监控组成IaaS层的各个资源对象,那么资源对象代表什么呢?例如物理服务器、交换机、一条专线与一个公网IP等等都是一个个资源对象。通常来说对于资源对象的监控可以分为以下4个维度。
  状态的监控:通指设备的的状态,如设备的存活状态、网络设备的端口状态、电源、风扇状态等。
  性能监控:通指设备内存大小,端口流量包量、CPU利用率等等
  质量监控:通指设备的丢包率、错包率、网络访问的延时等等
  容量监控:通指设备的负载使用率、专线带宽使用率、网络设备的负载使用率、服务器的负载使用率等等。
  监控产品的分层结构
  对于绝大多数主流商用或者开源监控告警产品来说,一般都是采用这种类似的分层方式,当然这里是一种高度抽象后的产品分层架构。
  位于最底层的就是数据采集,采集到的原始数据是监控的最初的输入。
  数据采集
  通常来说企业级的监控系统应该是支持多种采集方式与多种采集对象的,例如可以用Agent主动上报、也要能支持SNMP、Xflow、IPMI等多种协议。而针对于IaaS层具体支持的采集对象应该不少于物理服务器、操作系统指标(linuxamp;amp;windows)、网络设备、网络内会话信息、物理专线、网络出口等等。不同的采集对象采用的采集方式也是不同的,例如服务器系统指标可以用Agent上报、网络设备状态、流量、包量可以用SNMP采集等,具体采用哪种采集方式要看业务场景与所需场景的数据量与类别而定。织云同样也是支持多种采集方式与多种采集对象。
  在大数据的时代背景下,数据采集这部分建议针对某一个具体的对象尽量采集的大而全,可能有些数据暂时看采集上来没有直接用途,但是随着数据量级与数据间关联性的变化,对大量的原始数据,清洗、分析、加工后便能催生更多的数据消费场景。
  基础概念
  监控告警是对某一个具化的对象做采集、存储、分析、展示、告警、处理的过程。
  为了便于读者对于后文与后续系列文章的理解,这里笔者先集中描述一下设计织云监控告警平台时应用的一些概念。对于监控告警织云的理念是先纳管对象在监控对象,这也是海量运维的最佳实践。
  告警(监控)对象
  定义:CMDB中管理的一个具体资源对象或者是一个自定义逻辑CI
  示例:一台物理服务器、一个三级业务、一个TDSQL实例,这些均是对象
  备注:对象与对象之间也有是关联、包含、继承等关系
  告警(监控)指标
  定义:一个或多个特性id(或特性间的四则运算产生的结果)的集合
  示例:CPU使用率、内存使用率均是特性id;而例如成功率(成功的请求总数总请求数)100这个就是多个特性id的四则运算。
  备注:并不是所有监控指标都可以用来做有效的告警指标,这部分是按需所用。
  告警(监控)类型
  定义:确定了一部分的告警对象的告警指标采取一类的算法计算
  示例:单机性能告警(就包含了多个针对于服务器这个对象的监控告警指标,如cpu使用率、内存使用率、应用程序内容使用量等)
  告警规则
  定义:告警对象告警指标告警产生条件告警通知收敛规则(阈值、发生次数、统计时长等等),应用于告警策略
  示例:例如对某台交换机创建了,cpu使用率amp;gt;80时的告警规则
  告警策略
  定义:告警对象告警类型告警规则(可多个)对应一个告警策略
  示例:对一个三级业务下的全量服务器创建了一条基础告警策略,下图中的每一条都是一个告警规则,
  备注:对于告警策略,织云的理念的是对象精简化,为什么会这样说?在实际的生产环境汇中,一个运维同学负责几十个业务是常态,如果这几十个业务对应的不同的告警策略有上百个,在实际的运维过程中其实是不可量化的管理的。所以告警策略要同时包含不同的告警类型与具备可继承性。
  告警
  定义:告警对象的告警指标满足告警产生条件后产生的对象
  示例:〔腾讯织云〕〔ping告警〕〔15:38:10〕〔Ping192。192。192。192不可达〕
  限于篇幅这里先介绍以上最基础的概念,后续随着讨论的逐步深入,会在介绍告警分级、告警收敛、告警恢复、告警事件、告警订阅、告警合并等概念,下面主要讨论下网络设备监控、网络流量分析与服务器监控这几个业务运维同学们强关注的运维对象。
  网络流量
  对于网络出口与网络专线的有效监控与分析,即能有效的协助业务运维同学有效的定位业务异常、评估业务服务质量等,也能有效的度量业务整体运营成本,毕竟现在带宽的使用成本在整体运营成本中也是占比越来越大。相信运维同学多少都会遇到下面的场景
  例如这条专线当前利用率多少?
  在已经使用的流量中,某个ip使用了多少流量?
  这些所产生的流量是基于什么协议与方向?
  专线与网络出口的丢包率与时延是怎么样的?
  每条专线中主要是哪些务在用?哪个是地主客户?
  等等较高频的使用场景。对于网络流量的监控与分析来说主要依靠的FLOW。
  那么什么是FLOW呢?
  Flow是一种数据交换方式,其工作原理是:Flow利用标准的交换模式处理数据流的第一个IP包数据,生成Flow缓存,随后同样的数据基于缓存信息在同一个数据流中进行传输,不再匹配相关的访问控制等策略,Flow缓存同时包含了随后数据流的统计信息。
  一个Flow流定义为在一个源IP地址和目的IP地址间传输的单向数据包流,且所有数据包具有共同的传输层源、目的端口号。
  相对于会话(Session)而言,Flow具备更细致的标识特征,在传统的TCPIP五元组的基础上增加了一些新的域值,至少包括以下几个字段:源IP地址目的IP地址源端口目的端口IP层协议类型ToS服务类型(dscp)输入物理端口(ifindex)以上七个字段可以唯一地确定任意一个数据包属于哪个特定的Flow,换而言之任何一个字段出现了差异都意味着一个新Flow的发生
  对于FLOW的分析展示同样也是要基于多维度的,ip(目的与源)、port(目的与源)、业务、网络架构、城市、IDC等等众多的维度,具体所需的维度依赖于自己的业务场景。
  FLOW是厂商的私有协议,业界也有多种的Flow格式。例如CISCO、华为、juniper等等的主流厂商的flow也是均有一定差异性与优劣的,所以这部分的后台能力是需要有异构性的,织云基于腾云复杂的网络运维经验,目前是支持CISCO、华为、juniper的不同FLOW。
  网络设备
  对于网络设备的监控,也一般从设备性能、质量、状态等维度入手。对于每台网络设备来说运维同学一般会关注如下场景:
  网络设备的运行状态Syslog(设备运行日志)的监控与告警
  设备堆叠状态下的(例如交换机堆叠)的监控与告警
  网络设备上每个物理端口的、流量、包量、错包与端口状态的监控与告警。
  网络设备上逻辑端口(物理端口组合)的性能与状态
  等等高频场景。
  对于网络设备的syslog告警来说,同样也会面临不同的厂商、设备类型与设备型号日志标准不统一,所以对于网络设备syslog监控告警来说,首先是将众多的网络设备进行逻辑分组,以便于在一个分组内的设备均可以响应同一个告警关键字,并且这个分组粒度建议较细,这样才能保障告警关键字的有效性与独立性。在这里根据多年的运维经验,建议syslog告警的分组模型由四个维度组成厂商类型型号用途,例如CISCO交换机EX4300024T内网接入层交换机,通过这个公式就描述出一个设备的逻辑分组。
  服务器
  对于服务器的监控同样也是从状态、性能与容量这几个维度入手。虽然SNMP也可以用于服务器监控,但相对于agent主动上报指标与数据会少很多。服务器的状态监控主要包含服务器是否ping的通、agent上报是否超时与电源运行状态等等。对于性能与容量这两类维度,主要依赖当前OS的数据捕获,一般来说对于服务器监控来说在通用场景下主要关注cpu、内存、流量与包量这四个指标即可,但是别的指标也建议尽量捕获。单个监控对象的数据丰富了会有如下好处。
  避免对象的监控盲点
  不同的监控数据点可以部分对应出该服务器所承载的业务特性指标,例如存储类业务也会关注disktotalread、svctmtimemax、awaittimemax等等系统指标
  生产的数据足够丰富能够催生出更加丰富的运维数据消费场景。
  服务器监控相对是很标准的监控模型,针对于物理服务器与虚拟机都有共性指标。这部分主要做到采集的数据丰富与上报的准确性(算法准确)。
  后续文章主题预告
  数据银行CMDB的建设
  形态各异的公有云组件通用监控模型建设之路
  总结
  IAAS层的监控从IAAS层的组成这个维度来说,可以分为一个个独立的资源对象来分类监控,针对每一类对象可以分别从状态、性能、容量、质量这几个维度描述,将不同的数据综合为开发与运维的统一视角。监控告警产品的建设是任重而道远的过程,坑也非常多。要考虑多种因素,技术后台能力只是其中的一部分。例如在DevOps的文化下,需要从更高的层面来统一视角(开发视角amp;amp;运维视角)避免将监控做成开发的监控与运维的监控。也需要更多的考虑监控产品使用的双态(用户态amp;amp;系统态)与不同的权限(行业属性)如何分类设计。
  相关阅读
  监控告警产品专题(1):企业级监控产品设计基础

沾衣造句用沾衣造句大全1)山川满目泪沾衣,富贵荣华能几时。不见只今汾水上,唯有年年秋雁飞。2)春,暖人心脾,“沾衣欲湿杏花雨,吹面不寒杨柳风。”。3)人生有情泪沾衣,江水江花岂终极。杜甫……深得造句用深得造句大全(1)如果你的言词能深得人心的话,就一定能成为能干的推销员。(2)他快人快语深得人们的喜爱。(3)这位法官秉公执法,深得大家的爱戴。(4)爸爸为人忠诚老实,办……接合造句用接合造句大全九十一、把嘴两侧的微笑条跟头骨更好的接合起来,现在看起来这个笑容是否更“骨感”了?九十二、他慢慢地打开了用合页接合的箱子盖。九十三、当孩童拆散世界时,成试著去将它重……当夜造句用当夜造句大全【当夜dngy】:1。在夜间。1。每当夜幕降临的时候,喷泉喷出的水珠,有的像仙女散花一样美丽,有的像火树银花般灿烂,有的像一把把美丽的小扇子,还有的像一把把花雨伞真是千姿……朵玫瑰代表什么意思两情相遇此生不渝的爱情玫瑰花是代表着爱情的寓意,是爱情的象征。收到玫瑰,是很多女性都为之感动的事情。但是很多都不知道送20朵玫瑰代表什么意思,一般来说代表着两情相悦,此生不渝的爱情,以及不同颜色20……几朵造句用几朵造句大全31)雪白的梨花装饰着整棵大树,几朵梨花簇成一团像无数个小雪球,挂满了枝头。小小的花瓣在绿叶的衬托下显得清新极了!32)几朵高雅洁白娇美的昙花,高傲地昂着头,绽开了美丽的……巧用智钻引爆家纺转化一、店铺简介XXX家纺旗舰店B店(天猫店)店铺信用DSR:店铺主营类目:欧美风格居家布艺二、前言每年双十一,家纺类目的品牌战开始打起,几大家纺品牌……小麦微肥浸种增产增收小麦种植增产增收的保障,应该从选种和种子管理便开始。晒种选择晴天,将种子摊在阳光下暴晒(注意不要把种子摊在水泥地上),并经常翻动,使种子吸热均匀,改善种皮的通气性,增强种……营销微信如何实现快速增粉微信公众号增粉技巧在谈论增粉方式之前首先自问公众号有没有做好增粉准备,自身公众号有没有备齐以下三个关键点:关键点关注动力也就是关注理由,为什么要关注你的……方太蒸箱烤箱安装位置方太烤箱产品的大多都是嵌入式,这样的设计更加节约了空间,让厨房真正成为了一个整体式厨房。方太烤箱拥有8段循环烘焙,一个烤箱就可以烘焙出多种美味。方太烤箱大都是大容量的烤箱,有产……心理咨询师的自我透视心理咨询的目的在于人格塑造恰如古代日本的茶道不是仅仅为了沏茶,是为了培养女性宁静温柔的性格。如果说厨师为人们提供了餐桌上令人眼花缭乱的美味佳肴,那么心理咨询师则为人们提供了精神……量化主题基金遭遇滑铁卢量化模型主要根据历史数据构建,其吸收新信息的能力比较缓慢,一旦外部环境出现变化或发生某些重大事件,其有效性很可能受到影响。近日,证监会频频开出巨额罚单,处罚市场操纵行为,……
幸福人寿资金运用违规还曾因偿付能力收到监管函正如银保监会印发的《关于进一步深化保险业市场乱象整治工作的通知》中所说的,今年整治工作的重点将围绕股权、公司治理、资金运用、产品、销售、理赔、违规套费和数据造假等八个方面展开,……试论人力资源管理中绩效考核方法的应用【摘要】在人力资源管理中,避不开的一个话题就是员工的绩效考核,这会直接关系到一个企业的整体发展水平,由于企业的绩效考核是根据员工的当月具体工作情况来评定的,能够从侧面反映出一个……长期点蚊香的危害避免蚊香带来危害的方法蚊香在燃烧的时候会释放出特别刺鼻的味道。那么,长期点蚊香有危害吗?长期点蚊香有什么危害呢?下面跟随360常识网了解一下吧!一、长期点蚊香是有危害的。1、蚊香中含有的……变化无常造句用变化无常造句大全【变化无常binhuwchng】:无常:没有常态。指事物经常变化,没有规律性。1。这些天来,天气变化无常,时晴时阴,像猴子的脸说变就变。这不,刚刚还是烈日当空,一会儿就变……科普宝宝溺水原因及急救我们知道,当孩子遭遇溺水时,孩子2分钟后便会失去意识,4~6分钟内身体便会遭受到极大的伤害。因此孩子发生溺水后应及时采用正确的急救方法,争分夺秒地做好现场抢救,挽回孩子的生命。……炸弹姻缘抗战时期,吕家堂屋被日本鬼子的飞机撂下了一颗炸弹,由此引出一段感人肺腑的千钧一发,大炸弹坠落孩屋这个故事发生在抗日战争时期,已经六十多年了,一直在民间流传着。……我不是药神程勇是个怎样的人原型介绍电影《我不是药神》是徐峥主演的,影片讲了程勇为了生存下去不得不卖假药的故事。该片是根据真实事件改编的,徐峥扮演的程勇原型是谁呢?相信很多人都非常的好奇吧,接下来就和小编一起去了……公安机关个人现实表现材料政治素养较高,具有较高的政治鉴别力。该同志政治素养较高,为民服务的宗旨意识强,坚定拥护中国共产党的领导,自觉深入学习党的政治理论,努力提高自身政治素质,牢记全心全意为人民服务的……补钙的食物有哪些推荐补钙最佳的食物补钙最佳的食物1、饮品类牛奶牛奶是钙的好来源,喝250克(一袋)牛奶,大约可以获得275毫克的钙,既饮用方便,吸收又好。2、蔬菜类苋菜、小油菜不少绿叶菜……男朋友送假货是不是人品有问题男朋友送假货和人品扯不扯得上关系得看知不知情,如果不知情,找代购买到了假货,可以说清楚后以后去官网给你买,但明知道假货还去买,那就是人品问题了,好面子还送假货,建议分手。……经济案件办理中存在的问题及对策摘要:当前专业技术领域中在进行办理经济案件中存在诸多的问题,并遭受一些内外部因素的影响与制约,这无法遵循现代化发展形势的步伐。在这种发展情形下,为了全面加强专业部门进行经济案件……世界上牙齿最多的人印度一小伙长出颗牙比常人多出颗牙齿对于人类来说是非常重要的一项器官,它能够帮助人类咀嚼食物,从而能够更好的吃下食物,能够更好的消化食物,能够更好的吸收食物中的营养。牙齿的整洁程度们甚至还关系到了我们的社交活……
友情链接:易事利快生活快传网聚热点七猫云快好知快百科中准网快好找文好找中准网快软网