幼儿饰品瑜伽美体用品微软
投稿投诉
微软创意
爱情通信
用品婚姻
爱好看病
美体软件
影音星座
瑜伽周边
星座办公
饰品塑形
搞笑减肥
幼儿两性
智家潮品

流量分析开发工具包(TADK)在网络应用程序中启用实时AI推

  插播一个流量分类的论文
  Publishedin:2022ThirteenthInternationalConferenceonUbiquitousandFutureNetworks(ICUFN)
  论文题目:
  TrafficAnalyticsDevelopmentKits(TADK):EnableRealTimeAIInferenceinNetworkingApps
  论文地址:
  https:arxiv。orgabs2208。07558
  摘要
  复杂的流量分析,如加密流量分析和未知恶意软件检测,强调需要先进的方法来分析网络流量。传统的使用固定模式、签名匹配和规则来检测网络流量中的已知模式的方法正在被AI(人工智能)驱动的算法所取代,然而,由于缺乏高性能AI网络特定框架,无法在网络工作负载中部署基于AI的实时处理。在本文中,我们描述了流量分析开发工具包(TADK)的设计,这是一个特定于基于人工智能的网络工作负载处理的行业标准框架,TADK可以在网络设备中提供从数据中心到边缘的实时基于ai的网络工作负载处理,而不需要专门的硬件(例如gpu、神经处理单元等)。我们已经在商用WAF和5GUPF中部署了TADK,评估结果表明,TADK在流量特征提取上的吞吐量可达35。3Gbps核,在流量分类上的吞吐量可达6。5Gbps核,并且可以将SQLiXSS检测降低到4。5s请求,精度高于固定模式解决方案。
  1介绍
  针对人工智能推理的软件技术进步降低了障碍(计算成本和研发工作),释放了网络应用程序开发人员在其商业解决方案中使用人工智能先进技术的创造力和创新,报告和分析预计,AI在企业SDWAN部署中的使用将从2021年的5增加到2025年的40。
  行业实践正在通过网络分析方法引入使用人工智能(AI)和机器学习(ML)模型的AI技术,以下是一些用例示例:(1)流量分析:用于分析加密的网络流量,以识别网络中的异常;(2)恶意软件检测:检测SQL注入、跨站脚本等恶意流量;(3)用户行为分析:检测关系,识别异常,并对安全进行实证评估。
  为了支持真实的工作负载,实时AI流量分析的行业标准框架必须满足性能、准确性和可伸缩性的要求,根据之前与客户和合作伙伴的研究和讨论,我们确定了以下几个相互挑战:
  高吞吐量:每个核心高达3Gbps(基于规则的级别),用于基于人工智能的流量分类
  低延迟:每个请求510s,用于恶意流量检测
  高精度:精度95
  易于部署:无需专用硬件(例如GPU,NPU,FPGA)部署
  易于开发:为了解决上述挑战,我们设计了流量分析开发工具包(TADK),这是一个专门用于基于人工智能的网络工作负载处理的行业标准框架。
  TADK可以在网络设备中提供从数据中心到边缘的实时基于ai的网络工作负载处理,而不需要专门的硬件。简单地说,TADK为基于人工智能的网络处理带来了几个优势:
  1)高性能:TADK为基于人工智能的实时流量分析提供了高度优化的库,我们设计了几种新的算法来提高性能,从我们的基准测试结果来看,流量分类可以达到6。5Gbps核,在大多数情况下完全支持实时分类,同时,SQLiXSS检测的整个管道可以实现每一个HTTP请求4。56。1s,比现有的基于规则的解决方案快2倍,流量分类和SQLiXSS检测在大多数情况下准确率95。
  2)易于部署:使用TADK开发的应用程序不依赖于任何专用硬件,TADK充分利用现代CPU功能,如VX512来加速AI性能。
  3)易于开发:TADK提供了一个基于模块的开发环境,开发人员可以通过组合TADK的模块来实现自己的基于人工智能的交通分析应用程序,就像积木一样。
  本文的其余部分组织如下:我们首先在第二部分介绍了基于人工智能的流量分析的背景和相关工作,在第三节中,我们将给出TADK的总体设计,然后,我们将在第四节中给出高度优化的特征提取算法的一些细节,我们将在两种场景下评估TADK:流量分类和第五节中的SQLiXSS检测,在第六节中总结。
  2背景及相关工作
  A。数据收集
  系统的调查总结了一个基于人工智能的流量分析的一般管道,第一步是数据收集,基于人工智能的解决方案需要历史数据作为输入源来训练模型,然而,由于准确性和隐私问题,很难捕获和标记足够多的流量,据报道,60的研究正在使用公共非加密流量,并使用DPI工具对流量进行标记,为了解决这个问题,TADK提供了一个标记助手,可以帮助用户一键标记非加密和加密流量。
  B。特征提取
  下一步是特征提取。最常见的趋势是使用基于统计的特征(例如,到达间隔时间和具有最小、最大和平均指标的数据包大小),因为它们既可以用于非加密流量分析,也可以用于加密流量分析。然而,一些开源特征提取库的性能不如TADK的库,同时,TADK不仅可以从加密流量中提取统计特征,还可以提取词汇特征。实验证明,统计特征与词汇特征相结合可以显著提高准确率,TADK的流量提取库已用于人工智能流量分析,TADK提供了一个标记器,它比现有的提取词汇特征的解决方案要快得多。
  C。AI推理
  在最后一步,需要一个AI模型或模型集合来收集分析结果,有监督方法和无监督方法都广泛应用于流量分析中。标记数据集用于训练监督模型,如SVM、决策树和随机森林,无监督模型如KMeans被用于异常流量检测。同时,由于对加密流量进行标记比较困难,大多数解决方案采用无监督模型对加密流量进行聚类。在TADK中,我们为人工智能推理提供了一个优化的随机森林模型,我们比较了各种模型,发现随机森林在流量分析工作负载的准确性和延迟之间很好地平衡。
  3TADK的总体设计
  A。核心库
  TADK由一系列核心库组成,这些核心库对应于我们之前提到的特征提取和AI推理步骤,我们在图1中展示了每个组件,流量聚合器用于将报文(如实时报文或PCAP文件中的报文跟踪)中的流量按5元组进行聚合,协议检测用于识别TCP、TLS、QUIC等协议,特征提取是TADK的竞争力,经过精心设计,可以支持基于人工智能的实时流量分析,我们将在第四节中介绍一些核心算法,AI引擎是基于InteloneDAL的高性能随机森林的包装,我们的AI引擎支持训练和推理,包括自动特征缩减。
  B。Utilities
  TADK为训练提供了一些有用的实用工具,数据清理器和标签助手提供了一键式的流量标签解决方案,用户只需要捕获一个或几个包跟踪(例如,PCAP文件)作为标记助手的输入,助手将这些包跟踪聚类为几个集群,每个集群将有一个标记提示,用户唯一的工作就是用提示标记每个集群,并使用标记的流量来训练模型。
  C。参考方案
  TADK提供了一些示例来展示TADK核心库的参考用法,流分类样本可以监控网络流量,识别加密流量中的不同应用,数据包跟踪(PCAP文件)或实时流量都可以作为流分类样本的输入。SQLinjection(SQLi)XSS(CrossSiteScript)检测样例可以检测HTTP流量负载中是否含有恶意代码,TADK还为流分类示例提供了VPP插件,为SQLiXSS检测示例提供了ModSecurity插件,通过这些插件,用户可以直接将基于人工智能的解决方案集成到现有的管道中,而无需任何修改,我们在图1中给出积分点。
  4特征提取
  A。基于simd的直方图
  最常用的统计特征是直方图,如TCP报文头长度、有效载荷长度、到达时间间隔等的分布特征,因此,设计一个有效的直方图算法是一个关键问题。
  本文以TCP报文有效载荷长度直方图计算为例,详细说明了实现方法,一个包长度的缓冲区,如图2所示,用于存储网络流中每个包的有效载荷长度(为简单起见,这里考虑16个包),直方图的目的是计算缓冲区中属于特定bin的每个元素的数量。
  1)现有解决方案:标量计算(ScalarCalculation,SC)是一种被广泛应用的方法,它已经在大多数特征提取库中实现,SC是一种基于循环的方法,这意味着他们为直方图使用了大量的循环和分支(它必须逐个处理和计数每个元素),为了弥补这一缺点,提出了一种无环设计,如基于simd的算法。
  2)高级V向量计算:我们提出了一种基于simd的算法,称为高级V向量计算(avc)。
  如图2所示,我们将输入流量分为4类:
  1)类别1:所有元素都在不同的bins中。
  2)类别2:所有元素均为随机分布。
  3)类别3:所有元素都在一个bin里(除了最大的bin)。
  4)类别4:所有元素都在最大的bin里。
  由于每个类别需要不同的算法来计算,我们还提出了V向量类别分类器(VCC)来识别输入数据的类别,为了防止VCC成为直方图计算的开销,我们最多只使用3条指令来识别类别,这也如图2所示,我们在表I中给出SIMDintrinsic的定义。
  简单地说,我们首先使用CMPGT来确定每个元素是否大于最大的bin,如果所有的元素都比最大的bin大,它就是第4类。然后,我们用CONFLICT来计算vec冲突,用mskuni来检查每个元素是否唯一,如果所有元素都是唯一的,那么它就是类别1,最后,我们可以简单地检查是否只有一个活动位的msk单元,如果mskuni中只有1位,则为类别3,否则为类别2。
  虽然用最多3条指令计算类别1、3和4中的直方图很容易,但为类别2设计算法是最具挑战性的工作,因此,我们提出了一种新的算法来计算类别2中的直方图,我们也在图3中给出了一个例子,算法1为AVC和VCC的伪代码。我们评估了我们提出的直方图计算的一个VC,VC在1、2、3、4类中分别比现有解决方案快11。73倍、4。38倍、1。33倍和1。47倍。
  B。DFAbasedTokenization
  大多数基于人工智能的流量分析(例如,下一代Web应用防火墙)需要标记化来将词汇特征(基于字符串的信息)转换为向量,作为人工智能模型的输入。对于词法特性,大多数标记器(例如OpenNMT)是基于分支的,这意味着它们使用大量的IFELSE来标记。基于分支的解决方案很容易实现,但它对CPU的管道不友好,并且可能会增加缓存丢失的数量。因此,TADK使用了基于DFA的标记器,并提供了可以将易于编码的概要文件转换为特定DFA的生成器,我们在图4中给出了一个基于DFA的标记器的SQLi检测示例,我们还给出了一个培训视频来描述标记器是如何工作的。
  1)生成器:为了支持多种语言文件格式,我们提出了一个可以从用户定义的配置文件生成DFA的生成器,我们定义了一种DFA概要语言,可以方便地由我们的客户维护,并且易于扩展,为出现的威胁添加新的令牌,并支持更多的用例,生成器还包括一个DFA编译器,用于将用户定义的概要文件编译到相应的DFA转换表中,DFA转换表由Tokenizer直接使用。
  2)Tokenizer:DFA转换表描述了每种状态和输入字符下的转换行为,算法2展示了DFA引擎是如何工作的,引擎在主循环中进行简单的转换,这使得它非常快。
  5评估
  A环境
  我们使用GCC7。5实现TADK。由于TADK已经部署在WAF或5G用户平台功能(UPF)等多个场景中,因此我们有不同的CPU和RAM环境。5GUPF采用中兴5300G4X,基于IntelXeonGold6330NCPU(冰岛),配置512GBDDR4RAM。其他评估是基于XeonGold6148CPU(Skylake)和IntelXeonPlatinum8358CPU(冰岛),带有32GDDR4RAM。我们将参考流量分类样本集成到中兴5GUPF中,以测试其吞吐量和准确性,我们使用IXIA作为流量生成器来生成流量,以测试零丢包的最大吞吐量。
  B数据
  由于我们选择随机森林作为我们的AI推理模型,我们评估了随机森林在流量分类和恶意软件检测方面的准确性,在流量分类中,我们从现实世界中收集了国内最热门的应用(百度、天猫、BILIBILI、腾讯、今日头条、快手、QQ、香山、QQNEWS、优酷、微信),进行训练和推理,在恶意软件检测中,我们使用SQLMAP作为SQLi,XSSTRIKE作为XSS来收集用于训练和推断的数据。我们还选择了一些公共数据进行推理。
  C。流量分类
  1)准确率:我们给出了模型的混淆矩阵,可以对图5中的9个应用进行分类,精确度和召回率均大于90,平均精密度、召回率和f1score分别为0。936、0。926、0。918。从评价结果可以看出,该方法在大多数场景下都能满足流量分类的精度要求。
  我们还训练了一个模型来分类微信图像传输流量和微信视频传输流量,这是UDP流量,我们准备了70个图像传输流和100个视频传输流进行训练,我们在表II中给出了精度细节,平均精确度、召回率和f1score分别为0。883、0。884、0。883。
  2)性能:我们用可以分类2个应用程序的模型测试我们的延迟(用1524个流的WECHAT和用1551个流的YOUKU训练和测试)。从表III中,我们可以看到我们的延迟可以达到每个流10。7s,这对于大多数情况是足够的,此外,我们还在表III中测试了DNS、HTTP和TLS特征提取的延迟,DNS、HTTP、TLS的平均报文数分别为2、8、13,使用POPCNT指令和新的体系结构,延迟显著降低,TLS延迟比HTTP低的原因是TLS需要提取的词法特征更少。
  我们还通过优酷测试了吞吐量,每个流的平均数据包是20个,超过99的流是HTTP和TLS流,吞吐量为每核6。5Gbps(1629kpps),平均每个流的数据包数为28个,我们可以估计在大多数情况下我们的吞吐量可以达到9。1Gbps。特征提取的吞吐量可达35。3Gbps。
  3)5GUPF中的吞吐量:我们使用图6中分别可以将5GUPF中的3、5和9个应用程序分类的模型测试吞吐量,最大吞吐量为3。78Gbps(618kpps)与5个应用程序,可获得3。39Gbps(515kpps)和3。58Gbps(599kpps)与3和9个应用程序,结果表明,该算法的性能不会随着应用数量的增加而降低,5GUPF的吞吐量不能达到我们前面提到的吞吐量并且有抖动的原因是我们的流表实现和其他集成开销。
  D。恶意软件检测
  1)准确性:我们用TADK实现了一个用于SQLiXSS的ModSecurity插件,我们将我们的插件与在相同服务器环境(Nginx与ModSecurity)中充分利用的libinjection进行比较。我们使用SQLMAP和XSSTRIKE设置一个攻击客户端来生成流量以测试准确性,TADK的插件比libinjection有更高的精度(SQLi为100,XSS为99。8),并且它有更少的误报。
  2)延迟:我们评估了表IV中SQLiXSS插件的延迟,TADK的延迟比libinjection少50,总之,在SQLiXSS中,基于人工智能的解决方案比基于规则的解决方案具有更低的延迟,这使得实时基于人工智能的恶意软件检测成为可能。
  6结论
  在本文中,我们提出了TADK作为解决实时基于ai的网络工作负载处理的解决方案。评估结果表明,采用TADK实现的应用程序可以满足实时性能(恶意软件检测每请求4。5s,流量分类和特征提取每核6。5Gbps和35。3Gbps)、准确性(95)和不需要任何专用硬件的可扩展性的要求,我们已经在WAF和5GUPF中部署了我们的解决方案,并对其在实际应用中进行了评估,我们目前正在与合作伙伴一起改进实际部署所需的可靠性和缺失的特性(例如,GQUIC),最终将由公众和社区进行检查和使用。

曼城前锋哈兰德在对阵伯恩茅斯的比赛中只有8次触球,这有关系吗埃尔林哈兰德在曼城的职业生涯已经进行了三场比赛,周六4:0大胜伯恩茅斯的大新闻是,他在所有比赛中只碰了8次球。在英超前两周的两场比赛中打进两球的他已经在路上了,但早期的证……广东2025推广氢能源汽车1万辆,上汽引领产业高质量发展随着氢燃料电池技术的突破、新能源汽车的快速发展,以及国家对清洁能源的日益重视,中国开始加大对氢燃料电池领域的规划和支持力度,出台了相应的政策,将氢燃料电池的发展提升到了战略高度……是时候抛弃32位的Linux,改用64位的了如果你想获得安全的体验,你可能不会再继续使用32位Linux内核。我们有很多为32位系统定制的Linux发行版。那么,为什么我想要不鼓励使用32位,而升级到64位L……生日快乐,希瑟洛克利尔!通过回顾她最过时的复古时尚时刻来庆祝生日快乐,希瑟洛克利尔!这位女演员将于2022年9月25日年满61岁。为了纪念她的大日子,回顾海瑟在80年代和90年代职业生涯早期最精彩的过时时尚和美丽时刻。1981年2月2日……记者拉瓦内伤缺34周时间,世界杯前将不会代表曼联比赛法国媒体Canal记者DamienDubras报道了曼联中后卫瓦拉内的伤情。该记者透露,瓦拉内大腿肌肉受伤,特别是股二头肌,但是并没有最初担心的那么严重。不过,如果他被征……阴囊潮湿,从肝论治无用?中医认为是虚中夹湿导语阴囊潮湿,从肝论治无用?中医认为是虚中夹湿在日常的工作中,常常会遇见阴囊潮湿的男性朋友,有很多人不会把它当回事,只有当出现了功能问题的时候顺带说一下潮湿。但是有很多人……清华团队实现激光3D纳米打印技术新突破中国青年报客户端讯(中青报中青网记者叶雨婷通讯员李晓罡)记者从清华大学获悉,近日,清华大学精密仪器系孙洪波教授、林琳涵副教授课题组提出了一种全新的纳米颗粒激光3D打印技术,利用……别再用物质奖励孩子了,收好这份精神奖励清单一起带娃去旅行90后父母竟然这么养孩子亲子教育分享你按时把作业完成,妈妈就给你看电视你要是考100分,妈妈就给你买玩具车你要是考进前5,妈妈就带你去旅游。。。……吃大蒜对身体好大蒜是日常生活中离不开的一种调味品,大蒜口味独特,广受大家喜欢,但是吃大蒜以后会发生口臭,使人非常讨厌。还有吃大蒜以后,满身弥漫的那种气味也会让周围的人都躲得远远的,令人非常的……国庆假期第二天,本地游周边游依然唱主角奔赴家门口的诗和远方国庆假期第二天,本地游周边游依然唱主角国庆假期,华谊兄弟(长沙)电影小镇全新升级的镇上有个音乐节第五季重磅来袭。电影小镇为营造欢乐热情的国庆氛围……我国这8大景区因宰客出名,看下你去过几个?早看早避雷大家在旅游的过程当中遇到最糟心的事情是什么呢?那肯定是去到了心心念念的旅游景点,发现了这些自己被宰的情况。我国的旅游业不断的发展,也给很多人带来了不一样的体验,但随之而来……双胞胎肚里打架出生后浑身淤青?产科医生都不在一个房间在肚子里经常打架出生后浑身淤青?近日一位宝妈上传的双胞胎在肚里打架出生后浑身淤青内容引发网友们关注据视频显示双胞胎兄弟在肚子里的时候……
3岁就能玩恐怖游戏?网络游戏适龄提示有点乱幻想、暴力、恐怖、血腥、色情这些都是不少网络游戏剧情内容所包含的元素。考虑到未成年人心智还不成熟,缺乏判断力,自控力薄弱,那么这些被网络游戏公司拿来当做卖点的元素极有可能成为未……CBA明日四场硬仗!辽宁VS上海恩怨清算广东稳操胜券新疆生死北京时间3月17日,CBA联赛正在进行常规赛第36轮比赛的争夺,在上一轮的焦点大战当中,上海大比分战胜山西,本场比赛郭昊文表现出色,全场狂砍32分,13投9中并且给山西带来了极……RedmiK40升级版K40S,加量又减价,首批好评100,红米手机在发布RedmiK50系列手机的同时推出了RedmiK40手机升级版RedmiK40S手机。RedmiK40手机是去年的高人气手机,硬件配置上搭载了高通骁龙870……早餐不可以将就!而且这四点一定要做到在经过了一晚上的休息之后,身体非常饥饿,因此一定要重视早餐营养的摄取,要健康吃早餐才可以提高一天当中的工作效率,那么到底早餐怎样吃最健康呢?第一、按时吃早餐很多人吃……高管透露一加11已提上日程100高帧手游会带来怎样的视觉效果近期,关于一加手机将推出一加11系列的传闻越来越多,越来越具体,从外观到配置甚至个别系列都在不断透露出来。并且,根据此前曝光的信息来看,该系列机型很可能会在下月发布。不过官方并……韦伯望远镜韦伯望远镜,作为哈勃望远镜的继任者,由美国NASA,欧洲宇航局,以及加拿大宇航局联合开发,前后研发投资100亿美元,耗时20余年,是目前世界上最复杂的太空望远镜。经过数次……一岁以下宝宝的行为顺口溜快快长,爸妈不要心急呀!快快长,快快长,爸妈要有耐心哇!一月我只会哇哇,这也哇,那也哇,哇起来我都以为是蛤蟆,我也没啥好办……19分惨败!广东队五位输球罪人被揪出,留给杜锋的时间不多了101120,广东队输给了广州队19分,从第一节开始广东队就开始落后,后面一直被压制。这是广东队本赛季的第11场败仗,第三阶段广东队就输掉了3场,比前面两个阶段还要差,这恐怕不……住海景房,白天或晚上睡觉你可曾害怕过?海景房是许多内地人,特别是中,西北部地区平时没怎么看到海的市民向往居所。在许多网友潜意识里,海景房是高大上的,一说起海景房,脑海中会浮现出一幅优美的画面。蓝天,白云,大海,沙滩……女首富王雪红阿姨痴心幻梦,王永庆1。1亿遗产分配9子女和解2022年的MWC世界通讯大会举办在即,王雪红旗下的宏达电子除了参展,她个人因受邀担任专题主讲人而受到业内关注。近来台股市场元宇宙题材大热,也让王雪红的宏达电股价飙涨近3……如何选到性价比高的热水器?智能除菌还节能云米Zero2C1要说打工人一天最幸福的时刻是什么时候,那一定是回家立马洗一个热水澡,一天的疲惫瞬间冲走了一半。家里的热水器用了很多年了,经常罢工,特别是冬天,洗着洗着就变冷水的奔溃我是受够了,……住建部新建住宅入户层为二层及以上的应设电梯近年来,无障碍新能源汽车充电桩等成为住宅领域的热词,为促进住宅建设高质量发展,满足居民新的住房需求,住建部近日起草完成《住宅项目规范》并公开征求意见。资料图摄:赵莹莹北晚……
友情链接:易事利快生活快传网聚热点七猫云快好知快百科中准网快好找文好找中准网快软网