图像处理系统创新性技术2邻域存储体的理论及其应用

微软创意
爱情通信
用品婚姻
爱好看病
美体软件
影音星座
瑜伽周边
星座办公
饰品塑形
搞笑减肥
幼儿两性
智家潮品

图像处理系统创新性技术2邻域存储体的理论及其应用

　　文清华大学电子工程系苏光大
　　摘要：本文介绍了内存墙弊端，指出了当前大算力与高功耗的矛盾。
　　本文详细的论述了邻域存储体的理论和方法以及该理论正确性的验证，同时指出了邻域存储体在解决内存墙问题的作用，并给出了邻域存储体理论的应用实例。
　　本文提出了基于邻域存储体的算存算一体立体数据处理技术，实现了高速图像处理。
　　1前言
　　大模型、大算力，是当前科技前沿热点。在大模型训练等方面，英伟达公司的A100、H100芯片显露出超强的能力，但GPU芯片的高功耗、高价位等问题也彰显无疑。
　　冯诺依曼架构的先进性已经褪色，存算一体、算存算一体、感存算一体计算应运而生。这些新型计算模式彰显出存储体的重要性，而克服内存墙的影响则是新型计算模式的重要方向。
　　本文提出的邻域存储体具有单个存取周期存取多数据的能力，在理论上消除了内存墙的负面影响。
　　在邻域存储体基础上，我们实现了算存算一体计算，大幅度提升了算力。
　　2通用存储体存在的内存墙问题
　　冯诺依曼架构在计算模式中占据重要地位，对计算机的发展起着极为重要的作用。如图1所示，冯诺依曼架构包含存储、控制和计算单元。计算机进行运算，需要先把指令数据存入主存储体，再按顺序从主存储体中取出指令一条一条的执行。访问主存储体的速度直接影响计算机的性能。随着处理器性能大幅提升，而内存访问速度却提升较慢，使得处理器的处理速度远远快于内存的存取速度，内存墙问题严重的影响了计算机运行速度。
　　图1冯诺依曼架构示意图
　　内存墙问题不仅仅影响了计算机的运行速度，而且广泛的影响到计算技术的众多邻域。处理器与通用存储体之间的数据通道，存在内存墙。把数据从存储体搬到处理单元，比运算本身还耗时。运算单元增多，存储体供应不上数据。另一方面，经多个运算单元处理得到的多个数据，难以高效的存入存储体，由此形成数据堵塞，导致处理速度变缓。
　　图2给出了GPU芯片与外部DDR芯片联结的示意图。
　　图2GPU芯片与外部DDR芯片联结的示意图
　　图2中，如果GPU芯片访问外部的由DRAM芯片构成的通用存储体，则存在内存墙问题。我们可以看到，英伟达公司采用GDDR5存储芯片并形成高达384bit的存储体字长、超过6000Mhz的显存频率、数千个CUDA核、高端布线工艺，由此实现了高存储体带宽。显然，诸多举措有效的改善了内存墙的影响。
　　与GPU板的技术路线不同，我们采用邻域存储体来克服内存墙的影响。
　　3邻域存储体理论的产生与应用的历史沿革
　　1983年4月，笔者发表了物体的边界跟踪与周长面积的确定论文，论文中采用的算法用到邻域（如3x3）图像处理技术。在算法的执行中，读取存储体的邻域图像数据又慢又繁，一次读操作，只能读出1个数，9次读才能读出3x3邻域图像数据。这一过程，充分说明了内存墙的弊端，笔者也由此萌发了研究邻域存储体的思想。
　　笔者于1987年发表了高效率的图象帧存论文。该论文指出：在图象硬件处理中，硬件处理的速度和图象存储体的传输效率密切相关，其图象存储体的数据传输率和数据有效性是影响硬件处理速度和决定硬件开销的重要因素。
　　该论文提出了一种图象存储体智能存取的初步构思，主要用以解决用户存取可变、用户存取速率可变、用户存取数据的相邻邻域可变的问题，以期提高存储体的数据有效率。
　　该论文前瞻性的提出了存取存储体的邻域数据问题。
　　该论文前瞻性的提出了存储体数据传输率和数据有效性相结合的存储体有效带宽问题。
　　笔者于1990年6月承担了清华大学研究基金项目线跟踪算法及其硬件实现，我们研发团队进行了二值图象邻域处理机的研制。在硬件设计上，采用了存储芯片堆叠技术。在理论上，探讨了邻域寻址的方法。截止到1992年6月，限于当时芯片水平低下，虽然进行了硬件的系统设计等工作，但没能实现二值图象邻域处理机。
　　经过3年的持续研究，我们于1997年6月，研制成功了NIPC1邻域图像并行计算机，高速实现了Roberts和边缘跟踪等算法。
　　NIPC1加速板插入微机的ISA总线槽内。
　　NIPC1加速板的邻域存储体采用了存储芯片堆叠技术，在一个读或写操作周期内实现了2x2灰度邻域图像数据的并行存取。采用了存储芯片堆叠以及所堆叠的每个存储体芯片的数据bit位分段裂变技术，在一个读或写操作周期内实现了3x3二值图像邻域数据的并行存取。
　　实现邻域图象数据并行存取的方法及邻域图象帧存储体的发明获得国家发明专利，这是一项原创性的发明。
　　1999年2月我们在电子学报杂志上发表了邻域图像帧存储体的理论及其实现论文，论文截图如图3所示。论文提出了邻域图像帧存储体的理论，实现了邻域图像数据的并行存取，取得了比国内外一些大型图像处理系统更高的图像处理速度。特别是，论文提出可以说，图像帧存的数据流是影响高速图像处理的瓶颈这个结论已不尽正确的论断，前瞻性的指出了邻域存储体在推倒内存墙方面的积极作用。
　　图3邻域图像帧存储体的理论及其实现论文截图
　　我们于1999年研制成功了NIPC2邻域图像并行计算机，NIPC2加速板采用PCI总线，在一个读或写操作周期内实现了3x3灰度邻域图像数据的并行存取。
　　NIPC1、NIPC2夯实了高速邻域图像处理的基础，我们于2006年9月承担了国家自然科学基金项目大邻域图像并行处理机的研究。2008年1月18日，我们研制成功NIPC3邻域图像并行计算机，实现了在邻域存储体一个读操作周期内并行处理24x25个像素点的灰度图像邻域数据。该系统通过了教育部的科技成果鉴定，邻域图像处理速度达到了国际最好水平。
　　2019年，我们研制成功了嵌入式的NIPC4算存算一体高速处理板。
　　2022年，我们研制成功了嵌入式的NIPC5算存算一体高速处理板。
　　4邻域存储体的理论与方法
　　定义1：邻域存储体NeighborhoodMemory
　　采用多个存储体芯片堆叠以及所堆叠的每个存储体芯片的数据bit位分段裂变技术组成的存储体，称为邻域存储体。在邻域存储体的一个读或写操作周期中，并行读出邻域存储体的一维邻域多数据、二维邻域多数据或将一维邻域多数据、二维邻域多数据并行写入到邻域存储体中。邻域存储体，简称为NM（NeighborhoodMemory）。
　　4。1存储芯片堆叠
　　4。1。1存储芯片二维堆叠
　　图4存储芯片二维堆叠例
　　左图：4个存储芯片2x2堆叠右图：9个存储芯片3x3堆叠
　　图4左图中，a00芯片存储2i行2j列的数据，a01芯片存储2i行2j1列的数据，a10芯片存储2i1行2j列的数据，a11芯片存储2i1行2j1列的数据。由4个存储芯片构成邻域存储体，可以实现2x2邻域数据的并行存取。
　　图4右图中，9个存储芯片采用类似于图4左图的结构，组成并行存取3x3邻域数据的邻域存储体。
　　4。1。2存储芯片一维堆叠
　　图5存储芯片一维堆叠例
　　左图：一维水平堆叠右图：一维垂直堆叠
　　在图5左图中，由水平排列的4个存储芯片组成邻域存储体，实现1x4的邻域数据的并行存取。图5右图中，由垂直排列的4个存储芯片组成邻域存储体，实现4x1的邻域数据的并行存取。
　　4。2存储芯片堆叠技术的局限性
　　存储芯片堆叠以多芯片实现了邻域数据的并行存取，这是以资源堆积实现的，但存在大邻域并行存取的难题。要实现4x4、5x5、6x6的二维邻域数据并行存取，则分别需要16、25、36个存储芯片。如果要形成更大的邻域数据，则需要更多的芯片，电路的设计和实现都很困难。笔者了解到，当前1个处理器所连接的存储体，其最大的存储芯片堆叠数为8片。
　　这里来探讨采用存储芯片堆叠技术实现大邻域数据并行存取的方法。
　　以4x4邻域并行存取为例。芯片矩阵A中有a00等16个按照4x4排列的存储芯片，虚线划分为四块，由c00等4个芯片分别替代对应的四个芯片。地址矩阵B给出了c00等4个芯片的对应地址。
　　关键的问题是如何实现这种芯片替代？
　　通过研究，我们找到了采用存储芯片的数据bit位分段裂变技术来实现这种存储芯片的替代方法。
　　4。3存储芯片数据bit位分段裂变
　　4。3。1存储芯片数据bit位二维分段裂变
　　图6给出了一个存储芯片数据bit位二维裂变的实例。
　　图632bit字长裂变为4个8bit的邻域数据
　　图6中，存储芯片的数据bit位为32bit。32bit字长分段裂变为4个8bit，按照图6所示的排列可实现2x2邻域数据的并行存取。
　　4。3。2存储芯片数据bit位一维分段裂变
　　图7给出了一个存储芯片数据bit位一维裂变实例。
　　图7存储芯片数据bit位一维裂变实例
　　图7中，存储芯片数据bit位为32bit。32bit字长分段裂变为4个8bit，按照图7所示的排列可实现1x4或4x1邻域数据的并行存取。
　　4。4存储芯片堆叠加数据bit位分段裂变
　　图8给出了存储芯片堆叠加数据bit位分段裂变的示意图。
　　图8存储芯片堆叠加数据bit位分段裂变的示意图
　　图8中存储芯片A1、A2的数据bit位均按一维分段裂变为n段，等效于不同地址的n个数据位。2个存储芯片一维垂直堆叠形成2n段，等效于不同地址的2n个数据位。每个芯片数据bit位均按一维分段裂变为n段，M个相同的存储芯片等效于不同地址的mn个数据位。也就是说，在存储体的一个读或写周期里，能够读出或写入mn个数据。如某存储芯片数据位为128bit，8bit为一段，可存储16个8bit的灰度图像数据。8片相同的存储体芯片，可存储128个8bit的灰度图像数据，也就是说在存储体的一个读或写周期里，能够读出或写入128个8bit数据，提高128倍存取效率。可以想象，存储芯片数据位为256bit、512bit、，所提高的存取效率会达到更高的期待值。现在的处理芯片能承受吗？
　　5邻域存储体理论的验证
　　NIPC1、NIPC2加速板验证了存储芯片堆叠技术，NIPC3加速板则验证了存储芯片堆叠、存储芯片数据bit位分段裂变以及存储芯片堆叠加数据bit位分段裂变技术。
　　NIPC3加速板的邻域存储体由4片64bit字长的SRAM存储芯片组成。在一个读周期内读出32个8bit的图像像素，处理器在单处理周期内，可同时处理600点图像数据。图9给出了600点图像数据形成的示意图。
　　图9600点图像数据形成示意图
　　我们研制成功的NIPC3邻域图像并行计算机得到了国家自然科学基金支持，于2008年1月8日通过教育部科技成果鉴定。鉴定委员会认为：
　　NIPC3邻域图像并行计算机主要创新点在于：
　　（1）基于不完全轮换矩阵的邻域图像数据形成方法，为并行处理奠定了基础，实现了邻域核可变的数据结构，最大邻域核达到25x24；
　　（2）通过数据结构在算法、存储、处理中保持一致，建立了先进的并行体系结构，可同时处理600点图像数据，实现了高速图像处理。
　　NIPC3邻域图像并行计算机适用广泛，已在人脸识别上取得了初步的应用。
　　鉴定委员会一致认为，该系统总体水平处于国内同类系统领先，在大邻域图像核和邻域图像处理的速度上优于目前可查到的国际最好水平。
　　科技日报及时的报道了这项科技成果（图10），在发明专利方面也得到了高度评价（图11）。
　　图10科技日报的报道
　　图11发明专利方面的表彰
　　6邻域存储体理论的应用
　　邻域存储体理论成功应用于NIPC5算存算一体的高速图像处理系统。
　　图12给出了基于邻域存储体的算存算一体立体数据处理（如实现3x3邻域图像处理）的示意图。
　　图12算存算一体的立体数据处理示意图
　　如图12所示，在一个存储体页面读周期T0内读出一行W个邻域图像数据，再依次读出下一行图像数据。在读出每行数据的同时，采用算法流水线和处理流水线并行处理技术，逐行顺序完成1、2、3、4种算法立体数据的高速处理，处理时间MHT0。
　　在NIPC5算存算一体的高速处理板上对512x512x8bit的图像进行高斯滤波sobel滤波中值滤波二值化的4个算法流水线处理，耗时仅为0。0196ms，每个算法平均耗时小于5s。
　　分别对比CPU、GPU执行相同算法的处理速度，比较结果如下：
　　7结束语
　　图12给出的算存算一体的立体数据处理方法，处理一幅512x512的灰度图像，4个算法仅仅耗时0。0196ms。这个指标，仅仅使用了普通的器件（如DDR4）、较低的存储体存取频率（如250Mhz）、普通的布线工艺。该指标预示着算存算一体的高速处理板具有实时处理上百路视频图像的能力，也预示着具有高速实现YOLO算法的能力。
　　笔者在清华大学电子工程系曾建立了图像识别与高速图像处理实验室，希望实现软硬件技术的协同发展。
　　在图像识别方面，我们主要研究人脸识别综合技术，应用于2008年北京奥运会、户籍查重和视频图像侦查，协助公安部门破获了大量刑事案件。
　　在高速图像处理方面，从1983年开始，从一个想法到具体实现；从二值图象邻域处理机到NIPC5算存算一体的高速图像处理系统，经历了漫长的40年。
　　我们希望，走一条人工智能软件与人工智能硬件相结合的科研路。在NIPC5算存算一体的高速图像处理系统上，目前我们正在做多目标检测、识别、跟踪算法，希望有新的突破。同时，我们也期待下一个版本（NIPC6），在低功耗的指标下，实现更高的处理速度。
　　参考文献
　　〔1〕苏光大。《图像处理系统》〔M〕。北京：清华大学出版社。2020。
　　〔2〕陈实、苏光大、陆建华。可配置高速二维卷积处理器设计与Gabor滤波应用。清华大学学报（自然科学版）2010年第50卷第4期p581585
　　〔3〕一种大邻域图像并行处理方法。发明专利。授权公告日：2010年4月21日。发明人：苏光大，陈博亚
　　〔4〕实现邻域图像并行存取的方法及邻域图像帧存储体。发明专利。授权公告日：2002年3月20日。发明人：苏光大，左永荣
　　〔5〕GuangdaSu；jiongxinLiu；YanShang；BoyaChen；ShiChen。Theoryandapplicationofimageneighborhoodparallelprocessing。IEEE16thInternationalConferenceonImageProcessing（ICIP2009），Cairo，Egypt，p23132316
　　〔6〕苏光大。邻域图象处理机中新型的功能流水线结构。电子学报。2000年Vol。28No。8：p120123
　　〔7〕苏光大，左永荣。邻域图象帧存储体的理论及其实现。电子学报。1999年V0l。27No。2p8386
　　〔8〕苏光大，丁晓青。高效率的图象帧存。全国第六届模式识别与机器智能学术会议论文集1987年10月iv4144

黄金多少钱一克？国际金价1个月跌100美元，现在是买入时机吗01hr在刚刚结束的三天中秋假期里，黄金实体店的销售热潮突然爆发，很多朋友通过晒图的方式分享自己的喜悦。从这些图片当中，我们可以看到很多金店都出现了不少的顾客。不仅仅是实……王毅谈中国自身发展和对美政策的确定性当地时间2022年9月19日，国务委员兼外长王毅在纽约与美中关系全国委员会、美中贸易全国委员会、美国商会代表成员进行座谈交流。王毅说，今天的世界很不太平，新冠疫情尚未结束……中国智造新能源汽车首次搭乘成都中欧班列出口10月20日，装载着新能源汽车的中欧班列从位于成都市青白江区的成都国际铁路港首发。汽车将通过霍尔果斯口岸出境，途经马拉后到达德国汉堡，预计运输时效15天。此次成都中欧班列……红米Note12系列最贵2399，首发卖点，居然是2亿像素和今晚，红米Note12系列正式发布：Note12标准版搭载骁龙4Gen1处理器，该处理器采用台积电6nm工艺，核心架构为2x2。0GHzA786x1。8GHzA55核心CPU。……中兴axon50发布在即，你还戴有色眼镜吗众所周知，现在支持中兴的用户基本已经看不见了，大多数人转身投向了小米、华为和iPhone等品牌。但中兴仍在不停的努力探索，现在的系统MyOS早就不是旧时代的MiFavorUI了……真飞行汽车试飞成功！小鹏1024科技日都有哪些亮点？电子发烧友网报道（文梁浩斌）10月24日晚，一年一度的小鹏汽车1024科技日在广州召开。这已经是小鹏的第四届科技日，而在前面几次科技日，我们已经了解到小鹏其实并不只是一家车企，……想念你今天是您离开的第十天了，您的音容笑貌始终萦绕在心头，不思量自难忘。我工作和人生的导师，我的忘年交，我的老奶奶陈桂英老校长，不知您在天堂是否能收到我的思念？泪眼婆娑中，您的……除了奶制品，这些水果也有利于骨骼健康！来看看有哪些吧秋冬季节，又到吃枣子的时候了又甜又脆，我喜欢。枣子不仅美味，而且还对骨骼有好处呢！这我可没想到，为什么水果会对骨骼健康有好处呢？要想健康骨骼，除了补钙以外，补……03岁的宝宝该不该接受早教？如何早教？这影响孩子的一生如今，社会竞争压力越来越大，如果没有一份好的工作，是很难在社会立足的。父母们都知道生活的艰辛，所以不希望自己的孩子比别人差，为了不让孩子输在起跑线上，在孩子0到3岁的时候，就让……我们都是幸运的孩子终于动笔了，在从沙漠回来快一个月以后。准确的说可能已经拖了四个多月了吧，至少是从生日的时候就准备写点什么的。还是先从沙漠写起吧。报名略有波折，本来提前两周就看好了，……如果对尼亚加拉大瀑布的侵蚀不采取任何措施如果对尼亚加拉大瀑布的侵蚀不采取任何措施，会发生什么？早在大量水被转移用于水力发电之前，瀑布以每年约1英尺的速度后退，除了遇到沉积物而不是岩石的地方。稍后再谈。然而，目前……伤了！利物浦大将无缘社区盾昨晚，凭借亨队和法老的进球，我军20击败了水晶宫，终于迎来了季前热身赛的首场胜利。不过，本场比赛我军还是遭受到了打击，中场球员张伯伦，在比赛中因伤被替换下场。这对他……

<<<<<<－>>>>>>

4笔签约正式达成！德罗赞加盟湖人汤普森加盟尼克斯的建议北京时间10月17日，随着新赛季常规赛的即将到来，联盟各支对自己阵容不是太满意的球队仍然在继续进行调整，就在刚刚过去的一天，联盟就有4笔签约正式完成。而据美媒建议，洛杉矶将会通……Canalys一季度全球TWS出货量达6800万，苹果三星小IT之家5月18日消息，Canalys最新数据显示，2022年第一季度，TWS出货量呈现稳步增长，达到6800万。苹果以32的市场份额摘得桂冠，相较2021年第一季度增长14。……大爆冷！同曦100打懵广东，马尚206狂救主，胡明轩5中0怒54：48，同曦队在和广东队的上半场比赛当中以6分优势保持领先。这一局面出乎了所有球迷的预料，同曦队在上一场比赛当中通过绝杀战胜天津，这也使得全队上下士气大涨，上半场即便被广东……西甲皇家马德里VS巴塞罗那巴萨后防伤缺严重，伯纳乌或陷入苦战巴萨欧冠基本出局，全力征战联赛，客战皇马能否证明能力10月16日晚间22：15，五大联赛本轮最受关注的一场联赛将在伯纳乌进行，而他们的对手则是球队几十年来的死敌巴萨。这两……万亿级大市场，潜力巨大！又一新风口，来了来源：央视财经据中国汽车流通协会数据显示，二手车市场自今年4月以来交易规模始终处于回升趋势，市场回暖迹象明显。此外，2021年，全国二手车交易额首次突破万亿元大关。……楚能新能源执奋斗画笔，绘时代蓝图任何企业都可以获得创新与企业家精神。但是，要实现这一目标，企业必须要有意识地去奋斗。奋斗精神作为连接时代和企业发展的重要桥梁，是楚能深刻的文化基因。持续创新，持续奋斗，勤奋敬业……王力宏四年让老婆生了三个娃，李咏却说老婆是塑料花纯净水王子王力宏也没逃过七年之痒。结婚八年，两个女儿一个儿子。突然宣布离婚。只是，他四年让老婆李靓蕾生了三个孩子，真没想到会离婚。2014年7月9日，大……长假明日开启，京郊民宿院子房源告急，有人长租农村精品院子应急又到国庆长假，北京郊区很多民宿老板指着这个假期大赚特赚，绝大多数日租房已要提价30以上，但也早在一个月前就出租完了。面对汹涌而来的客人咨询电话，无计可施的民宿老板们开始各显神通……当大厂下场的时候，新能源汽车会不会再次洗牌？飞凡R7车电分离20。59万起这两年做投资的，最关注的，可能就是新能源行业。在这个大背景下，国内这两年已经出现了不少新能源汽车的新势力，蔚小理就是这里面的代表。但是在研发……伪装者明台和明成都是收养的，为啥明台是少爷，明诚是仆人？在李雪执导的年代悬疑谍战剧《伪装者》中看过剧的小伙伴都知道，明家三兄弟并不是亲生的，真正的明家小姐和少爷只有大姐明镜和大哥明楼，而明诚和明台都是明家收养的孤儿。同为孤儿在明家的……王小海和王小玮离婚4年她身边站着徐子威，他成了孤家寡人文sisi编辑嵋彼铭离婚4年后，王小玮的生活越来越精彩了！8月26日，玖月奇迹王小玮发出庆生的照片，照片中的她，一双眼睛如同少女一般清澈明亮，脸上洋溢着快乐。……66亿造车骗局剧终留下一堆老头乐，幕后主使携款逃亡美国万博发自副驾寺智能车参考公众号AI4Auto一则拍卖公告，将一个消失已久的汽车品牌再次拉入大众视线：江苏赛麟，那个曾烧56亿元造老年代步车的造车新势力，被江苏……

友情链接：易事利快生活快传网聚热点七猫云快好知快百科中准网快好找文好找中准网快软网