基于gensim实现word2vec模型（附案例实战）

微软创意
爱情通信
用品婚姻
爱好看病
美体软件
影音星座
瑜伽周边
星座办公
饰品塑形
搞笑减肥
幼儿两性
智家潮品

基于gensim实现word2vec模型（附案例实战）

　　什么是word2vec？
　　Word2Vec是google在2013年推出的一个NLP工具，它的特点是能够将单词转化为向量来表示，这样词与词之间就可以定量的去度量他们之间的关系，挖掘词之间的联系。用词向量来表示词并不是Word2Vec的首创，在很久之前就出现了。最早的词向量采用OneHot编码，又称为一位有效编码，每个词向量维度大小为整个词汇表的大小，对于每个具体的词汇表中的词，将对应的位置置为1。比如我们有下面的5个词组成的词汇表：
　　采用OneHot编码方式来表示词向量非常简单，但缺点也是显而易见的，一方面我们实际使用的词汇表很大，经常是百万级以上，这么高维的数据处理起来会消耗大量的计算资源与时间。另一方面，OneHot编码中所有词向量之间彼此正交，没有体现词与词之间的相似关系。
　　Distributedrepresentation可以解决OneHot编码存在的问题，它的思路是通过训练，将原来OneHot编码的每个词都映射到一个较短的词向量上来，而这个较短的词向量的维度可以由我们自己在训练时根据任务需要来自己指定。
　　下图是采用Distributedrepresentation的一个例子，我们将词汇表里的词用Royalty，Masculinity，Femininity和Age4个维度来表示，King这个词对应的词向量可能是（0。99，0。99，0。05，0。7）。当然在实际情况中，我们并不能对词向量的每个维度做一个很好的解释。
　　Word2Vec的原理
　　Word2Vec的训练模型本质上是只具有一个隐含层的神经元网络（如下图）。
　　它的输入是采用OneHot编码的词汇表向量，它的输出也是OneHot编码的词汇表向量。使用所有的样本，训练这个神经元网络，等到收敛之后，从输入层到隐含层的那些权重，便是每一个词的采用DistributedRepresentation的词向量。比如，上图中单词的Wordembedding后的向量便是矩阵WvxN的第i行的转置。这样我们就把原本维数为V的词向量变成了维数为N的词向量（N远小于V），并且词向量间保留了一定的相关关系。
　　gensim实现word2vec模型（实战）
　　本次实战案例选取的数据集是四大名著中的三国演义。
　　首先使用jieba进行中文分词，
　　分词之后使用gensim库中的word2vec构建模
　　从结果中我们看出，与孔明相关性最高的是玄德、云长、孟获，也符合小说中的角色关系。
　　接着我们将模型可视化，
　　importnumpyasnp
　　fromsklearn。decompositionimportPCA
　　将词向量投影到二维空间
　　rawWordVec〔〕
　　word2ind｛｝
　　fori，winenumerate（model。wv。indextokey）：
　　rawWordVec。append（model。wv〔w〕）词向量
　　word2ind〔w〕i｛词语：序号｝
　　rawWordVecnp。array（rawWordVec）
　　XreducedPCA（ncomponents2）。fittransform（rawWordVec）PCA降2维
　　importmatplotlib。pyplotasplt
　　plt。rcParams〔font。sansserif〕〔SimHei〕解决中文显示
　　plt。rcParams〔axes。unicodeminus〕False解决符号无法显示
　　绘制星空图
　　绘制所有单词向量的二维空间投影
　　figplt。figure（figsize（15，10））
　　axfig。gca（）
　　ax。setfacecolor（white）
　　ax。plot（Xreduced〔：，0〕，Xreduced〔：，1〕，。，markersize1，alpha0。3，colorblack）
　　绘制几个特殊单词的向量
　　words〔孙权，刘备，曹操，周瑜，诸葛亮，司马懿，汉献帝〕
　　forwinwords：
　　ifwinword2ind：
　　indword2ind〔w〕
　　xyXreduced〔ind〕
　　plt。plot（xy〔0〕，xy〔1〕，。，alpha1，colororange，markersize10）
　　plt。text（xy〔0〕，xy〔1〕，w，alpha1，colorred）
　　最后，我们还可以做个类比关系实验，
　　比如，孔明是玄德的军师，那么曹操的军师是谁呢？

ODC22正式官宣，OPPO将带来哪些黑科技？这些预告很值得8月中旬，数码圈又有震撼全场的消息放出，国内一线手机厂商OPPO将在8月30日到31日期间召开2022开发者大会，并邀请全球用户、开发者以及合作伙伴线上相聚。本次ODC2……我的世界官方学着点，原版遗迹算个啥，这才是真正的丛林神庙丛林神庙，作为古代的一个遗迹，在官方人员Duncan的口中，它是一个由固然所打造的神庙，本身高低不平的石柱直插云天，里面有阴暗潮湿的地方，散发着令人不敢的气息，仿佛下一秒就会出……日本将不复存在？特斯拉总裁马斯克为何出此惊言特斯拉总裁埃隆马斯克，相信大家必然不会陌生，毕竟是当下全球首富。据彭博社估计，马斯克的身家约为2500亿美元。虽然贵为世界首富，但是马斯克的财富中有60来自特斯拉的股票，……我们的太阳系海王星海王星（英语：Neptune）是太阳系八大行星之一，也是已知太阳系中离太阳最远的大行星。海王星的轨道半长轴为30。07天文单位，公转周期为164。8年，质量为17。147地球质……粒子物理学中死锥效应的首次直接观测帕顿淋浴中的魅力夸克（c）通过以胶子（g）的形式发射辐射而失去能量。淋浴在夸克周围显示一个被抑制辐射的死锥，其角度小于夸克质量（m）和能量（E）的比率。在淋浴的每个阶段，能量都……王者荣耀未开局先内战！这四位英雄，一楼千万别选王者荣耀从永恒钻石开始，进入征召模式、玩家在对局之前需要先进行BP环节，系统会随机分配敌我双方玩家禁英雄（Ban）、选英雄（Pick）的顺序。禁英雄环节基本上没什么悬念，……几年后，詹姆斯退役，那么NBA谁接班几年后，詹姆斯退役，那么NBA谁接班众所周知，NBA每个时代都会有那么几个代言人，正如八十年代的伯德、魔术师，九十年代的乔丹，零零年代的科比等等，而詹姆斯毫无疑问是新时代……李章洙有问题回家总结，祝贺郑智取胜，希望他带领广州走出困境中超第14轮，广州队41大胜深圳队，后者遭遇3连败。李章洙与昔日弟子郑智作为主教练交手，赛后李章洙也大方送上祝福，并希望广州队能在郑智的带领下早日走出困境。至于深圳队目前的困难……郭富城与妻子方媛逛便利店，打扮低调像路人，方媛素颜出镜状态极近日，有八卦媒体拍到郭富城带妻子方媛一起逛便利店的画面，两人在便利店买了一些东西后，便离开了，这样的相处模式和普通夫妻毫无二致，不得不说两人太接地气了。褪去荧幕上的光环，……女子网购iPhone13Pro竟是安卓系统网友看到价格就知道据媒体报道，日前，来自湖北的刘女士网购了一台99新的iPhone13Pro，签收快递那天，快递员说货到付款，这让她感到很纳闷，因为她已经线上付款了。于是她联系店家，店家说弄错了……双碳背景下光伏行业有多火？光伏太阳能市场分析光伏太阳能市场分析2022近年来，随着技术进步，太阳能光伏装机成本连续下降、利用率逐年提升，平均发电成本大幅下降，相较于其他清洁能源太阳能光伏的综合优势更加凸显。光……一秒上眼影的效果会怎样？眼影是在自身眼形的基础上，通过颜色深浅的变化，打造更为深邃的眼窝，提升甚至是改变一个人的气场。但对广大化妆初学者不、哪怕是有了一定经验的妹子来说眼影，都是一个相当难以攻克的关卡……

<<<<<<－>>>>>>

如何对宠物狗训练教你有用的方法很多人会喜欢狗狗，那么狗狗要想和人一起生活，那么主人需要对它进行训练。狗狗养成好的习惯，才不会给主人添麻烦。那么如何训练狗狗才比较好，这里有你需要的方法！来源：站酷作者：……图小玉竹与玉竹的区别主要凸显在两个方面小编第一次听说玉竹，还是在古诗词里，今天要讲的玉竹是一味中药材哦！此外，还有一种和玉竹只差了一字的小玉竹，这二者有什么关系呢？它们的差别又是什么呢？提到这个名字，可能各位……图解析边牧太瘦了吃什么能胖点让爱宠更加健康的饮食边牧是很多人都喜欢的宠物，并且边牧也是非常懂事乖巧的狗狗。我们在饲养边牧的时候要注意到它的饮食问题，因为边牧营养不良会导致身材瘦小，所以需要引起重视。现在有很多的人都非常……图紫百合花语是什么不知含义千万别随便摘下一朵就送人你一定认识那一朵朵洁白的如玉脂，状像喇叭一样的花朵就是美丽的百合花。在园艺师的不断培植嫁接下，以白色为主的百合花也色彩缤纷起来。你了解各种颜色百合花的花语吗？如果你想要借……图小狗呕吐是怎么回事你找到答案了吗呕吐是养狗中较常见到的一种现象，很多朋友一看到自己的狗狗呕吐就害怕。很多时候，呕吐是狗狗的一种保护性反应，可将一些无法消化或者有害物质排出体外，一起了解一下。来源：图虫作……关于SARS2的十个问题，我们整理了20篇顶级期刊论文进行回过去一段时间，大家都在讨论关于SARSCoV2的各种问题，比如Omicron会重复感染吗？Omicron的致病性越来越弱吗？打疫苗到底有没有用？我们本着相信科学，相信Natur……图小狗拉稀呕吐怎么办应该采取什么措施现在很多家庭都会养宠物狗狗。可是遇到狗狗拉稀、呕吐问题，相信每个狗主人都会十分担心着急，甚至不知所措。但这个时候就不要太慌张。因为狗狗还需要我们的安抚和照顾。来源：站酷作……图紫荆花树桩盆景教你一些基本的小常识生活中人们往往会在家的周围弄一些盆景，就拿当下比较流行的紫荆花树桩盆景来说，关于这个盆景你又知道多少呢？紫荆花又是什么呢？它的种植方法是怎么样的？什么是紫荆花树桩盆景？它……图阿拉斯加雪橇犬和哈士奇的区别应该怎么区分如今，家家户户都会养宠物。大多数人养的宠物不是猫，就是狗。而活跃于表情包的哈士奇与阿拉斯加是许多人难以分辨得出的，其实这两种狗是同一种类的不同分支。对于那些不了解狗的人，……科学家从章鱼身上发现ampampquot一种全新的神经系统设八爪鱼与人类不同，它们是有八条手臂的无脊椎动物，与蛤蜊和蜗牛的关系更为密切。尽管如此，它们已经进化出复杂的神经系统，其神经元数量与狗的大脑一样多，使它们能够表现出广泛的复杂行为……7种被吹上天食物！却没太大的用，别再花冤枉钱了刘阿姨，你买这么多饼干干什么呀？小丽看着拿了好多包饼干的刘阿姨，忍不住开口问了问。你叔叔这几天胃病又犯了，我看电视上说，这种饼干养胃，就来多买点回家给你叔叔吃。刘阿姨开口……图银边天竺葵的叶片边缘发白这三个养护方法要知道银边天竺葵与日常所见的天竺葵是不同，它的叶片的边缘是银色的，原产自非洲的南部，现在在世界各地均有种植。它开花很美，而且花期长，花色艳丽，在花卉市场上很受欢迎。一、简介：……

友情链接：易事利快生活快传网聚热点七猫云快好知快百科中准网快好找文好找中准网快软网