幼儿饰品瑜伽美体用品微软
投稿投诉
微软创意
爱情通信
用品婚姻
爱好看病
美体软件
影音星座
瑜伽周边
星座办公
饰品塑形
搞笑减肥
幼儿两性
智家潮品

五分钟了解搜索原理

  本篇文章是对于搜索系统工作原理一个整体的介绍,对于原理的理解,是设计系统举重若轻的基础。
  1。信息和信息量
  在介绍搜索之前,先介绍两个概念:信息和信息量。
  (采用的均是自以为比较通俗易懂的解释,如果感兴趣可以读相关书籍)
  1。1信息是减少不确定性的东西,信息也是增加确定性的东西。
  前半句是香农信息定义,后半句是逆香农信息定义。举个栗子,回想下,和一个异性交往的过程。在你遇到TA之前,你不知道这个世界上有这个人的存在,后来你看到了TA的样子,后来你了解了TA的性格、口头禅,往事。然后一步一步,你对TA从丝毫不了解,到逐渐熟识。这期间就是一个你不断获取TA信息的过程,正是这些信息,让你从完全不确定TA是怎样的人,到完全确定TA很适合你。
  1。2信息量是一个信息能减少不确定性的度量,信息量也是一个信息能增加确定性的度量。
  关于信息量,有很多数学的描述,但是通俗来讲,可以这么简单理解。举个栗子,证人描述嫌疑犯。A证人的信息是他是个男人。B证人的信息是TA是个高中男生,C证人的信息是TA是个长发170左右的高中生。D证人的信息是我认识他,他是学校的扛把子陈浩南。我们直觉能感受到信息量的大小关系为:Aamp;lt;Bamp;lt;Camp;lt;D。显然这是正确的。
  翻译为计算机可以理解的数学逻辑:当地男人的比例是50,当地高中男生的比例为8,当地长发170左右的高中男生的比例是4,当地叫陈浩南的扛把子的比例是0。0001。因为P(A)amp;gt;P(B)amp;gt;P(C)amp;gt;P(D),所以信息量的大小关系为:Aamp;lt;Bamp;lt;Camp;lt;D。
  2。搜索的产品逻辑
  搜索满足了用户迅速找到自己感兴趣内容的需求。用户输入一个query,搜索系统根据用户的输入的信息,筛选出系统认为用户感兴趣的内容,同时按照系统认定的重要性进行排序展示。请注意这个表述,简单而言,搜索可以分为三步。
  Step1:对用户输入信息的解读
  Step2:根据用户输入信息对内容进行筛选
  Step3:对筛选后的结果进行排序
  而要了解这三步怎么在搜索系统中完成,就需要先了解搜索的服务器怎么存储信息。
  3。搜索数据的存储原理
  上一张图,假设我们做了一个新闻网站,那么它的结构就是下图。内容进行了简化,假设一个新闻,文本只有标题,导语,正文。数据只有阅读量,评论数,分享数。
  图11
  差不多就是上图右边的这种结构。右边标识的是新闻内容的存储:就像图书馆的书一样,整整齐齐按顺序排好,方便查找(这个存储结构的名字叫做索引,就是来自于图书馆的用语)。左边是词库:只要一次搜索的输入词能匹配到词库,就可以快速的查找词库到对应的内容。
  每个搜索系统都有自己的词库,无法对应到分词的搜索行为就会没有结果。每个搜索系统都会根据目标用户的不同,有对应的一套词库,就像字典一样,《冶金专业词典》和《生物学大辞典》收录的词条是不同的,知乎的词库和淘宝的词库也不同。搜索的很多优化都是集中在词库的优化上。
  简单总结下,搜索的存储原理就是:一个系统词库,一个排列整齐的内容索引库,同时系统词库和内容索引库之间可以快速关联。
  在这个搜索系统的储存结构的基础上,我们提到的搜索三步骤将依次展开。
  4。Step1:对用户输入信息的解读
  前面提到,搜索的词库是有限的,但是用户的输入却是没有限制的。那么怎么把无限制的搜索转化为有限的词库,并且匹配到对应的结果呢?这里需要介绍一个新的概念:分词,简单来说就是对输入字符串进行分拆。
  同样以【图11】中的新闻搜索系统为例。如果用户输入的query为中国的转基因食物,系统中其实没有这个词。如果没有分词功能,这个搜索就会立即结束,即使系统里确实有对应的内容。分词的工作原理是在无法精确匹配的情况下,会对用户的输入进行进一步的拆分。于是我们得到了下面的结果。
  中国的转基因食物中国、的、转基因、食物。
  并不是所有的词都有信息量,如果召回的‘’的结果,那么几乎所有的新闻内容里面都会有这个字,召回这么多结果显然是不对的。比如这个query里的的,这个词实际上在分词系统中会被直接忽略掉。正是因为出现在内容中的概率不同,一个词出现的新闻越多,这个词的信息量就越小,信息量太小的词会被忽略,也就是停用词。同时包含信息量越大的词的新闻内容,会更更要。那么去掉停用词之后,结果就进一步简化。
  中国的转基因食物中国、转基因、食物。
  经过处理,用户非标准的query就被转化为标准的词库,就可以快速找到对应的内容了。如【图11】所示。
  5。Step2:根据用户输入信息对内容进行筛选
  经过对用户的query解读之后,其实就得到了一些标准化的词,而这些词就会对应一些搜索目标内容,接下来就是对于内容的筛选。
  用户进行了一次搜索,一部分结果被搜索了出来。那么所有的内容根据内容是否相关、内容是否被召回两个维度,就被分为了四部分。
  召回的相关内容:搜索出来的内容中,和用户搜索相关的部分。
  召回的不相关内容:搜索出来的内容中,和用户搜索不相关的部分。
  未召回的相关内容:没有搜索出来的内容中,和用户搜索相关的部分。
  未召回的不相关内容:没有搜索出来的内容中,和用户搜索不相关的部分。
  搜索一般而言,决定是否筛选出来,会从两个角度衡量,准确率,和召回率。
  准确率就是所有搜到的内容里面,相关的内容的比例。准确率:
  召回率就是所有应该搜到的内容里面,真正被搜出来的比例。召回率:
  准确率和召回率是一对存在矛盾的指标。需要权衡。最终衡量会取两个的调和平均数作为目标函数。即F值:
  这三个概念在搜索优化中是关键性指标,牵扯到人工打分和更高级的优化。这里不展开更多。我们只需要记住一点:并不是所有的包含用户query关键词的结果都应该被召回。
  6。Step3:对筛选后的结果进行排序
  排序影响着搜索的结果质量,越往前的结果约容易获得用户的点击。好的搜索不仅仅是把应该搜索的内容尽可能的搜索出来,同时还要考虑应该把最容易吸引用户的内容展示在前面。
  搜索排序比较大的基础逻辑是通用的:
  用户输入一个文本转化为标准词库中的词,搜索系统根据每个具体内容是否包含这些词决定是否展示这些内容,同时搜索系统根据文本相关性给这些要展示的内容一个分数。而最终排序则根据每个内容的分数排序。
  这个Lucene的的核心排序公式的原理,网上有介绍。但是实际的情况其实更为复杂。还是以我们之前提到的新闻搜索系统为例(方便理解,再贴一遍图)
  如果用户搜索转基因,那么这个转基因的文本出现在标题中,还是出现在导语中,还是出现在正文中,体现在分数上应该是不一样的。显然出现在标题中应该有更高的分数。同样也需要考虑业务数据,比如一个阅读量10万的帖子和一个阅读量3的帖子相比,即使阅读量低的帖子文本相关性更强,但是显然10万的帖子应该在前面。
  其实所有的数据都可以分为两类,文本和数据。文本用于计算内容的相关性,这部分的打分交给Lucene成熟的算法解决,目前市面上也都有成型的开源解决方案。而怎么处理文本之间的关系,以及数据之间的关系,才是一个搜索系统设计最核心的部分。
  以基于Lucene的Solr系统为例,文本和数据配置代码其实很简单。在lt;strnamebfgt;和lt;strnameqfgt;标签中只需要几行代码就能完成。lt;strgt;lt;strgt;
  lt;strnamebfgt;中是对于业务数据赋予权重。lt;strgt;
  lt;strnameqfgt;中是对于文本数据赋予权重。lt;strgt;
  在研究过Solr系统这个机制之后,对Solr核心公式进行变形,就得到了一个公式:
  代表针对文本,我们给出的文本分数权重。比如这个系统中有三种文本,标题,导语,正文。根据重要性,标题权重为10,导语权重为5,正文权重为1。
  代表针对文本,Lucene算法给出的文本相关性分数,这个会综合考虑文本的字数,这个搜索词在所有文本中出现的概率等等因素(想进一步了原理的同学,可以看下TFIDF与余弦相似性的介绍)。
  代表针对数据,我们给出的数据权重。比如这个系统中有三种数据,评论量,分享数,阅读量。根据重要性,标题评论数权重为100,分享数权重为200,阅读量权重为1。(一般而言会引入时间衰减性,这里暂不讨论)
  代表针对数据,具体的值。比如这个系统得三种数据,评论量,分享数,阅读量。
  代表归一化系数,意味着权重可以给的非常大,最后总的分值也会在一个合理的范围内。
  是本次根据算法索引判断出的。代表本次打分,用户输入query提供信息的信息量大小。如果输入query提供了越多的信息,则S越大。
  增加,不变,之前的系数不变,之前的系数增加。而代表文本数据的对整体分数的贡献,则越大,就说明文本数据相比于业务数据就占有更大的权重。比如:输入北京国庆交通拥堵,和输入交通拥堵相比,北京国庆交通拥堵提供给了系统更多的信息,S值更大,文本的打分在总分数汇总占比越大。
  所以我们可以看到,其实最终影响排序的,是我们对于文本数据和业务数据的赋予的权重,即:代表针对文本的权重,和代表针对数据的权重。
  这两组数据,影响了搜索最终的排序,而这组数据的赋值,正是搜索系统的对业务的理解。
  7。小结
  本篇文章是对于搜索系统工作原理一个整体的介绍,对于原理的理解,是设计系统举重若轻的基础。

掌握视觉层级原则优化用户体验在本文中,我们将全面解析UX中视觉层级的关键原则,探讨如何使用视觉层级来改进产品并优化用户体验。自设计之初,我们已经使用它来传达重要的信息。设计中的每个元素都应有助于改善……如何才能早发现儿童糖尿病呢对于家族中有糖尿病史的胖宝贝,需要父母平时注意观察,要格外留心。如果家族中有糖尿病遗传倾向,或宝贝是小胖墩,要定期带宝贝检查血糖、尿糖,做到无病早防,有病早治。那么,如何才能早……孕期上班安全攻略随着职业女性越来越多,孕期坚持上班的也大有人在,孕妈咪怎样做到既可以继续上班,又可以给宝宝最大的呵护呢?孕期上班安全攻略虽然一边怀孕,一边工作有不少好处,但也有不少……鸡被催眠原理是什么鸡为什么会被催眠网络上流传一种给鸡催眠的方法,大家好奇鸡为什么会被催眠,其实这是一种障眼法,鸡之所以会有这样的表现主要是鸡的一种假死状态,是人为刺激引起的,鸡觉得自己的生命受到了威胁所以陷入了……怎样保持婚姻中的角色弹性夫妻双方在家庭里,有着各自不同的角色地位。相对丈夫来说,你的角色是妻子;相对儿子来说,你的角色是母亲;而相对于父母来说,你的角色是女儿或儿媳。由于传统文化的影响,塑造了人……游泳叮铃铃电话响了。太好啦!弟弟约我去黄岩游泳馆游泳,我带上泳衣、泳帽、泳镜便出发了!我们来到游泳馆,一穿好泳衣就往游泳池里跑。这个游泳馆真是够标准,分好几个泳池,深度不一,……避孕套怎么应用才恰当怎样使用避孕套?你确实会用避孕套?前不久有权威部门报导称有14的人不容易使用避孕套!猜疑这一数据信息?那么就看来一下避孕套怎么使用才正确?日常生活并并不一定男士都是正确使……哪三种化妆品成分致癌虽然说彩妆技术可以让你实现变美的愿望,但是不少彩妆品却暗藏着美丽危机。有很多化妆品成分是有可能影响身体健康,甚至致癌,所以美眉们为了美丽和健康兼得,必须要知道有哪些化学成分有毒……热水器爆炸怎么办近日,一篇报道电热水器水中藏电竟成索命幽灵?再度引起消费对电热水器产品安全的高度关注,多网友直呼电热水器也会爆炸,通过对专家的咨询得到的答案是没错,电热水器也有可能会爆炸,少数……文案不能说服消费者因为你不懂这个经典路数人们更在意得到,还是更在意失去?在文案中是强调后果,还是渲染前景?先思考一个小问题:如果要让朋友戒掉抽烟的习惯,以下两种方式,哪种更有说服力呢?赶紧把烟戒了吧,万一……立案侦查造句用立案侦查造句大全31、云南华恒律师事务所主任曾维昶也认为,此次暗访记者的遭遇完全符合被诈骗的构成要件,丽江当地公安机关应当立案侦查。32、岳阳县技监局在处理一起农网改造中的假冒伪劣电线案……儿童生长发育迟缓原因及治疗儿童的生长发育迟缓是一个比较广泛的概念。这其中包括了体格生长的迟缓,青春期出现发育迟缓或者不发育的现象,这其中还包含了精神运动的发育异常。接下来小编就带您了解一下儿童生长发育迟……
记忆中的茉莉花我站在阳台上,欣赏着洁白的茉莉花。茉莉花虽然小小的一朵,却十分清香,看起来纯洁而又天真,不由得让我想起了那天遇到的那位小女孩。那天,奶奶叫我去扔垃圾。我提着垃圾,往楼下走……荼蘼花语荼蘼是百花之后绽放的鲜花,其花语含义为末路之美,代表着繁华褪去只留下一片孤独与寂寥,含有悲伤之意。可将其送给美丽的女孩称赞其气质高洁令人喜爱,也可送给分手的恋人,谢谢对方陪伴的……中层大企业病的原罪冬天将至。而经济寒冬也不期而至。很多企业自觉切换到过冬模式,改变过去遍地开花的发展模式,将不遗余力地压减成本、精简机构作为当前头等大事来抓,积极探索开启新一轮组织结构转型……长江证券以客户为中心打造智能服务体系为客户提供高附加值的个性化服务已经成为券商向财富管理转型的重要路径选择。2015年,中国互联网金融进入余额宝热潮之后的第二波高涨时期,A股牛市刷新7年纪录,两者叠加,带来……油库安全管理有哪些方法安全管理是油库整个管理过程中的关键环节,是油库其他各项工作得以顺利进行和实现企业经济效益的根本保障。而油库数质量管理工作,是推动油库管理工作水平和技术革新工作不断发展的源动力,……无止境造句用无止境造句大全241、作为一名中医大夫,你们不觉的惭愧么?医术,学无止境。242、“革命八十年一腔正气毋骄毋谄未负党员称号,学问无止境数卷诗文有风有骨可供后人品评。243、潜儿当……秋水作墨写书香无论是谁的一生,都离不开书的陪伴。在书中我们懂得了真善美,懂得了人生的哲理,得到了世界上最高尚的精神享受。书是人类的精神导师,书的魅力是历经千万年也不会消逝的,书香陪伴着我们的……爱爱秘籍如何插入让女人快速享受性高潮性爱是人类社会中最美妙的一件事。掌握一些性技巧对提升夫妻感情致关重要。对于某些女人和男人而言,性生活的背后隐藏着深深的忧虑。她们也许仅仅对性的某个方面感到不适,也许根本就……矮胖造句用矮胖造句大全61、难怪矮胖的男子如此难对付,原来是个小头目,而且这家伙身上果然丰厚,有一扎钞票,三十几块银洋,还有一个白色的打火机,一个宽厚的腰带。62、一个身穿酱色茧绸袍子,矮矮胖……古训名言古人重视人品的八个标准我们都知道,在古代因为当时的人们受儒家文化的影响非常深厚,所以对人的品德方面非常看重,对于个人人品的判断也是出现了八个标准,专门用来评判你是否是个品行良好的人。其实这些标准放到……我推荐的一本好书暑假,我的妈妈从菏泽市小作家协会买来一套历史书籍:《少年读史记》。我看过之后非常喜欢。在此,我向大家推荐这套好书,希望大家也像我一样爱上这部历史著作。《史记》是西汉史学家……老婆过生日的短信1、祝你生日快乐!你的才干使这个世界变得更加美好,愿这完全属于你的一天带给你快乐,愿未来的日子锦上添花!2、只有懂得生活的人,才能领略鲜花的娇艳,只有懂得爱的人,才能领略……
友情链接:易事利快生活快传网聚热点七猫云快好知快百科中准网快好找文好找中准网快软网