临汾山东漯河饰品美体美文
投稿投诉
美文创意
爱情通信
用品婚姻
爱好看病
美体软件
影音星座
瑜伽周边
星座办公
饰品塑形
搞笑减肥
幼儿两性
智家潮品
漯河衢州
兴义眉山
桂林阳泉
玉溪简阳
山东遂宁
永城新余
梧州洛阳
泸州温州
临汾清远
营口常熟
浙江大连
桐乡宜昌

你所不知道的千人千面人群推荐算法深度解读正确认识

10月2日 听雨眠投稿
  关于千人千面的文章,去年夏天就承诺大家要写,一直拖到现在才动笔,很多人都在催,先给大家道个歉,因为我一直想盘算着基于算法层面来讲解,想把千人千面的工作原理讲透彻一些,但是又怕学术性太强,绝大多数读者读不懂,所以整理了很久,决定用学术性内容通俗易懂的场景讲解方式让大家理解。
  在日常与粉丝的交流中,我发现很多人对千人千面的理解都是错误的,这里举几个典型的错误理论供大家参考:
  1。刷单是可以控制精准人群的,也就是所谓的精刷。
  2。刷单的时候,通过提前收藏,加购,第二天或更长时间再成交,会让链接人群更精准。
  3。只要我用女性账号来刷单,就是女性标签,用宝妈账号来刷,就是宝妈标签。
  4。通过直通车人群溢价来刷单就会避免人群不精准问题。
  5。人群精准会让链接的权重更高。
  6。在不登录账号的情况下,我的搜索结果是没有千人千面的。
  以上的论点,在很多人心中都根深蒂固了,大多数人对人群标签的理解就止步于这里了,因为一些机构,民间的传播,所以造成类似这样的说法大行其道(大家会发现上面的举例大多跟刷单有关,其实这也是想告诉大家刷单是不可能保证人群的精准性的),但是,这些说法确实都是错的。可能大家觉得不可思议,那这些论点究竟是怎么错的呢,我们从推荐算法原理本身来给大家讲解,让大家认识什么是真正的千人千面,相信大家可以自行找到答案(如果看完文章还不能理解,可以再问我)。
  说到千人千面,人群标签这些名词,不得不说到推荐算法,这个数学与信息技术完美结合的伟大发明,它是基于用户行为的大量样本统计和协同过滤,对用户需求进行预测的技术。从买家角度而言,这种技术会让用户实现所想即所得,从卖家角度而言,可以扩展竞争维度,减少单一维度的竞争压力,让产品多样化,百花齐放。好,这只是个千人千面的概念,可能不太好理解,下面我们从场景中理解一下千人千面的存在。
  相信大家都有这样的体验,比如你坐月子的老婆给你打电话说家里的尿不湿不够用了,打开淘宝,首页就出现了尿不湿的推荐;比如你和朋友在微信聊汽车,微信朋友圈就开始推汽车广告。这些现象让我们感觉像个人信息泄露一样。
  其实像淘宝,微信这些工具,是不会窃取你的个人隐私的,是你的行为数据让平台知道你的需求。我们以淘宝的千人千面举例,在买家用户注册账号的时候,需要填写个人的性别,身份证号等信息,很多人认为这就是千人千面的依托数据,但这些数据并不可靠,且数据过于基础。淘宝会采集你更多的行为数据,比如你使用过的手机,上过的app,看过的新闻,打车的频率,发红包的金额次数,欠银行的贷款等等,这些都会构成你个人数以万计的事实标签。标签的采集是很容易的,难在模型的建立,如何通过标签模型来准确的预测用户的需求。我们拿淘宝首页内容板块为例,常规的行为推荐算法是类似这样的公式:内容访问权重行为权重时间权重衰减因子,行为权重:我们点击一篇内容,回复,点赞等行为,都会计入行为权重,根据平台积累的大数据,计算出了不同类目不同产品下的各种操作行为权重分数,在用户进行回复,点赞,收藏等行为时进行权重加分;时间权重:停留时间越长,时间权重也会越高;衰减因子:用户的单次行为不能作为用户喜好的直接评定,随着时间的推移权重也会慢慢衰减。
  由这样三个权重维度的综合计算得到了我们的内容访问权重,在我们多次访问同类型内容时,每次都会获得对应的内容访问权重,平台对这些权重进行累加,然后利用神经网络的阈值函数(Sigmoid函数
  )进行标准化
  ,得到一个阈值为(0,1)的结果,通常推荐算法标准化过程是对Sigmoid函数的变形公式,得出一个阈值位010的结果,也就是我们所说的质量分(直通车的质量分也是以这样的方法计算来的哦),权重(或说质量分)越高,内容板块推荐类似内容的比例和频率就会越高,这就是行为推荐算法(你的行为影响了你),值得一提的是,世界上所有推荐算法的处理过程都是类似如此的,没有太大差异。这个过程,也就是大家常说的打标签(比如我们搜索看过一个产品后,猜你喜欢就会推荐类似的产品,并且看过多种产品,猜你喜欢推荐的频次是不一样的)。
  但是这只是个人的行为推荐,比如我们在刷单的时候,让刷手提前浏览一下某个产品,第二天再去搜索,位置就会很靠前,很多人会想当然的认为这样会提高产品权重,其实只是这一个刷手看到的位置变高了,并不代表其他用户浏览结果下你的链接排名也会变高,是刷单者的一种错觉、误区!
  行为推荐结果本身是有一定的应用场景的,比如我们在使用推广工具(如直通车)时有浏览未购买的人群标签,这些场景下,使用行为推荐结果是有意义的,前提你的访客是真实的,而不是刷手,否则系统只会让你的刷手看的到你的链接,真实用户依然是看不到的。除此之外,我们更希望获得的是广大的新客,那在新客获得过程中,推荐算法又是如何发挥作用的呢?
  大家在开直通车的时候都知道,官方给提供了一系列人群包,比如年龄,性别等等,这些是作为用户的基础数据呈现的,但是,前面讲到的行为推荐结果难道就对千人千面没有作用吗?显然这是不可能的。平台会通过用户行为采集用户偏好,来把有相似需求的人整理到一起,进行关联推荐。下面我们说一下工作原理:我们每个人的行为偏好,都会以权重的形式记录在云平台,而一个人是会有很多偏好的,系统会把你的各种偏好转化成特征向量,比如你的消费能力,兴趣,社交偏好权重分别是3,6,7,那么你的偏好值会作为一个坐标点r(3,6,7)被存储在多维空间的数据模型中,然后把每个人的坐标带入余弦公式中,就可以计算出特征相似的人了。这样平台可以轻易的根据与你特征相似的人的购买行为来对你的浏览结果进行推荐,即使你没有过浏览行为,也是会给你推荐一些产品或内容的。这种推荐算法是要远比行为推荐给你的结果更有意义且更准确的,我们称为关联推荐算法(你的行为,影响了别人,别人的行为,也影响了你)。我们平时开直通车圈人群,搜索购买行为影响的人群,都是基于关联推荐算法的,而关联推荐算法的前提是行为推荐算法。
  然而,用户的行为特征与用户的基础数据是没有直接关系的,比如我们在开直通车的时候,传统的人群包里都是年龄,性别等这些维度的属性,而不是特征属性,而我们每个用户在产生行为的过程中,系统也并没有直接跟用户填写的基础数据做直接关联,我们用户的基础数据(年龄,性别等)为显式数据,称系统统计的用户行为特征数据为隐式数据,平台会根据大部分已知的显示数据与他们的隐式数据进行关联,然后训练未知的用户数据,来预测用户的显式数据是否正确,比如通过平台内所有相同特征的人来预测这些人是不是都是男性,大部分成熟平台这样的预测结果准确度现在都在90以上(换句话说,你用户填写的性别年龄数据,平台并不会当真,而是通过大数据确定的)!这样,再把显式数据作为商家可选标签用于选择和购买广告等,比如直通车选性别,年龄人群这些,是商家可选的显式数据,系统会对应找出这些人群的隐式数据关系,来推荐给你真正想要推荐的用户。这也解答了开始我们提出的一个问题,并不是你用宝妈人群刷单,就能打上宝妈人群的标签!
  到这里,推荐算法的原理和在平台内的使用场景,我们就已经基本掌握了,因为这篇内容学术性较强,可能很多人读到这里已经叫苦不迭了,没办法,就算大家读不懂,我也要先把原理给大家讲清楚,对于做过算法工程师的小伙伴来说,应该会好读的多。不过没关系,就算前面的内容你都没看懂,也不要紧,大家记住后面的内容就好了!
  首先,一切刷单的行为都是无法模拟系统对人群偏好的算法的,所以大家不要指望刷单的同时还能兼顾人群的精准,这是永远都不可能实现的!
  第二,用户标签是被动形成的,商品标签也是如此,在用户的购买过程中,才慢慢形成标签,千人千面固然重要,但是也不要把它过于神化,它只是对概率论与数理统计学科的应用过程,你的产品符合什么样的人群,是打娘胎里就定下的,而不是你能通过一些技术手段来改变的,你要做的不是找到更好的人群,而是找到匹配你产品的人群,这个人群是客观存在的。
  第三,人群标签在竞价系统中(比如搜索结果)并不是一种权重,竞价权重本身还是依赖产品产值的,只是比如在一个类目中有几款产品是符合同一种人群的,系统就会给这类人群优先推荐这几款产品,那么我们开直通车的时候,当这类用户搜索产品的一瞬间,系统会根据我们跟竞品的出价关系来决定先把哪个产品展现给用户而已。
  讲到这里突然想到一点,很多类目的刷单比例是很大的,那么在这些类目中,用户的特征收集势必是有很大误差的,所以这种时候哪怕我们通过付费开的人群是最适合这个产品的人群,也不一定能得到最好的数据,所以很多商家会感觉刷单多的类目,做付费推广好难。其实大家理解了原理后,只要知道,被动的去测试所有的人群条件,找到表现最好的人群来做就好了,而不要通过主观思想认为我的产品一定是男性标签,或者一定是高消费群体标签,这样在这种类目里,你的数据就能优化的好了。
  另外还想说的是,根据法律要求,推荐算法形成的商业广告是不允许定位到个人的,所以大家不用担心个人数据的泄露(即使泄露也不是因为推荐算法导致),同样因为这个原因,即使你不登录账号,你的操作行为依然会被平台采集,并且会关联你的硬件信息,方便下次行为推荐结果的推送。
  到这里,关于千人千面的原理,我想我已经讲得非常透彻了,可能大家会觉得很晦涩,但是只要反复读,一定是读得懂的。这篇文章能方便大家理解千人千面的工作原理,不会因为错误的认识而做出一些掩耳盗铃、看似有效实则无意义的行为,也不会被一些错误的方法所欺骗。也希望借助派代这个平台,能够结识到真正有共鸣的人做更多研究和讨论(感觉知音难求啊!)
  本文你所不知道的千人千面,人群推荐算法深度解读,正确认识人群!为卖家资讯编辑编创,转载请注明出处(本文转载于:卖家资讯http:www。maijia。comnewsarticle458004)
投诉 评论 转载

国产护肤品排行良心国货护肤品这些你都知道吗上海女人上海老牌子护肤品从个护到彩妆都有在做不过最出名的当然是雪花膏啦南方很多大大小小的店都有卖很多从北方来的游客都会买回去当伴手礼价格是真……粉底霜和霜的区别分辨两者就这五点从质地上看粉底霜和BB霜的区别粉底霜的质地多为厚重的膏状或霜状,比起BB霜没有那么好推开,流动性也不如BB霜。BB霜则多为乳液状质地,流动性不算太高。从遮瑕力上看粉……求职面试个经典面试问题回答思路面试时该怎么回答你我仔细看了一遍,感觉总结的挺好,推荐给大家。本站编辑面试过程中,面试官会向应聘者发问,而应聘者的回答将成为面试官考虑是否接受他的重要依据。对应聘者而言,了解这些问题背后的……兼职的工作需要注意什么2018的暑假假期又要到来了,相信各位从高中毕业的小伙伴和大学的同学们都想要为下学期的学费做点准备,下面来看看兼职应该注意什么吧。操作方法01:hr尽量选择在生活里……决战直通车权重敲响低价引流的战鼓这期【大人物】分享的话题是直通车如何更好的引流?我们之前说到测完款可以根据数据分析出有发展优势的宝贝,然后可以进行推广了。在测试期间,以及在推广之前有一件很重要的事情,需……你所不知道的千人千面人群推荐算法深度解读正确认识关于千人千面的文章,去年夏天就承诺大家要写,一直拖到现在才动笔,很多人都在催,先给大家道个歉,因为我一直想盘算着基于算法层面来讲解,想把千人千面的工作原理讲透彻一些,但是又怕学……金三银四每到这个季节负责招聘的们都忙成了狗金三银四,每到这个季节,负责招聘的HR们都忙成了狗。年底和年初各大公司纷纷传出裁员的消息,虽然更多的是结构性调整,但还是会优化掉一些员工,所以,需要新鲜血液的加入。……看懂个故事不管创业还是做生意都能精进你的思维赚钱在当今商业社会,不管创业还是做生意,只有那些拥有创新能力和精神的人,才更容易成功过,更容易赚钱,也才更有可能在残酷竞争中立于不败之地。以下就分享三个靠创新赚钱的小故事,激活你的……过节给领导发祝福短信微信你千万注意我就开门见山了。1。如果你群发的短信没有具体内容,是那种大家传来传去的普适性的群发祝福短信,那你就别发了。比如我怕三十晚上的祝福太多,你会看不到我的问候,我怕初一的……梅香自从苦寒来江梅唐杜甫梅蕊腊前破,梅花年后多。绝知春意好,最奈客愁何?从张仲谋乞腊梅宋黄庭坚闻君寺后野梅发,香蜜染成宫样黄。不拟折来遮老眼,欲知春……多铎怎么死的多铎的简介生平事迹介绍如何死的爱新觉罗多铎(16141649年),清太祖努尔哈赤第十五子,阿济格、多尔衮同母弟,镶白旗旗主,时人通称十王,清初八大铁帽子王之一,爵位世袭罔替。顺治六年(1649年)三月十八日……清朝哪个皇帝最可恶说到清朝的皇帝们要说谁最可恶,这个问题也是非常有意思的一个问题的,那么有的人要问了,问题很有意思,那么真正最可恶的皇帝到底是谁呢?其实我们也不妨仔细的分析揭秘看看,更多的也欢迎……
如何通过超检查是否怀孕产前孕妇吃什么对分娩最给力周族的祖先究竟居住在什么地方妊娠纹痒痒怎么缓解这回事就这么办茶圣说的是谁陆羽是哪个朝代的人智商测试题怎么做哪些乐器适合孩子学习女孩子的初夜一定会流血要提前做好准备学校晨午检制度汇编妹子都喜欢的这个功能你车上有吗中国最美丽的小城凤凰古城风景图片微信中这三个功能越早知道越好不然吃亏的杂粮粥好喝又好做,方法用对了,再难煮的杂粮都不怕洋州三十景其七待月台ThinkPadP1Gen3发布可选4K600nit屏,20有哪些当初觉得不好看的男明星,现在越看越有魅力?酒店说我损坏地毯需赔两千,经理听我说的话后不仅道歉还免了房费家长学会闭嘴,孩子才能学会管理时间2019微信说说心情句子静守一份安然,淡墨红尘,默然相爱,寂夫妻性生活不和谐的4大危害激动的一天图片报法院驳回图赫尔申请,写有解雇原因的邮件并非公开从古今一脉看优秀传统文化的当代价值世界上有两种人,能管住自己的和管不住自己的

友情链接:中准网聚热点快百科快传网快生活快软网快好知文好找