幼儿饰品瑜伽美体用品微软
投稿投诉
微软创意
爱情通信
用品婚姻
爱好看病
美体软件
影音星座
瑜伽周边
星座办公
饰品塑形
搞笑减肥
幼儿两性
智家潮品

爱奇艺个性化推荐排序实践

  在海量的内容在满足了我们需求的同时,也使我们寻找所需内容更加困难,在这种情况下个性化推荐应运而生。
  在当前这个移动互联网时代,除了专业内容的丰富,UGC内容更是爆发式发展,每个用户既是内容的消费者,也成为了内容的创造者。这些海量的内容在满足了我们需求的同时,也使我们寻找所需内容更加困难,在这种情况下个性化推荐应运而生。
  个性化推荐是在大数据分析和人工智能技术的基础上,通过研究用户的兴趣偏好,进行个性化计算,从而给用户提供高质量的个性化内容,解决信息过载的问题,更好的满足用户的需求。
  爱奇艺推荐系统介绍
  我们的推荐系统主要分为两个阶段,召回阶段和排序阶段。
  召回阶段根据用户的兴趣和历史行为,同千万级的视频库中挑选出一个小的候选集(几百到几千个视频)。这些候选都是用户感兴趣的内容,排序阶段在此基础上进行更精准的计算,能够给每一个视频进行精确打分,进而从成千上万的候选中选出用户最感兴趣的少量高质量内容(十几个视频)。
  推荐系统的整体结构如图所示,各个模块的作用如下:
  用户画像:包含用户的人群属性、历史行为、兴趣内容和偏好倾向等多维度的分析,是个性化的基石
  特征工程:包含了了视频的类别属性,内容分析,人群偏好和统计特征等全方位的描绘和度量,是视频内容和质量分析的基础
  召回算法:包含了多个通道的召回模型,比如协同过滤,主题模型,内容召回和SNS等通道,能够从视频库中选出多样性的偏好内容
  排序模型:对多个召回通道的内容进行同一个打分排序,选出最优的少量结果。
  除了这些之外推荐系统还兼顾了推荐结果的多样性,新鲜度,逼格和惊喜度等多个维度,更能够满足用户多样性的需求。
  推荐排序系统架构
  在召回阶段,多个通道的召回的内容是不具有可比性的,并且因为数据量太大也难以进行更加精确的偏好和质量评估,因此需要在排序阶段对召回结果进行统一的准确的打分排序。
  用户对视频的满意度是有很多维度因子来决定的,这些因子在用户满意度中的重要性也各不相同,甚至各个因子之间还有多层依赖关系,人为制定复杂的规则既难以达到好的效果,又不具有可维护性,这就需要借助机器学习的方法,使用机器学习模型来综合多方面的因子进行排序。
  排序系统的架构如图所示,主要由用户行为收集,特征填充,训练样本筛选,模型训练,在线预测排序等多个模块组成。
  机器学习的主体流程是比较通用的,设计架构并不需要复杂的理论,更多的是需要对细节,数据流和架构逻辑的仔细推敲。
  这个架构设计吸取了以前的经验和教训,在通用机器学习的架构基础上解决了两个问题:
  训练预测的一致性
  机器学习模型在训练和预测之间的差异会对模型的准确性产生很大的影响,尤其是模型训练与在线服务时特征不一致,比如用户对推荐结果的反馈会实时影响到用户的偏好特征,在训练的时候用户特征的状态已经发生了变化,模型如果依据这个时候的用户特征就会产生非常大的误差。
  我们的解决办法是,将在线服务时的特征保存下来,然后填充到收集的用户行为样本中,这样就保证了训练和预测特征的一致性。
  持续迭代
  互联网产品持续迭代上线是常态,在架构设计的时候,数据准备,模型训练和在线服务都必须能够对持续迭代有良好的支持。
  我们的解决方案是,数据准备和模型训练各阶段解耦,并且策略配置化,这种架构使模型测试变得非常简单,可以快速并行多个迭代测试。
  推荐机器学习排序算法演进
  上古时期
  我们第一次上线机器学习排序模型时,选用了比较简单的LogisticRegression,将重点放到架构设计上,尽量保证架构的正确性。除此之外,LR模型的解释性强,方便debug,并且通过特征权重可以解释推荐的内容,找到模型的不足之处。
  在模型训练之前,我们首先解决的是评测指标和优化目标的问题。
  评测指标(metrics)
  线上效果的评测指标需要与长远目标相匹配,比如使用用户的投入程度和活跃度等。在我们的实验中,业界流行的CTR并不是一个好的评测指标,它会更偏向于较短的视频,标题党和低俗内容。
  离线评测指标是按照业务来定制的,以便与在线评测指标匹配,这样在离线阶段就能够淘汰掉无效策略,避免浪费线上流量。
  优化目标(objective)
  机器学习会按照优化目标求解最优解,如果优化目标有偏差,得到的模型也存在偏差,并且在迭代中模型会不断地向这个偏差的方向学习,偏差会更加严重。
  我们的方法是给样本添加权重,并且将样本权重加到lossfunction中,使得优化目标与评测指标尽可能的一致,达到控制模型的目的。
  LR是个线性分类模型,要求输入是线性独立特征。我们使用的稠密的特征(维度在几十到几百之间)往往都是非线性的,并且具有依赖性,因此需要对特征进行转换。
  特征转换需要对特征的分布,特征与label的关系进行分析,然后采用合适的转换方法。我们用到的有以下几种:PolynomialTransformation,LogarithmicorExponentialTransformation,InteractionTransformation和CumulativeDistributionFunction等。
  虽然LR模型简单,解释性强,不过在特征逐渐增多的情况下,劣势也是显而易见的。
  特征都需要人工进行转换为线性特征,十分消耗人力,并且质量不能保证
  特征两两作Interaction的情况下,模型预测复杂度是。在100维稠密特征的情况下,就会有组合出10000维的特征,复杂度高,增加特征困难
  三个以上的特征进行Interaction几乎是不可行的
  中古时期
  为了解决LR存在的上述问题,我们把模型升级为Facebook的GBDTLR模型,模型结构如图所示。
  GBDT是基于Boosting思想的ensemble模型,由多颗决策树组成,具有以下优点:
  对输入特征的分布没有要求
  根据熵增益自动进行特征转换、特征组合、特征选择和离散化,得到高维的组合特征,省去了人工转换的过程,并且支持了多个特征的Interaction
  预测复杂度与特征个数无关
  假设特征个数n160决策数个数k50,树的深度d6,两代模型的预测复杂度对比如下,升级之后模型复杂度降低到原来的2。72
  GBDT与LR的stacking模型相对于只用GBDT会有略微的提升,更大的好处是防止GBDT过拟合。升级为GBDTLR后,线上效果提升了约5,并且因为省去了对新特征进行人工转换的步骤,增加特征的迭代测试也更容易了。
  近代历史
  GBDTLR排序模型中输入特征维度为几百维,都是稠密的通用特征。
  这种特征的泛化能力良好,但是记忆能力比较差,所以需要增加高维的(百万维以上)内容特征来增强推荐的记忆能力,包括视频ID,标签,主题等特征。
  GBDT是不支持高维稀疏特征的,如果将高维特征加到LR中,一方面需要人工组合高维特征,另一方面模型维度和计算复杂度会是O(N2)级别的增长。所以设计了GBDTFM的模型如图所示,采用FactorizationMachines模型替换LR。
  FactorizationMachines(FM)模型如下所示,具有以下几个优点:
  模型公式
  前两项为一个线性模型,相当于LR模型的作用
  第三项为一个二次交叉项,能够自动对特征进行交叉组合
  通过增加隐向量,模型训练和预测的计算复杂度降为了O(N)
  支持稀疏特征
  这几个优点,使的GBDTFM具有了良好的稀疏特征支持,FM使用GBDT的叶子结点和稀疏特征(内容特征)作为输入,模型结构示意图如下,GBDTFM模型上线后相比GBDTLR在各项指标的效果提升在46之间。
  典型的FM模型中使用userid作为用户特征,这会导致模型维度迅速增大,并且只能覆盖部分热门用户,泛化能力比较差。在此我们使用用户的观看历史以及兴趣标签代替userid,降低了特征维度,并且因为用户兴趣是可以复用的,同时也提高了对应特征的泛化能力。
  我们主要尝试使用了LBFGS、SGD和FTRL(FollowtheregularizedLeader)三种优化算法进行求解:
  SGD和LBFGS效果相差不大,LBFGS的效果与参数初始化关系紧密
  FTRL,较SGD有以下优势:
  带有L1正则,学习的特征更加稀疏
  使用累计的梯度,加速收敛
  根据特征在样本的出现频率确定该特征学习率,保证每个特征有充分的学习
  FM模型中的特征出现的频次相差很大,FTRL能够保证每个特征都能得到充分的学习,更适合稀疏特征。线上测试表明,在稀疏特征下FTRL比SGD有4。5的效果提升。
  当代模型
  GBDTFM模型,对embedding等具有结构信息的深度特征利用不充分,而深度学习(DeepNeuralNetwork)能够对嵌入式(embedding)特征和普通稠密特征进行学习,抽取出深层信息,提高模型的准确性,并已经成功应用到众多机器学习领域。因此我们将DNN引入到排序模型中,提高排序整体质量。
  DNNGBDTFM的ensemble模型架构如图所示,FM层作为模型的最后一层,即融合层,其输入由三部分组成:DNN的最后一层隐藏层、GBDT的输出叶子节点、高维稀疏特征。DNNGBDTFM的ensemble模型架构介绍如下所示,该模型上线后相对于GBDTFM有4的效果提升。
  DNN模型
  使用全连接网络,共三个隐藏层。
  隐藏节点数目分别为1024,512和256。
  预训练好的用户和视频的Embedding向量,包含基于用户行为以及基于语义内容的两种Embedding。
  DNN能从具有良好数学分布的特征中抽取深层信息,比如embedding特征,归一化后统计特征等等。
  虽然DNN并不要求特征必须归一化,不过测试发现有些特征因为outlier的波动范围过大,会导致DNN效果下降。
  GBDT模型
  单独进行训练,输入包含归一化和未归一化的稠密特征。
  能处理未归一化的连续和离散特征。
  能根据熵增益自动对输入特征进行离散和组合。
  FM融合层
  FM模型与DNN模型作为同一个网络同时训练。
  将DNN特征,GBDT输出和稀疏特征进行融合并交叉。
  使用分布式的TensorFlow进行训练
  使用基于TensorFlowServing的微服务进行在线预测
  DNNGBDTFM的ensemble模型使用的是Adam优化器。Adam结合了TheAdaptiveGradientAlgorithm(AdaGrad)和RootMeanSquarePropagation(RMSProp)算法。具有更优的收敛速率,每个变量有独自的下降步长,整体下降步长会根据当前梯度进行调节,能够适应带噪音的数据。实验测试了多种优化器,Adam的效果是最优的。
  工业界DNNranking现状
  Youtube于2016年推出DNN排序算法。
  上海交通大学和UCL于2016年推出ProductbasedNeuralNetwork(PNN)网络进行用户点击预测。PNN相当于在DNN层做了特征交叉,我们的做法是把特征交叉交给FM去做,DNN专注于深层信息的提取。
  Google于2016年推出WideAndDeepModel,这个也是我们当前模型的基础,在此基础上使用FM替换了CrossFeatureLR,简化了计算复杂度,提高交叉的泛化能力。
  阿里今年使用attention机制推出了DeepInterestNetwork(DIN)进行商品点击率预估,优化embedding向量的准确性,值得借鉴。
  总结
  推荐系统的排序是一个经典的机器学习场景,对于推荐结果影响也十分重大,除了对模型算法的精益求精之外,更需要对业务的特征,工程的架构,数据处理的细节和pipeline的流程进行仔细推敲和深入的优化。
  Ranking引入DNN仅仅是个开始,后续还需要在模型架构,Embedding特征,多样性,冷启动和多目标学习中做更多的尝试,提供更准确,更人性化的推荐,优化用户体验。
  End。

不做造句用不做造句大全211。坚持公道正派,要坚持不做跑风漏气的泄露者,不做小道消息的传播者,不做封官许愿的讨好者,不做搬弄是非的坏事者,不做言不由衷的虚伪者,不做信口开河的胡说者,不做人云亦云的学……如何彻底消除饭店厨房的蟑螂现在常用的有效方法有投放灭蟑螂毒饵、喷洒杀虫药、涂抹杀蟑螂粉笔、撒药粉、施放杀虫烟雾等、,根据实际情况选择使用。除了用化学方法杀灭害虫的方法外,灭蟑螂也可用粘捕盒、诱捕瓶等物理……小猴学本领今天是星期六,小猴想学本领,它决定去找小兔子学本领。它来到小兔子的院子里,发现这里百花盛开,小树发芽,小草给小树穿上了绿色的新鞋子,真漂亮。小猴子穿过美景,来到小兔……就让造句用就让造句大全31、有了这种房屋不但可以给我们遮风挡雨,也可以为我们防火灾、抵御洪水、避地震。这种房屋的警惕性很高,只要有危险在身边,它就会自动移道一个安全的地方。还有它的防震能力很强,十来……对宝宝有帮助的早期教育有哪些早教到底教什么?帮助孩子认识自己和世界,建立起基本的信任观。早教的说法很流行,但到底什么是早教呢?早教绝不是提早教,不是提前让小宝宝去学习本应该在学龄期掌握的抽象知……全球首个载人自动驾驶飞行器亮相最大速度【智车派新闻】11月19日21日,2020中国5G工业互联网大会在武汉举行。大会期间,全球首个载人级自动驾驶飞行器AAV216在5G工业互联网成果展示展厅中亮相。据了解,……花钱给孩子补课不如背熟这份资料胜过万语文学习一直讲究的就是基础知识的积累,特别是在小学时期,正是孩子打基础的关键阶段。若是没有一个扎实的基础,那么在后面的语文学习中一定会相当的吃力。最近,也有很多家长向我反……餐前还是饭后阿司匹林到底怎么吃阿司匹林这个常用药,相信大家一定不陌生。针对阿司匹林怎样吃才能不伤胃的问题,一直存在争论。那么,到底这个药该餐前吃还是餐后吃呢?其实,答案并不简单。阿司匹林只有一种吗?你……溥仪造句用溥仪造句大全【溥仪py】:溥仪(19061967):清朝末代皇帝。满族。爱新觉罗氏。1908年登位,年号宣统。1912年2月退位,仍居皇宫。1917年张勋拥其复辟,旋失败。1924年被废除……批评家造句用批评家造句大全(31)批评家认为一些银行的条款和费用让人们还账困难。(32)批评家认为,政府任人唯亲,向公司配备难以胜任的官吏。(33)批评家称国家考试不公平,因为它认定的是工薪……男人健身减肥方法大全现在的男人也越来越重视自己的身材,减肥已经不是女生的专利,我们经常能听到身边的男士抱怨自己太胖,甚至能看到一些被肥胖困扰的男生朋友向女生一样每天只吃一个苹果。但是怎样去做才能达……自媒体平台有哪些有哪些适合新手做的自媒自媒体平台近年来呈现出爆发式增长的趋势,大大小小的自媒体平台多达几十家。一、自媒体大致分为四种类型综合类:百家号、头条号、企鹅号、搜狐号、微信公众号、微博、知乎等。……
孩子从来不是被说服的读后感摘抄《孩子从来不是被说服的》是一本由天津人民出版社著作,56。00出版的251图书,本书定价:平装,页数:20211,特精心从网络上整理的一些读者的读后感,希望对大家能有帮助。……深受600万妈妈的青睐,小蓝象儿童排汗睡衣,所有宝宝的诞生礼小蓝象第6届宝宝关爱周圆满落幕5月23日6月1日期间,小蓝象成功举办了第6届小蓝象宝宝排汗关爱周活动,邀请了众多家长和宝宝来到各大专柜现场,体验高……如何让孩子更优秀这么做孩子会让孩子更优秀在家庭教育里,有一个著名的教育法则,叫做罗森塔尔效应,也叫做期待效应。这来源于一个令人震惊的故事:从前有一个世界级的大骗子,叫罗森塔尔,他是世界著名的心理学家。有一次他到一个学……想生男孩的孕前准备夫妻在满足这状态下易生男孩【想生男孩的孕前准备】生儿生女是很难以控制的一件事情,一般是由男性所给的精子决定的。很多因素都会影响胎儿的性别,夫妻双方的身体条件也会影响生儿生女的几率。有的夫妻都想要男宝宝,……收视女王赵丽颖衣品大提升最新街拍摆脱某宝买家秀大家都知道,赵丽颖是收视女王,而且赵丽颖演技很赞,小骨帮她打开知名度,成为炙手可热的小花旦,不过赵丽颖衣品却被不少网友诟病,尤其是私服搭配,总是一股某宝买家秀的风格,与时尚圈完……如何打破天猫美妆格局天猫美妆的涅盘重生之路很多人都觉得旗舰店很光鲜吧,有大把的资源,很有钱的品牌商无所谓每年动辄上千万的广告投放!大量的新品首发,品牌团,天猫专题可以让这些旗舰店活的很滋润;生下来就是在糖罐里长大的富二……文字的请求1、凤对姐说:你离我远点,我可不想成为丑女人。2、国对足说:你离我远点,我可不想遗臭万年。3、小对三说:你离我远点,我可不想跟着你过偷偷摸摸的日子。4、走对狗……鸟儿的哭泣我是一只小鸟,一只普普通通没人注意的小鸟,我从小时候的雏鸟慢慢长成一只存着漂亮羽毛的成年鸟了,我在一棵高大的树上,一个存着四个分叉的树枝上做了一个牢固,漂亮,又舒适的一个窝,我……我的小台灯由于我视力下降,国庆节,妈妈花了600元给我买了一盏护眼台灯。这盏台灯全身上下都是白色的,看起来一尘不染。从远处看,它的外形就像数字7。它由灯头、灯臂、底盘、发光区域和触……赵丽颖刘诗诗江疏影高圆圆女星夏天怎么穿白色衣服?赵丽颖刘诗诗江疏影高圆圆近期时尚街拍,小编发现最近女明星们清一水的都穿上了白色衣服,夏天白色本来就是主打,不如学学她们是怎么搭配吧,大家赶紧来偷师几招。赵丽颖刘诗诗江疏影高圆圆……2016亚洲十美出炉赵丽颖排第一杨幂林允儿刘诗诗上榜历时三个多月,2016年亚洲十美排行榜终于出炉,赵丽颖力压众女星成为十美之首,杨幂、刘诗诗等女星也进入前五,而之前大热门的郑爽,却未入前十。第一名赵丽颖凭借2015……平凡的荣耀吴恪之结局是什么吴恪之是谁演的电视剧平凡的荣耀即将播出了,吴恪之是剧中的男主之一,他是一个有着深厚经验的经理,但是性格却十分的耿直傲慢,当他遇到空降的实习生之后,两个人会产生怎样的故事?吴恪之结局是什么呢?……
友情链接:易事利快生活快传网聚热点七猫云快好知快百科中准网快好找文好找中准网快软网