浅谈推进淘宝搜索算法排序系统的三个方面
简单的来说,淘宝搜索排序的目的就是为了帮助用户快速的找到需要的商品。从技术上来说,就是在用户输入关键词匹配到的商品中,把最符合用户需求的商品排到第一位,其它的依次排在后续相应的位置。淘宝为了更好的实现这个目标,算法排序系统上也基本是按三个方面来推进:
一、算法模型
当用户输入关键词进行搜索的时候,系统依据算法模型来给匹配到的每个商品进行实时的计算,并按照分数的大小对商品进行排序。
对于好的算法模型,首先需要考虑我们能够有哪些特征因子可以应用。比如在网页搜索中,算法模型基本就是按网页的重要性和相关性给网页计算一个分数, 然后进行排序。这里的相关性,和重要性就是网页排序模型中两个重要的因子。具体来说相关性因子是指搜索关键字在文档中出现的度数,当这个度数越高时,则认为该文档的相关程度越高。重要度因子比如Google的Pagerank,可以理解为一个网页入口超级链接的数目:一个网页被其他网页引用得越多,则该网页就越有价值。特别是一个网页被越重要的网页所引用,则该网页的重要程度也就越高。
考虑淘宝搜索的时候,有些特征因子是很容易能想到的,比如:
A、文本的相关性:关键词和商品的匹配,匹配的程度,是否重要词的匹配,匹配词之间的距离等,都可能影响相关性。比如搜索“小鸭子洗衣机”的时候, 一个商品的中心词是洗衣机的要比卖洗衣机配件商品的相关性高,小鸭子连在一起的相关性要比“小”和“鸭子”分开时候的相关性高等。文本相关性最基本的计算方式可以参考《揭秘最新淘宝搜索排名规则》等。
B、类目热点:淘宝数据的一个重要特质是每个商品都挂靠在类目属性体系下面,每个商品都做了一个很好的分类。在搜索过程中,同一搜索词的大量用户行为数据很容易聚焦到相应的热点类目,比如“手机”的搜索行为会集中到手机类目,而不是配件类目。
C、图片质量:图片是电子商务网站非常重要的一个数据,图片是否精美吸引人,图片上是否有各种各样的“牛皮癣”,和商品匹配度等都很大程度上影响着用户的点击和购买决策。
D、商品质量:每个商品都有不同的质量,商品的描述真实性,是否物美价廉,受人欢迎的程度等。
E、作弊因子:类似于全网搜索有关键词堆砌,link spam,网页重复等等作弊的问题,电子商务搜索也面临同样的问题,比如商品关键词堆砌,重复铺货,重复开店,广告商品引流等等,也有商品特有的问题如价格作弊,交易作弊等,需要利用统计分析或者机器学习来做异常行为,异常规律的发现和识别并运用到排序中。
F、公平因子:淘宝的商品很丰富,每个搜索词下都有足够多的商品在竞争,需要在相似质量的情况下让更多的商品和卖家有展示的机会,而不是像网页搜索一样是一个基本静态的排序,照成商品点击和展示的马太效应。
类似的商品,卖家,买家,搜索词等方面的特征因子有很多,一个排序模型就是把各种各样不同的特征因子组合起来,给出一个最终的关键词到商品的相关性分数。只用其中的一到两个特征因子,已经可以对商品做一些最基本的排序。如果有更多的特征参与到排序,我们就可能得到一个更好的排序算法。组合的方法可以有简单的人工配置到复杂的类似Learning to Rank等的学习模型。
那么我们有该如何评估衡量不同算法之间的优劣呢?
二、线下评估
算法模型的评估一般分为线下的评估和线上的评估,线下的评估很多都体现在搜索中常用的相关性(Relevance)指标。相关性的定义可以分为狭义相关性和广义相关性两方面,狭义相关性一般指检索结果和用户查询的相关程度。而从广义的层面,相关性可以理解为用户查询的综合满意度。当用户在搜索框输入关键词,到需求获得满足,这之间经历的过程越顺畅,越便捷,搜索相关性就越好。
在淘宝搜索衡量狭义相关性的时候,一般是使用PI(Per Item)测试的方法:
A、抽取具有代表性的查询关键词,组成一个规模适当的关键词集合。
B、针对这个关键词集合,从模型的产出结果中查询对应的结果,进行人工标注(人工判断为相关性好,中,差等)。对人工评测的结果数据,使用预定义好的评价计算公式比如DCG等,用数值化的方法来评价算法模型的结果和标注的理想结果的接近程度。
马海祥觉的利用人工标注数据来计算相关性的分数,来判断模型的好坏,在这个过程中人工不可避免的会有主观的判断,但综合了多人的判断结果还是可以获得一个有统计意义的结果,另一方面标注数据也可以帮助我们找到一个算法表现不理想的地方,有针对性的提升。
广义的相关性线下评测比较困难,受人工主观因素的影响更大,一般使用SBS(Side by Side)的评测方法,针对一个关键词,把两个不同算法模型产出的结果同时展示在屏幕上,每次新模型和对比模型展示的位置关系都是随即的,人工判断的时候 不知道哪一边的数据是新模型的结果,人工判断那一边的搜索结果好,以最终的统计结果综合来衡量新模型和老模型的搜索表现。
线下评测的方法和指标有很多,不同的搜索引擎会关注不同的指标,比如以前Yahoo的全网搜索引擎比较关注RCFP(Relevance,Coverage,Freshness, Perspective)等,淘宝搜索线下评测时候一般统计DCG和SBS的指标。
线下的评测方法从统计上有一定的指导意义,能从一定程度上区分模型的好坏,但要真正验证算法模型的好坏,还需要接受真实的流量来验证。
三、线上测试
为了真实验证一个算法模型的好坏,需要有一个系统能提供真实的流量来检验。淘宝搜索实现的BTS(Bucket Testing System)系统就是这样的一个环境,在用户搜索时,由搜索系统根据一定的策略来自动决定用户的分组号(Bucket id),保证自动抽取导入不同分组的流量具有可对比性,然后让不同分组的用户看到的不同算法模型提供的结果。用户在不同模型下的行为将被记录下来,这些行为数据通过数据分析形成一系列指标,而通过这些指标的比较,最后就形成了不同模型之间孰优孰劣的结论。马海祥认为只要分组的流量达到一定的程度,数据指标从统计意义上就具有可比性。
不同的BTS系统会关注不同的数据指标,在淘宝搜索,有一些重要的指标是很多算法模型测试的时候关注的:
a、访问UV成交转化率:来淘宝搜索的UV,最终通过搜索结果成交的用户占比。
b、IPV-UV转化率:来淘宝搜索的UV,有多少比例的用户点击了搜索结果。
c、CTR:搜索产生的点击占搜索产生的PV的比例。
d、客单价:每个成交用户在淘宝搜索上产生成交的平均价格。
e、基尼系数:基尼系数是一个经济学名词,考量社会财富的集中度;如果社会财富集中到很少一部分富人手中的时候,基尼系数就会增大,社会的稳定性和可持续发展性就会出现问题;淘宝搜索借用了这个概念来衡量搜索带给卖家的PV展示,和点击的集中度,在保证用户体验的前提下,给更多的优质或小小而美的卖家展示的机会。
据马海祥博客收集的数据来看,大部分时候淘宝都有好几个模型和功能在线上测试,用BTS的方式来观察测试的情况,如果提升稳定就逐渐开放给所有用户,如果没有提升,淘宝也能从中获得经验,以便更大的程度上来理解用户的使用行为。
本文发布于马海祥博客文章,如想转载,请注明原文网址摘自于https://www.mahaixiang.cn/taobaoSEO/255.html,注明出处;否则,禁止转载;谢谢配合!您可能还会对以下这些文章感兴趣!
-
如何提升店铺信誉等级与淘宝刷单技巧的10个标准
在网上一直流传着这样一句话:10个淘宝9个刷,还有一个做批发,相信对于这句话,对于各位淘宝主来说也都耳熟能详了。其实刷单简单来说,它就是一种用数据假象的形式来欺骗淘宝,而获得更多流量的方式。既然刷单仅仅是一种方式,那就没有什么对错的。就好像你让买家收到……【查看全文】
-
揭秘最新淘宝搜索排名规则
前段时间有个朋友问我淘宝搜索排名还能通过seo优化提上去,问如何能快速提高淘宝搜索排名?做过淘宝的朋友都知道淘宝现在主要按照人气宝贝来排名,毫无疑问,打造更多的人气宝贝,明星产品是关键,推什么卖什么,我认为这就是网络销售的一个特点,那人气是否是决定排名……【查看全文】
-
关于淘宝直通车常见的一些问答
众所周知,直通车是一种烧钱的广告模式,所以在决定开车之前最好先了解其操作的基础,如直通车的质量得分如何计算、直通车的关键词如何选择、如何出价、如何提高点击率、如何提升转化率等等。不然,没有任何基础地盲目开通直通车,只会白白地浪费银子。没有消费者会喜欢……【查看全文】
-
开直通车的淘宝店主该如何获取自然流量?
现在很多卖家,一直期待着店铺能够获取自然流量,这样的流量,店铺不需要做什么,而是买家通过搜索,店铺自然排名展现在买家眼前,进入店铺中,但是这样的流量如何获取,如何获取较大量的流量,让卖家纠结其中。单独依靠免费流量,展示的是店铺基础好,但宝贝的销量不能……【查看全文】
-
如何快速提升淘宝搜索排名
淘宝上有几百万的卖家,根据二八原则,20%的卖家占了80%的交易,可能在淘宝搜索的比例比这个还要高,15%的卖家,占了80%的交易,在论坛上,经常有人在说,我们中小卖家生意没法做了,淘宝不关心我们,其实这个理解完全错了,大卖家之所有得到更多的流量,就是因为他们更……【查看全文】
-
关于淘宝标题关键词组合规则的一些SEO知识问题
标题一般大家都是很按照自己的想法去起的,但是标题非常影响搜索排名,如果你的标题起得不好,就算你的产品再好,宝贝详情页再完美,也是徒劳无功。词选好以后,就是标题组合这个环节,一路走过来我看到很多同学都在为标题组合而纠结,把它想的非常复杂,走进去就出不来……【查看全文】
-
通过流量公式原理获得淘宝免费自然搜索流量的小技巧
不管是刚做淘宝,还是做淘宝有一段时间的卖家朋友,都知道流量对于一个宝贝或店铺的重要性。关于流量的文章有很多,但是今天我给大家分享的是自然流量的原理,就是说我们店铺的流量从哪儿来?我觉得,从原理上认识自然流量是非常有必要的,也能帮助到大家更好地增加自然流量……【查看全文】
-
如何做好淘宝类目流量的优化策略
对于淘宝店主和淘宝客来说,淘宝SEO和类目流量一直就是一个热门话题,因为其流量精准不说,而且免费长期,在当前淘宝付费推广越来越昂贵的今天,简直是一个流量“金矿”,因为不可控因素很多,加上不稳定,所以关于淘宝SEO和类目流量,说的人也就多了起来,因为好多都是……【查看全文】
-
2017年淘宝天猫的新规变更公示通知
随着时代的变化,网购的人越来越多,而真正的好产品却是少的可怜,伤了的顾客是一茬接一茬的,我们选着最多的网购平台就是大街小巷都知道的“淘宝”“天猫”等,它们都出过很多的规定,保证了买家和卖家的利益,今天就一起来看看,淘宝规定又怎么变了,作为卖家的您,有……【查看全文】
-
如何从SEO的角度来做淘宝店铺及直通车的标题优化
做淘宝的都知道自然流量的重要性,而宝贝标题如何设置对于自然流量来说则是重中之重,买家在逛淘宝的时候基本都不会漫无目的,大部分买家都会根据自己的喜好在淘宝搜索里进行搜索,这个时候宝贝标题的关键词就起到了决定性作用,宝贝关键词设置的越详细,越热门越贴近……【查看全文】
-
开网店真的不需要成本吗?
一入淘宝深似海,进去之后就发现各种成本和压力,各种潜规则明规则,让你应接不暇。淘宝就是个围城,做的人很苦逼,但城外的人觉得那才是未来。大家都认为,做淘宝,成本低是优势,但是,如果所有人都拥有这个优势的时候,就不叫优势了,最终就会演变成恶性竞争。 ……【查看全文】
-
解析美丽说网站的SEO优化推广策略
淘宝客是指通过互联网帮助淘宝卖家推广商品,并按照成交金额获得佣金的人或者集体。他们在淘宝联盟中找到卖家发布的产品,并且推广出去,当有买家通过自己的推广链接成交后,那么就能够赚到卖家所提供的佣金。 而对于众多的草根淘宝客来说,美丽说可以说是淘宝客的一个传奇了……【查看全文】
-
淘宝客新手如何从零开始学习做网络推广
很多淘宝客新手觉得做淘宝客一定要建个网站,其实不然,没有网站照样可以做淘宝客,只要有方法,没网站也可以做得好,作为新手,应该多去摸索方法,而不是纠结网站,再说,就算给你一个网站,你会打理吗,会SEO吗?会推广吗?有了网站也不代表就可以等着收钱,什么都不……【查看全文】
-
如何以SEO的角度来做淘宝搜索排名
其实当我们去淘宝买东西的时候,我们的搜索结果也是因为淘宝自身也相当于一个购物的搜索引擎,所以淘宝也有自己的排名规律。既然淘宝也有它的排名机制,那我们也就可以用SEO的方法让你的产品的排名靠前了。可我们有该怎样做淘宝SEO,让自己店铺流量和人气大增呢?可能会……【查看全文】
-
解析淘宝直通车优化技巧和策略
有人或许还不知道什么是淘宝直通车?其实淘宝直通车是为淘宝卖家量身定制的,按点击付费的效果营销工具,实现宝贝的精准推广。简单的来说:淘宝直通车推广,在给宝贝带来曝光量的同时,精准的搜索匹配也给宝贝带来了精准的潜在买家。淘宝直通车推广,用一个点击,让买家……【查看全文】
-
为什么淘宝越来越难做了?
现在肯定很多卖家都在抱怨淘宝越来越难做了,流量越来越难得到了,其实99%的卖家没有意识到问题的本质在哪里?其实,本质在于客户数据库控制!淘宝整体流量下降是不争的事实,微信京东唯品会等等的竞争分流;淘宝上市资本市场的压力趋势淘宝逐利,这些逐利很多时候是看……【查看全文】
阅读:841关键词: 淘宝 日期:2017-03-08 -
淘宝怎么刷单才能安全快速提升排名
淘宝刷单被这么多人推崇是因为人人都在刷,你不刷肯定被人淘汰出去的,而且刷单并不是什么有违道德问题,只要淘宝卖家能保证到产品质量的前提下还是说得过去的,就算淘宝官方如何打压、打击这种刷单造假网店,还是这么多人刷,因为淘宝刷单已经成为了一种风气,一种最快……【查看全文】
-
淘宝客服与顾客沟通交流技巧和销售技巧
虽然现在电商市场规模仍然处于高速增长阶段,但是多变的市场和消费行为给电商们不断带来新的挑战和机遇;有的电商把握住风向大获成功,有的则因错失机遇而被市场淘汰。一个企业的营销体系是需要不断的完善的,营销的核心层次是文化,文化的营销并非是一件容易的事情,需……【查看全文】
-
2014年淘宝有那些新的策略变化
近日,阿里巴巴副总裁,淘宝网负责人语嫣发布了2013至2014淘宝年度战略,将未来淘宝的整体核心战略命名为自己的舞台,自由的舞蹈,此举吸引了大批淘宝卖家以及电商创业者的眼光,其中大家最为关心的就是这个活跃着数百万中小卖家的平台,将会推出什么样的新举措,个人卖……【查看全文】
-
淘宝新手怎么刷单才不会被降权?
如今对于一般淘宝新商家来说,刷单已无可厚非,这已经变成了淘宝中小新卖家存活唯一出路。你不刷,排名就会一直靠后,排名越靠后,就越没有销量、评分。店铺各项指标上不去,活动你都没办法参加,然后,你就被淹没在淘宝大军之中。那么作为一个淘宝刷单新手,怎么刷单才……【查看全文】
分类目录
互联网更多>>
- 企业云计算中存储必备的9大要素 在最近对云计算的所有关注中,存储更多地被视为基础平台。时至今日,许多云计算提供的仅仅局限于CPU内核的集合……
- 自然语言处理的单词嵌入及表征方法 本这篇文章里,综述了在自然语言处理(NLP)上应用深度神经网络得到的一些效果极其显著的成果,但我写这篇文章……
- 关于大型网站架构的负载均衡技术详解 负载均衡是将负载(工作任务,访问请求)进行平衡、分摊到多个操作单元(服务器,组件)上进行执行,是解决高……
SEO优化 更多>>
-
巧用nofollow和tags让收录暴涨
很多人在博客里看到nofollow这个词我想第一时间会…… -
关于Google排名新算法的探索研究
目前,关于Google排名算法有两种主要理论。一种…… -
如何使用留言评论进行推广引流
随着新媒体的快速发展,留言评论变得随处可见…… -
什么是白帽seo?
白帽seo 白帽SEO就是采用公正的手法,正确的SEO的…… -
网站常用的10个免费推广方式的优点和
网站SEO优化推广的关键是要让网站本身流量大起…… -
头条搜索上线啦:今日头条正式改版
今天在电脑端打开今日头条,想看一些新闻信息…… -
移动端页面SEO优化需要注意的10个要点
如今,移动互联网已经成为互联网组成的非常重…… -
由移动搜索市场份额来看百度在移动
百度在手机搜索市场取得的市场份额,得益于百……