运营数据中常见的数据陷阱
当下的时代已经是一个真正的大数据时代,而互联网产品达到亿级的用户量,甚至十亿级的用户量,都已经不鲜见了,产品的迭代方向,用户行为的分析都要用数据说话,产品经理、运营人员想要做出正确的决定,要比以往任何时候都更加依赖数据。
如今,“大数据”的概念已经被炒得沸沸扬扬,不可否认,现在的各个领域的数据确实是越来越多了,人们的数据意识也正在增强,尤其是在积累相对容易的电商行业,但面对众多的运营数据,你真的能有效的将其应用吗?先不谈各种复杂的计量模型,先从几个简单的统计学概念入手,提醒大家:数据有陷阱,应用需谨慎。
1、算术平均数的局限性
算数平均数,即几个数字相加后除以个数,这也许是大家仅有的对平均数的理解,但其实平均数还有很多,比如中位数、几何平均数、众数等等。
对此,我们先来看一个例子:某店铺一段时间的营业额数据如下:该店铺12期销售额的算数平均数是300,但有10期数值都在300以下,这样的数值合理吗?前10期的算数平均数仅是210,和300相去甚远,显然后面两期的数值对整体的拉升作用明显。
来个更极端的例子,三个人的年收入分别是3万、3万和300万,但算数平均是102万,原本是两个?丝和一个高帅富,可一平均后大家都成了高帅富,大家很多时候吐槽统计数字有水分,其实这就是算术平均数的陷阱。
那么,怎样获得更准确的平均数呢?有人说,“去掉最大值,去掉最小值”,这方法没错,但略显粗暴,我们介绍几个更科学的计算方式。
先看中位数,中位数即将数列从小到大排列后,取中间位置的那个数字作为平均数,若数列是偶数,则取中间两位数的算数平均,例1的中位数是200,显然比300要来的合理的多。
其次是众数,即出现频率最高的那个数。
最后介绍下几何平均数,若要求5个数字的几何平均数,则将这5个数连乘后开5次方,例1中的几何平均数是268,也要比300更接近真实水平。
目前普遍在用的算数平均数,受极值的影响很大,其准确性是值得管理者们注意的,马海祥建议管理者将中位数也应用起来,对算数平均的判断起辅助作用,若两者相差过大,则需要找到极值产生的原因。
在EXCEL中,中位数、众数和几何平均数的函数分别是MEDIAN、MODE和GEOMEAN,应用起来非常方便。
2、引入定基比率
目前大家比较熟悉的是同比增长率和环比增长率,同比增长率能够排除掉季节性的因素,反映出较为实质性的增长,而环比能够连续地、动态地反映出指标的变化,但仅有这两个指标有时候是不够的。
比如,去年和今年市场行情相差很大,那么同比(今年与去年同期比)的参照性就很不可靠,而环比只看到了这期和上期的差异,若相隔的期数多了,就很难判断现在的状况如何,怎么办?大家不要忘了定基比率,即将固定的某期设为基数,其后各期该期进行对比。
比如某店铺今年1月至12月的销售额数据为(10,12,13,16,18,13,17,19,18,20,25,22),我们将1月数据设为基数100,其后各期与之的比值即为定基比数据(100,120,130,…,250,220),马海祥认为定基比有时更能反映出某段时间的经营成果,比如某项改革从1月开始了,那就将各种运营指标以1月为基期,以后各月与它对比,便能直观反映这项改革带来的效果(具体可查看马海祥博客《如何以客户为中心进行数据挖掘与分析》的相关介绍)。
3、绝对的排名不一定可靠
某天你孩子向你报告考试成绩,说考了第9名,你是高兴还是愤怒?先别急着下论断,得先问问几个人考试,若是500人,那你必然赐予拥吻和礼物;而若是10个人,你八成会赏个巴掌,这就是绝对数字排名的局限性。
那么,我们用个百分比数值来代替之,就免去了这样的尴尬,即排名数值除以总的参与排名的个数,比如我经营50款产品,某款产品销售额排在第8位,那就表明它排在16%。
要多说一点的是,在百分比的排名中,需重视四分位数,即25%,50%,75%三个档次,许多指标的优劣都会以四分卫数来衡量,比如你的转化率在行业内的前25%以内浮动,那你暂时不用担心,将精力放在其他方面,若低于25%了,那你或许要花力气来提升你的转化率了。
4、不要被漂亮的增长曲线蒙蔽
对于许多中小型的电商企业,经营的第一步便是冲销售额,因此粗放经营是普态,对各种指标的大起大落习以为常,有了漂亮的增长业绩,稳定性真的不重要吗?马海祥不这么认为,尤其是成本,稳定各项成本是对企业发展的一种蓄力。
比如采购成本,许多企业判断其采购成本的唯一指标便是算数平均数,其弊端在上文中已经指出,而对稳定性的认识只停留在人的主观感受或采购曲线的波动上,马海祥建议电商们计算方差指标,即EXCEL中的VAR函数,方差越大,表示该指标稳定性越差。
一般来说,一个健康的企业,不管销售额如何变化,其成本的稳定性(绝对值较稳定或者变化率较稳定)会较强,即方差较小,稳定性变差,一般预示着重大变化的来临,面对越来越饱和的市场和越来越激烈的竞争,电商企业急需关注自己运营的稳定性,尤其是与供应链各个环节相关的稳定性,如采购成本、推广费用、物流费用等等,任何指标若变得不稳定了,就该警惕,找出背后的原因(具体可查看马海祥博客《如何通过大数据来获取商业价值》的相关介绍)。
5、不要太在意活动中的数据
马海祥有幸观察过一个日化店铺的数据,老板非常想知道什么因素对销售额的影响最大?在对其运营数据进行回归分析后,发现做活动的次数和时长对其销售额都没有影响(统计不显著),唯一有影响的是客单价,客单价越低销售额越高。
乍看之下,这个结论着实有些让人无语(因为谁都知道),但模型显示,客单价每降低一元,总销售额提升100多,鉴于其高于50%的毛利率,降价一元可以总体上多赚50块,但是总销售额是万元级的,因此多赚的50元微不足道,所以总体上看,销售额似乎是一个不受人为控制的指标(自然波动),这似乎是一个谜题。
但促销活动的不显著是值得我们思考的,当然,也许是我们遗漏了某关键的指标,也许仅仅有客单价、促销次数、促销天数、转化率、UV、熟客率等指标是不够的,但不妨自问,我们很多时候是不是太过看重促销和推广了呢!
6、数据的“假规律”和“伪相关”
数据越大未必就能带来更高的预测率,甚至还会带来“假规律”和“伪相关”,比方说:搜索2005至2015年间的美国汽车销售与“印度餐馆”,结果发现二者之间竟然存在相关关系,这个东西显然是无法解释的,那么,伪相关的原因是什么呢?
首先,相关性并不意味着因果关系,比方说:Google Flu Trends对趋势的预测并非屡试不爽,有几次Google Trends就严重高估了流感病例的数量,包括2011/12的美国流感,2008/09瑞士流感,2008/09德国流感、2008/09比利时流感等。
英国伦敦大学学院的研究人员对此进行了研究,结果发现,到Google搜索“流感”的人可以分成两类:一类是感冒患者;另一类是跟风搜索者(可能是因为媒体报道而对感冒话题感兴趣者)。
显然第一类人的数据才是有用的,其搜索是内部产生的,独立于外界的,因此这些人的搜索模式应该与受到外界影响而进行搜索的人的模式不同,而正是第二类人的社会化搜索使得Google Flu Trends的预测失真,这正是因为Google Flu Trends把搜索“流感”与得流感的相关性当成了因果关系所致。
而稍早前美国东北大学与哈佛大学的研究人员对Google Flu Trends的失真案例进行的另一组研究则认为,这反映出了热炒大数据的氛围下诞生的一股大数据自大思潮,这股思潮认为,大数据完全可以取代传统的数据收集方法,其最大问题在于,绝大多数大数据与经过严谨科学试验和采样设计得到的数据之间存在很大的不同,首先,大未必全;其次,大则可能鱼龙混杂。
此外,Google搜索算法本身的变化也有可能影响到Google Flu Trends的结果,这个原因不难理解,要知道,Google搜索的调整非常频繁,单去年就进行了890项改进,其中就有不少属于算法的调整,媒体对于流感流行的报道会增加与流感相关的词汇的搜索次数,也会令Google增加相关搜索的推荐,从而令一些本身并不感冒的人也对流感产生了兴趣,进而把数据弄脏。
对于清洗数据,归根到底还是需要对数据进行模式分析,在流感趋势这个例子,研究人员认为,执行独立搜索的患流感人群的模式会随着时间推移而异于社会化搜索,其表现应该是在流感爆发时搜索急剧攀升,然后随着流感消失而缓慢下降,相反,社会化搜索则会表现得更为匀称,数据表明,在Google流感趋势出现高估的时候,趋势曲线的对称性的确更高。
这说明在分析大数据时必须要注意此类陷阱,充斥的大数据集以及统计学家对分析结果的传播会令真实的数据被放大或弄脏。
马海祥博客点评:
其实,数据的价值并不仅仅体现在其大小和精准度上,利用创新性数据分析方法去分析数据才是本质,在未来数据能够逐步成为真正的大数据,并且数字世界与实体世界的映射趋于一致时,大数据也许就能发挥其完全的威力,乃至于改变我们解决问题的方式。
本文发布于马海祥博客文章,如想转载,请注明原文网址摘自于http://www.mahaixiang.cn/sjfx/1309.html,注明出处;否则,禁止转载;谢谢配合!上一篇:2015年用户体验行业调查报告的重点解析
下一篇:什么样的数据分析对网站才有价值?
您可能还会对以下这些文章感兴趣!
-
大数据环境下衍生出的营销思路或策略
“大数据”的概念距问世已经有39年了,而大数据营销的时代在前几年才得以到来,这种基于数据协同和深度计算的个性化营销正在用其巨大而全面的影响力改变着营销的格局和战略方向。淘宝每天处理数以万计的交易数据,Facebook每天接待40亿访客,在互联网这种领域,……【查看全文】
-
数据分析的流程及分析方法
数据分析是指通过建立审计分析模型对数据进行核对、检查、复算、判断等操作,将被审计单位数据的现实状态与理想状态进行比较,从而发现审计线索,搜集审计证据的过程,在实用中,数据分析可帮助人们作出判断,以便采取适当行动,数据分析的目的是把隐没在看来杂乱无章……【查看全文】
-
零基础学习数据地图的制作与分析
有时在实际工作中会碰到这种情况,即数据与地名有关,这时虽然也能用Excel的图表来表现,但如果能将数据和地图结合起来,将会收到更加好的效果,应用地图来分析和展示与位置相关的数据,要比在Excel中单纯的数字更为明确和直观,让人一目了然,数据地图就是解决此类问题……【查看全文】
-
解读2014年中国移动互联网用户行为洞察研究报告
2014中国移动互联网用户行为洞察报告旨在协助行业上下游相关人士了解用户行为的最新动向,全面透析用户的媒体使用习惯、新媒体使用方式、对移动广告的接受程度以及移动广告如何影响用户的购买决策。更多移动互联网用户将手机作为他们首选或唯一的上网工具。……【查看全文】
-
预测2020年数据中心行业发展的10个趋势分析
岁末年初正是对未来一年数据中心行业发展进行预测的时候,人们将会看到一些事情的到来:云计算的兴起、SSD硬盘的发展,以及其他问题,例如许多企业将业务从云平台遣返回到内部部署数据中心。而专家对数据中心行业的预测可能偶尔会带来一些惊喜。随着大数据行业和技术的发展,企业需要改善内部部署数据中心和云计算资源之间的平衡,在服务器上采用人工智能技术,并努力有效地管理数据蔓延。行业媒体通常会对未来一年进行预测,像往常一……【查看全文】
-
大数据时代下的第三方数据公司和甲方公司的差异
现在是一个大数据时代,人人嘴边都挂着数据创造价值、数据挖掘等一些热词。各公司内部也逐渐认识到数据的重要性,纷纷成立数据部门,期待数据可以真正的为业务服务。另外,也有一些专做数据服务的第三方公司不断涌现,希望能帮助产生数据的甲方分担数据分析的担子,挖掘……【查看全文】
-
分析解读数据的真正目的是什么?
最近我在马海祥博客上新开了一个数据分析专栏,主要是通过平时的一些数据解析来合理科学的提高网站的各项指标的。可能一说到数据,可能就会立马让人想到是数字、图表、模型、方程等容易让人怯步的词语。其实做数据分析的真正目的和意义,是躲在背后的那些人。 在营销学……【查看全文】
-
如何以客户为中心进行数据挖掘与分析
数据挖掘与分析可以说是信息领域发展最快的技术,很多不同领域的专家都从中获得了发展的空间,使得数据挖掘成为企业界讨论的热门话题,随着信息技术的发展,人们采集数据的手段越来越丰富,由此积累的数据日益膨胀,数据量达到GB甚至TB级,而且大数据也成为数据分析主流……【查看全文】
-
关于用户调研数据分析中常见的一些误区
近期和一些做用户研究的人员进行了交流,发现很多做这个行业的人都对自己所做的工作有些迷茫,报告写了很多,数据也分析了很多,但是却感觉对产品的实际运营帮助不大,甚至分析出来的结果和实际情况比偏差很大。其实用户研究并不是一个新兴的领域,在很多传统行业,用户……【查看全文】
-
分类型数据可视化的操作方法及案例分析
在当前互联网,各种数据可视化图表层出不穷,本文尝试对数据可视化的方法进行归纳,数据可视化可以将海量数据通过图形、表格等形式直观反映给大众,降低数据读取门槛,可以让企业通过形象化方式对自身产品进行营销。数据可视化技术的基本思想,是将数据库中每一个数据项……【查看全文】
分类目录
互联网更多>>
- 如何开启苹果系统的两步验证机制,避免iCloud帐号遭到攻击 首先,你需要登录至苹果的网页版Apple ID管理系统,你需要点击“管理你的Apple ID”,随后输入帐号密码信息。在登录……
- 如何破解互联网思维的误区 互联网正在成为现代社会真正的基础设施之一,就像电力和道路一样。互联网不仅仅是可以用来提高效率的工具,它……
- HTTP与HTTPS的区别 超文本传输协议HTTP协议被用于在Web浏览器和网站服务器之间传递信息,HTTP协议以明文方式发送内容,不提供任何方式……
SEO优化 更多>>
-
百度移动搜索引擎医疗健康行业网页
百度搜索综合用户对不同医疗类网页的实际感受…… -
什么是长尾关键词?
网站上非目标关键词但也可以带来搜索流量的关…… -
如何将一个第三方整形网站做到月订
在互联网行业工作也有很多年了,纵观这些年来…… -
2017年淘宝天猫的新规变更公示通知
随着时代的变化,网购的人越来越多,而真正的…… -
解读2013最新版SEO元素周期表
其实SEO元素周期表早在2011年的时候就有首发出来…… -
网络推广专员怎么有计划的做百度知
百度知道在百度搜索引擎上的排名也是非常好的…… -
关于SEO的100个问题及解答
SEO是搜索引擎优化的意思,通过SEO技术,我们可…… -
揭秘50+seo操作手法:如何通过关键词
用这个方法的的确可以快速的提高网站权重,而……