新闻资讯

1207亿元背后的数据技术生态解析

发布日期:2016-11-19 09:53:26      作者:华腾信息
(作者:范婷婷  来源:网络大数据)

我说过,要给你们发送独家的双11数据干货,侧写了阿里数据人双11成交数字背后所付出的努力。尽情尽兴,再出发!

阿里数据,加油!(哎呦,再写下去又要哭了~)

11月11日,0点刚过了52秒,深圳大运体育中心内一块400平米的曲面数据大屏上,就跳出了10亿这个数字,它代表着双11的实时交易额,在不到一分钟的时间里就刷新了纪录,比前一年早了20秒。

此后,这个数字不断被刷新,50亿、100亿、191亿、571亿、912亿、1000亿,以及代表最后成交额的1207亿。

数字是全世界最好理解的信息,但是数字背后往往有很复杂的逻辑,交易额的背后体现的实际是一个巨大的生态体系,由阿里巴巴数据技术及产品部负责把这一天所有的成交汇总成一个举世瞩目的数字。

作为阿里巴巴数据技术及产品部的高级技术专家王鹏说, “双11对我们来说不是一个终点,而是一个起点”,这个时间点成为了数据团队每年的里程碑,因为这一天的高峰,都将成为今后的平峰。这十分符合阿里的名言,“今天最好的表现,是明天最低的要求”。

距离马云第一次发表“人类正从IT时代走向DT(数据技术Data Technology)时代”这个观点已经过去两年多,DT已经渗透到阿里生态中的各个业务和场景。

1、大家都在看的双11大屏

2013年的天猫双11,媒体大屏第一次出现在阿里巴巴园区的报告厅里,当时零点过去不到一分钟,大屏上的销售总额就过亿了,全场所有媒体都发出惊呼,同时手中的键盘啪啪作响,把这个数据第一时间传达给自己的受众。

在往年的双11报道中,数据无疑是传播得最好最快的内容,数据的可视化对于大部分关注双11的人来说,就是最好的兴奋剂。但是数据既是媒体面对公众时的抓手,也是天猫双11面向社会大众的抓手。

“大屏第一年出来,无论是媒体还是商家,都觉得很爽,因为数据非常直接地让所有人感知到了双11的能量。”王鹏认为大屏最初解决了信息对称的问题,以往无论是消费者还是商家,他们只知道自己的交易情况,但是不能实时了解全社会的销售情况以及其他品牌的销售情况。

第一年的大屏数据差不多要一分钟更新一次,前年可以实现15秒更新一次,去年提升到5秒,王鹏表示,今年做到更快,大家能够看到的数据几乎就是实时的。

为了双11当天数据呈现的快捷、准确,数据团队早在今年7月份就开始全力投入到双11的数据项目中。“很多人觉得我们那么早启动就是为了双11,其实这要分两方面看,一是确实我们做技术的升级是更好地服务双11,但另一方我们需要靠双11的峰值来检验我们的成果,因为没有任何场景会比双11更复杂,我们要为未来做好技术储备。” 王鹏把双11视为每年的大考,同时是为下一年奠基。

从技术提升的层面来说,给大家分享一个小的创新:可测试大屏工具。王鹏告诉记者,双11业务的复杂,在数据的逻辑上也存在复杂的不可模拟性,虽然我们尽量根据业务理解和数据经验来模拟业务逻辑,但是在去年双11,我们还是比较人肉地在整个链路上去造测试环境,测试数据,流程长、成本高,在有限的时间里我们能cover的场景也是有限的,不过,今年我们通过可测试大屏工具,在服务端增加了一个mock插件,能快速的模拟任何时间的任何数据表现,同时可以模拟任何环境的故障对大屏的影响等等,更重要的是我们可以在任何时间灵活地完成测试。

2、 逻辑跟着业务走

在今年的媒体数据大屏中,除了最重要的总成交额,王鹏表示大家可以重点关注这几块数据,“一是我们会展现平台‘买全球卖全球’能力的数据信息,二是展现区域化的交易,三是垂直平台业务的成交能力,包括今年重点展现的农村淘宝等,此外就是展现平台本身的技术能力,包括对菜鸟、客服、支付、技术创新等中台能力的展现。”

其实数据大屏展现的模块,与阿里在今年年初提出的“全球化、农村、大数据和云计算为核心的三大战略”是契合的,这块屏幕就是这一年来对阿里整体战略实践的解读。

每年双11都会有新的玩法带给大家更惊艳的购物体验,玩法的多样性、复杂性都会对我们提出更高的要求:尤其是当流量、交易量达到高峰的时候,如何在完成更复杂的数据逻辑处理的基础上,依然保障数据处理的效率。

2009年的第一次双11,交易峰值仅为400笔/每秒,支付峰值仅为200笔/每秒,而今年双11开场的第一个小时,就涌入1.2亿用户,阿里的交易系统也创造了每秒交易峰值17.5万笔,每秒支付峰值12万笔的新纪录,八年增长了数百倍。

同样对于数据团队来说,压力最大的也是11号凌晨,即双11到来前的一个小时,前十分钟压力最大,必须要在高峰的时候既要保证数据逻辑的正确,又要保证数据处理的效率。“扛过第一个小时,这一整天基本就能抗住了。”而如果说第一分钟的压力来自交易笔数的并发量,那么最后一分钟的压力在于最终数据的准确度。“我们要考虑任何的环境不稳定带来的数据抖动,来保证最后时刻的数据,和你将来回过头看的离线数据是一样的。”

3、 压力下的决断:“你们不要手抖”

“你们不要手抖”,是王鹏时常挂在嘴边的一句话,作为技术人员,点鼠标的时候要慎重果断。但是即使是王鹏这样经历了大风大浪的人,依然充满了对数据的敬畏,对于他来说,数据的迷人住处也在于它的不可控。“比如今年有很多内容化的玩法,包括晚会的时候,我们不确定什么时间点会产生流量峰值。”

去年第一届双11晚会时,王鹏就被惊出一身汗,“晚会对我们来说是第一次尝试,经验也不足,我们预估达到流量峰值的时间提前了1个小时,刚开始的几秒钟还是挺慌的,还好做的预案比较完善。”

尽管在双11前已经做了无数次压力测试,但是王鹏表示,复演的过程与真实的情况永远存在差异,所以在双11之前,“我们内心其实都还挺恐慌的”,不过只要前十分钟一过,团队所有人都淡定了。

为了应对各种不确定性,数据团队做了几百条预案,虽然可能最后大部分都不会触发,但团队想了很多可能出现的突发状况,比如说交易量超过峰值,平台要怎么去应对。

今年的整个数据系统,王鹏表示采用了“三链路”保障体系,“目前日常情况下,我们是双链路,一个链路有问题的话,不到一秒的时间就能切换到另一个链路上,不过今年因为交易场景的增加,所以我们升级了自己保障的能力,针对媒体大屏有单独的链路来保障。”

在操作层面,今年也有很多升级,主要集中在自动化能力的提升上面:比如今年的链路一键切换,屏蔽掉人为操作的所有中间环节,用王鹏的话来说,“手抖一下也不会坏事”。以及今年的大屏远端监控工具,在任何地点都可以通过技术指标的波动来第一时间识别大屏的性能和稳定性风险。

4、 数据产品的三个战场

阿里巴巴数据技术及产品部资深总监朋新宇告诉记者,数据团队主要有三个战场,一个是面向媒体的数据大屏,一个是面向商家端的数据大屏,一个是面向平台内部各业务小二的数据大屏。虽然这些针对不同用户的数据可视维度不同,但是共用一个数据公共层。

“比如像商家端的数据大屏,最早是起到店铺数据实时监测的作用,逐步生出了团队激励、多个子品牌的数据同步显示的需求,以及到今天还有社会分享、对外披露的需求。”所以今年,生意参谋推出的升级版双11作战大屏上,不仅能实时展示店铺支付金额、支付件数等核心经营数据,还将实时、同屏呈现店铺所在行业排名、竞店排行、店内热销商品榜、店铺买家画像等更多内容,可以满足商家对数据可视化的多维度诉求。

而小二端能看到的数据信息就更加丰富了,“我们说阿里是一个数据化运营的公司,那么在这背后必须有一套非常完善的数据化运营体系,就以双11为例,从前期的预热、预售到活动当天再到事后的复盘、物流,这中间会产生非常多的数据要参与到整个运营中来。”

王鹏告诉记者,在阿里内部,不同小二看到的数据直播厅是不同的,“针对不同业务线和场景,我们有30个直播馆为大家提供不同的数据抓手,和对外的大屏不同的是,它的内容会更加丰富。”



联系地址:中国福建省泉州市丰泽区东海大街雅园3号楼24层  |  联系电话:0595-22501050  |   闽ICP备12020835号-3   |    |