会员服务 登录 注册
×
资讯活动

大数据已死!从业10年老哥爆文抨击:这套唬不住客户了

发布时间:2023-02-16 来源:金属加工

本文经AI新媒体量子位(公众号ID:QbitAI)授权转载,转载请联系出处。


大数据已死。”


说这话的,正是来自Google十年员工,数据分析产品BigQuery创始成员之一,Jordan Tigani。


在最新发布的一篇博文中,他表示——


大数据概念在十多年前开始兴起,时至今日,销售们仍用“海量数据带来指数级增长曲线”说法,来勾起(唬住)客户为相关服务买单的欲望,否则就将被数字时代抛弃。作者自己也曾是其中之一。


但现在,Jordan Tigani不仅认为这种说法行不通,还称——“数据大小根本不是问题所在。”


那么问题在哪?他认为,我们已无需担心数据大小,而应专注于如何使用数据来做出更好的决策。


如此言论之下,也吸引了不少业内人士的围观和热议。


他的上述观点有何依据?


不妨从证明过程看起。


值得注意的是,作者表示,证明过程中相关图表曲线并不是严格参考了数据,而是凭记忆手绘的,这位资深从业者强调——重要的是曲线形状趋势,而非确切数值。


“恐吓”客户的话术出问题了

Jordan Tigani先从一张PPT聊开去。


这是一条数据量随时间增长,呈现指数级增长的曲线,在过去十年,几乎每个大数据产品推销都从该曲线开启。他曾就职的谷歌、SingleStore都不例外。


亮出曲线后,销售们会顺势鼓吹产品,告诉客户——大数据时代来了!你需要我手里的产品服务!


但Jordan Tigani认为,多年来的事实已证明,处理数据的老方法已经行不通了,且大多数应用程序也不需要处理大量数据。


一个佐证是近些年传统架构的数据管理系统复兴,诸如SQLite、Postgres、MySQL都增长强劲,与之对比,“NoSQL”甚至“NewSQL”增长却停滞不前。


一个明显例子是MongoDB,它是排名最高的NoSQL类数据库,也同样是最火的横向扩展类数据库,此前几年MongoDB增长势头强劲,但最近规模却小幅下降,且与MySQL等主流数据库仍存差距。


Jordan Tigani认为——如果大数据真是未来,那情况应该不一样。


鼓吹大数据时代就在眼前的另一个说法是——每个人都会被产生的数据淹没。


但Jordan Tigani在研究客户中发现绝大多数客户总数据存储量不超过1TB,即便大型企业,其数据量级也soso。


根据他的从业经验,所服务的最大客户数据存储量是第二大客户的2倍,第二大客户又是第三位的2倍。


这样一来,客户数据大小与数量服从幂律分布。


只有极少数客户拥有PB级数据,成千上万客户每月存储费用不超过10美元,而他们服务客户存储资源使用的中位数,连100GB都不到。


不仅作者本人这么认为,Gartner、Forrester等机构分析师及其他从业者也表示,大部分企业的数据库量级都小于1TB,且100GB是常态。


拿一家超千名客户的公司举例,即便每个客户每天下一个订单,里面包含100项数据,每天生成数据仍小于1字节,三年后是1GB,而要达到1TB,这家公司得做几千年生意。


另一个例子是之前作者接触了一家E轮独角兽公司,且还在快速成长中,但即便这样,他们的财务数据、客户数据、营销跟踪数据及服务日志加起来,也只有几GB。


就这,能叫大数据?


还不算完,即便看“已有”部分,也有问题。


由于现代云平台将存储与计算分开,两部分利用量级也有很大差距,即——数据存储增长速度,远大于计算资源需求增速。


具体来说,企业数据的存储量随时间推移,肯定是线性增加的,但大部分分析计算需求是针对近期数据,不可能一遍又一遍反复读取旧数据。因此,计算需求不会同步迅速增加。


Jordan Tigani的一个客户就是这样。


作为全球头部零售商,他们原有100TB本地数据,迁移到云上后,数据量变成了30PB,增加了300倍,如果计算资源需求也随之拉满,那他们在数据分析上的花费将达几十亿美元,但事实上,他们只花了很小一笔费用。


作者认为,大量计算服务不被需要,也就意味着前沿架构不太有必要,甚至分布式处理也Duck不必。


与之类似,分析数据的工作负载也远小于数据体量。


多数时候,人们往往只会查询前1小时、前1天或上周数据,较小的表会被频繁查询,但大表就不一定了。


在作者本人BigQuery工作经历中,数据量巨大的客户几乎从不查询大量数据,除非他们正在生成一些报告。


这种需求,也不要求性能优先,且仅是企业一周几十万个查询中的极少数。


正如下图,90%查询任务涉及的数据量级不超过100MB,仅1%超过10GB,且即便查询巨型表,数据库也可通过一定处理,减少计算量和延迟。


一个侧面佐证是——业内符合原本“大数据”定义的产品也在变少。


在当初,大数据的定义之一是“任何单机无法处理相关任务/场景需求”,比如00年代,数据工作负载对于单个商业计算机来说,带不动是常态。


但今天,一个AWS的标准实例所用到的物理服务器包含了64核及256GB RAM,如果为优化实例再多掏一点钱,又能在原基础上增加2个数量级RAM,这几乎覆盖所有工作负载需求。


既然大数据时代结束了,那是不是说,相关从业者要下岗了?


作者也提出了自己的看法——


结束了,但没完全结束。


具体来说,作者认为,大数据的另一重内涵是“当数据保存的支出小于其挖掘价值,那就应该放弃”,因而,我们需要判定哪些数据需要及时清除,以及背后的原因,这将成为数据工作的重要部分。


这当中,也包括不同时期同一数据以不同字段存储,需要有人来加以维护和留有记录。


此外,基于相关监管规定,很多类型数据(比如涉及个人隐私的电话号码)也需要定期清除。


再有,便是一些公司需要定期判断哪些旧数据要清理,以避免未来可能的法律风险。(手动狗头)


ChatGPT老板有不同看法

对于Jordan Tigani上述观点及论证,有网友表示支持,还联想到之前类似的工作经历。