数据时代的往事:打造人工智能家居
还记得数据发展的早期吗?感觉更简单,或许只是表面看起来简单。企业主要想知道已经发生了什么。“发货了多少件?”“上个月的销售额是多少?”为了回答这些问题,我们构建了数字世界中第一个重要的解决方案:数据仓库。
精心组织的图书馆(数据仓库时代)
传统的数据仓库就像一个宏伟而精心组织的图书馆。来自运营系统(销售、财务、库存)的数据并非只是被堆放在那里。它们要经过一个称为 ETL(提取、转换、加载)的严格流程。数据经过清洗、标准化,并被构建成预定义的格式(模式),然后才被放置在特定的、有标签的架子上。您确切地知道在哪里可以找到季度销售数据,因为它们总是以相同的方式分类。
这个系统非常出色,因为它的目标就是提供可靠、一致的商业智能报告。决策者可以信赖这些数字(大多数情况下!)。但图书馆墙外的世界开始变得复杂起来。
我们不再只是处理整齐的行列。突然之间,网站点击数据、电子邮件中非结构化的客户反馈、机器的传感器读数、社交媒体流,甚至图片和视频都如潮水般涌来。我们原本井然有序的图书馆,原本是为固定的书籍而建,却无法轻松应对这种混乱的涌入。试图强行将一条推文或视频脚本通过僵硬的 ETL 流程,就像试图将瀑布搁置起来——缓慢、昂贵,而且通常无法完全容纳。对复杂数据科学和机器学习探索的需求也使其僵硬的结构不堪重负。
一切皆可摆脱(数据湖的兴起)
面对数据洪流和新的分析的需要,我们构建了一个截然不同的东西:数据湖。忘掉那些严格的摆放规则吧。数据湖被设想为一个庞大且经济高效的存储空间,通常使用 Hadoop HDFS 或云对象存储(例如 Amazon S3 或 Azure Data Lake Storage)等技术。其理念发生了巨大转变:“先获取所有数据,然后再考虑如何使用。” 原始数据以其原生格式(结构化、半结构化、完全非结构化)直接加载(通常使用 ELT【提取、加载、转换】方法)。结构是在读取数据时应用的,而不是在写入数据时应用的(读取时模式)。
这提供了令人难以置信的灵活性和可扩展性。数据科学家终于可以访问和探索全部原始信息。然而,这种自由是有代价的。缺乏强有力的组织和治理,许多数据湖最终演变成了可怕的“数据沼泽”。寻找可靠、高质量的数据变成了一场寻宝之旅。这个数据集干净吗?它值得信赖吗?它在其他地方重复了吗?性能可能会很差,而且缺乏事务保证(ACID 合规性,在数据库中很常见),这使得构建可靠的链式数据管道(对于生产系统和值得信赖的 AI 至关重要)变得非常具有挑战性。
数据湖屋(Lakehouse 模式)
我们需要找到一个更好的平衡点:既要拥有湖的规模和灵活性,又要拥有更接近数仓的可靠性和性能。这催生了Lakehouse的诞生。
其核心理念并非要取代经济高效的湖存储,而是在其基础上构建智能和结构。Delta Lake、Apache Iceberg 和 Apache Hudi 等技术成为关键的推动因素。它们将类似数据库的功能(ACID 事务、数据版本控制、模式实施和性能优化)直接引入到数据湖中的文件中。
Lakehouse 中一种流行的组织模式是Medallion 架构。它强制执行逻辑流程和质量进度:
青铜区:获取的原始数据,基本未经修改——历史档案。
白银区:数据经过清理、过滤、合并或标准化,更加可靠,更适用于分析和特征工程。
黄金区:数据经过聚合、功能设计和业务就绪,通常针对特定的 BI 仪表板或 ML 应用程序进行优化。
Lakehouse 代表着一次重大的飞跃。它提供了一个统一的平台,能够支持传统的 BI 报告(通常来自 Gold 表)和许多数据科学/机器学习工作负载(通常利用 Silver 和 Gold 数据),所有这些都基于同一个底层存储。它解决了原始数据湖的诸多问题。
然而,就在我们感到安心之时,人工智能的格局再次发生了翻天覆地的变化。强大的基础模型、生成式人工智能(例如 ChatGPT、DeepSeek)、复杂的推荐系统以及自主人工智能代理概念的兴起,带来了新的、更严苛的要求。这些系统需要的不仅仅是干净的批量数据;它们需要实时上下文、理解非结构化数据含义的专门方法,以及与整个机器学习生命周期的无缝集成。
人工智能时代的数据架构(现代数据平台)
这就引出了我们对AI 时代现代数据平台的需求。它并非必然要完全取代 Lakehouse 的基础架构;通常,它是在 Lakehouse 基础上的演进和整合。可以将其想象成将井井有条的 Lakehouse 工棚升级为一个先进的、互联互通的车间,专门用于构建、部署和运行复杂的 AI 系统。