人工智能时代的数据平台架构模式

人工智能时代的数据平台架构模式

发布时间：2025-05-20 来源：金属加工

数据时代的往事：打造人工智能家居

还记得数据发展的早期吗？感觉更简单，或许只是表面看起来简单。企业主要想知道已经发生了什么。“发货了多少件？”“上个月的销售额是多少？”为了回答这些问题，我们构建了数字世界中第一个重要的解决方案：数据仓库。

精心组织的图书馆（数据仓库时代）

传统的数据仓库就像一个宏伟而精心组织的图书馆。来自运营系统（销售、财务、库存）的数据并非只是被堆放在那里。它们要经过一个称为 ETL（提取、转换、加载）的严格流程。数据经过清洗、标准化，并被构建成预定义的格式（模式），然后才被放置在特定的、有标签的架子上。您确切地知道在哪里可以找到季度销售数据，因为它们总是以相同的方式分类。

这个系统非常出色，因为它的目标就是提供可靠、一致的商业智能报告。决策者可以信赖这些数字（大多数情况下！）。但图书馆墙外的世界开始变得复杂起来。

我们不再只是处理整齐的行列。突然之间，网站点击数据、电子邮件中非结构化的客户反馈、机器的传感器读数、社交媒体流，甚至图片和视频都如潮水般涌来。我们原本井然有序的图书馆，原本是为固定的书籍而建，却无法轻松应对这种混乱的涌入。试图强行将一条推文或视频脚本通过僵硬的 ETL 流程，就像试图将瀑布搁置起来——缓慢、昂贵，而且通常无法完全容纳。对复杂数据科学和机器学习探索的需求也使其僵硬的结构不堪重负。

一切皆可摆脱（数据湖的兴起）

面对数据洪流和新的分析的需要，我们构建了一个截然不同的东西：数据湖。忘掉那些严格的摆放规则吧。数据湖被设想为一个庞大且经济高效的存储空间，通常使用 Hadoop HDFS 或云对象存储（例如 Amazon S3 或 Azure Data Lake Storage）等技术。其理念发生了巨大转变：“先获取所有数据，然后再考虑如何使用。” 原始数据以其原生格式（结构化、半结构化、完全非结构化）直接加载（通常使用 ELT【提取、加载、转换】方法）。结构是在读取数据时应用的，而不是在写入数据时应用的（读取时模式）。

这提供了令人难以置信的灵活性和可扩展性。数据科学家终于可以访问和探索全部原始信息。然而，这种自由是有代价的。缺乏强有力的组织和治理，许多数据湖最终演变成了可怕的“数据沼泽”。寻找可靠、高质量的数据变成了一场寻宝之旅。这个数据集干净吗？它值得信赖吗？它在其他地方重复了吗？性能可能会很差，而且缺乏事务保证（ACID 合规性，在数据库中很常见），这使得构建可靠的链式数据管道（对于生产系统和值得信赖的 AI 至关重要）变得非常具有挑战性。

数据湖屋（Lakehouse 模式）

我们需要找到一个更好的平衡点：既要拥有湖的规模和灵活性，又要拥有更接近数仓的可靠性和性能。这催生了Lakehouse的诞生。

其核心理念并非要取代经济高效的湖存储，而是在其基础上构建智能和结构。Delta Lake、Apache Iceberg 和 Apache Hudi 等技术成为关键的推动因素。它们将类似数据库的功能（ACID 事务、数据版本控制、模式实施和性能优化）直接引入到数据湖中的文件中。

Lakehouse 中一种流行的组织模式是Medallion 架构。它强制执行逻辑流程和质量进度：

青铜区：获取的原始数据，基本未经修改——历史档案。

白银区：数据经过清理、过滤、合并或标准化，更加可靠，更适用于分析和特征工程。

黄金区：数据经过聚合、功能设计和业务就绪，通常针对特定的 BI 仪表板或 ML 应用程序进行优化。

Lakehouse 代表着一次重大的飞跃。它提供了一个统一的平台，能够支持传统的 BI 报告（通常来自 Gold 表）和许多数据科学/机器学习工作负载（通常利用 Silver 和 Gold 数据），所有这些都基于同一个底层存储。它解决了原始数据湖的诸多问题。

然而，就在我们感到安心之时，人工智能的格局再次发生了翻天覆地的变化。强大的基础模型、生成式人工智能（例如 ChatGPT、DeepSeek）、复杂的推荐系统以及自主人工智能代理概念的兴起，带来了新的、更严苛的要求。这些系统需要的不仅仅是干净的批量数据；它们需要实时上下文、理解非结构化数据含义的专门方法，以及与整个机器学习生命周期的无缝集成。

人工智能时代的数据架构（现代数据平台）

这就引出了我们对AI 时代现代数据平台的需求。它并非必然要完全取代 Lakehouse 的基础架构；通常，它是在 Lakehouse 基础上的演进和整合。可以将其想象成将井井有条的 Lakehouse 工棚升级为一个先进的、互联互通的车间，专门用于构建、部署和运行复杂的 AI 系统。

通知