生成式人工智能海外大模型研究报告：生成式AI加速创新，行业迎历史性机遇

发布时间：2024-04-11 来源：金属加工

一、生成式AI快速发展，技术奇点有望到来

1.1 发展历程：算法模型持续迭代，AI 行业快速发展

基础的生成算法模型是驱动AI 的关键

2014年，伊恩·古德费洛(lan Goodfellow)提出的生成对抗网络(Generative Adversarial Network, GAN)成为早期最为著名的生成模型。GAN使用合作的零和博弈框架来学习，被广泛用于生成图像、视频、语音和三维物体模型。随后，Transformer、基于流的生成模型(Flow-based models)、扩散模型(Diffusion Model)等深度学习的生成算法相继涌现。

Transformer模型是一种采用自注意力机制的深度学习模型，这一机制可按输入数据各部分的重要性分配权重，可用于自然语言处理(NLP)、计算机视觉(CV)领域应用，后来出现的BERT、GPT-3、laMDA等预训练模型都是基于Transformer模型建立的。

预训练模型引发了AI 技术能力的质变

预训练模型是为了完成特定任务基于大型数据集训练的深度学习模型，让AI模型的开发从手工作坊走向工厂模式，加速AI技术落地。

2017年，Google颠覆性地提出了基于自注意力机制的神经网络结构——Transformer架构，奠定了大模型预训练算法架构的基础。

2018年，OpenAI和Google分别发布了GPT-1与BERT大模型，意味着预训练大模型成为自然语言处理领域的主流。

预训练数据直接决定AI 大模型性能

Scaling Laws：模型容量、数据量、训练成本共同构成了大模型训练的不可能三角。大模型训练的目标是最大化模型性能，模型训练成本（GPU的数量和训练时间等）是受限的，因此一般通过增加数据集大小和增加模型中的参数量两种途径来提升模型性能。

预训练数据从数据来源多样性、数据规模、数据质量三方面影响模型性能。以GPT模型为例，其架构从第1代到第4代均较为相似，而用来训练数据的数据规模和质量却有很大的提升，进而引发模型性能的飞跃。以吴恩达(Andrew Ng)为代表的学者观点认为，人工智能是以数据为中心的，而不是以模型为中心。“有标注的高质量数据才能释放人工智能的价值，如果业界将更多精力放在数据质量上，人工智能的发展会更快”。

为了追求更好的模型性能，模型参数规模也与训练数据量同步快速增长，模型参数量大约每18个月时间就会增长40倍。例如2016年最好的大模型ResNet-50参数量约为2000万，2020年的GPT-3模型参数量达1750亿，2023年的GPT-4参数规模则更加庞大。

市场规模

随着人工智能技术的不断发展，其应用场景日益丰富，各行各业所汇聚的庞大数据资源为技术的实际应用和持续完善提供了坚实基础。根据第三方咨询机构格物致胜的统计数据，2022年中国人工智能市场规模达到2058亿元，预计2023-2027年市场规模将保持28.2%的复合增长率，2027年中国人工智能市场规模将达到7119亿元。根据statista的统计数据，2023年全球人工智能市场规模达2079亿美元，预计2030年将增至18475亿美元。

1.2 趋势展望：从单一模态到多模态，从AI迈向AGI

多模态技术成为大模型主战场

多模态较单一模态更进一步，已经成为大模型主战场。人类通过图片、文字、语言等多种途径来学习和理解，多模态技术也是通过整合多种模态、对齐不同模态之间的关系，使信息在模态之间传递。2023年以来，OpenAI发布的GPT-4V、Google发布的Gemini、 Anthropic发布的Claude 3均为多模态模型，展现出了出色的多模态理解及生成能力。未来，多模态有望实现any to any模态的输入和输出，包括文本、图像、音频、视频、3D模型等多种模态。

多模态大型语言模型(MLLMs)的通用架构，由1) 视觉编码器(Visual Encoder)、2) 语言模型(Language Model)和3) 适配器模块 (Adapter Module)组成。1) 负责处理和理解输入的视觉信息，通常使用预训练的视觉模型，如Vision Transformer(ViT)或其他卷积神经网络(CNN)架构，来提取图像特征；2) 负责处理文本输入，理解和生成自然语言，语言模型基于Transformer架构，如BERT或GPT 系列模型；3) 负责在视觉和语言模态之间建立联系。

3D生成：AI生成技术的下一个突破口

3D生成技术应用广阔，但仍处在技术临界点以前。3D生成技术可广泛应用于3D虚拟人、3D人脸、3D场景等领域，目前3D生成的主流技术路径大致可分为：1) text-to-2D，再通过NeRF或Diffusion模型完成2D-to-3D，或直接通过2D素材完成3D建模；2) 直接text-to3D，该路径直接使用3D数据进行训练，从训练到微调到推理都基于3D数据

具身智能：智能涌现从虚拟世界走向物理世界

当大模型迁移到机器人身上，大模型的智能和泛化能力有望点亮通用机器人的曙光。2023年7月，谷歌推出机器人模型Robotics Transformer 2(RT-2)，这是一个全新的视觉-语言-动作(VLA)模型，从网络和机器人数据中学习，并将这些知识转化为机器人控制的通用指令。2024年3月，机器人初创企业Figure展示了基于OpenAI模型的全尺寸人形机器人Figure 01，机器人动作流畅，所有行为都是学到的（不是远程操作），并以正常速度(1.0x)运行。

通用人工智能还有多远

通用人工智能(Artificial General Intelligence, AGI)是一种可以执行复杂任务的人工智能，能够完全模仿人类智能的行为。DeepMind提出了一个衡量“性能”和“通用性”的矩阵，涵盖从无人工智能到超人类AGI（一个在所有任务上都优于所有人的通用人工智能系统）的五个级别。性能是指人工智能系统的能力与人类相比如何，而通用性表示人工智能系统能力的广度或其达到矩阵中指定性能水平的任务范围。

通用人工智能还有多远

2023年12月，黄仁勋表示，如果把通用人工智能(AGI)定义为能以“相当有竞争力”的方式完成人类智能测试的计算机，那么在未来五年内，我们将看到AGI。 2023年11月，DeepMind联合创始人兼首席AGI科学家Shane Legg在访谈中表示，2028年，人类有50%的概率开发出第一个AGI，并且带领的DeepMind研究团队在Arxiv上公布了一篇名为《AGI的水平：实现AGI道路上的操作进展》论文，具体阐述了AGI的路线图和时间表。 2020年，谷歌机器人团队的软件工程师Alex Irpan认为，到2035年我们有10%的概率实现AGI，但到了2024年，他认为在2028年就有10% 的概率接近AGI，到2035年则有25%的概率实现AGI。

通知

生成式人工智能海外大模型研究报告：生成式AI加速创新，行业迎历史性机遇