数据治理与大模型一体化实践

数据治理与大模型一体化实践

发布时间：2023-12-20 来源：金属加工

降本增效方面，以机器学习团队的构成为例，滴普科技Deepexi产品线总裁柏海峰介绍道：“传统机器学习或者说小模型的技术落地，对人才的要求很高，但企业往往没有意识到这个问题。具体来说，一般需要构建一个综合性的团队即数据科学团队，团队中需要数据开发工程师、BI工程师、商业分析师、数据科学家、算法工程师等岗位，人力成本很高，除了互联网、金融行业的大型企业，传统企业或中小型企业很难组建这样的团队。”

人才要求高的原因在于，不同岗位的技能差异非常大，相关工具和技术栈也比较分散，比如在某个具体应用领域的AI模型也是采用不同的算法，数据处理层面的pipeline，很多时候自动化的实现也不够完善。总之，不同的钉子只能用不同的锤子，而每一把锤子都不便宜。

因此，尽管小模型对算力、数据要求没有那么高，但要调出好的效果，复杂度还是很高的。除了技术因素，在团队协作和业务适配方面，也还有很多难题。

“大模型带来的首要好处就是，它一下子把技术门槛拉低了，把整个技术栈从输入到输出的链条变得很短，原本需要很多人的数据科学团队，变成只需要一个人加多个Copilot就可以完成，这个人甚至可以是业务部门的，这是非常有想象力的。”

训练技术方面，大模型一般都是先进行self supervised learning，构建通用大模型，然后经过supervised fine-tuning训练，针对特定任务，构建领域大模型初版，最后通过RLHF训练，对齐人类价值，完成类似于人类学习成长的解题、实习、社会工作三步曲。

其中后两步是大模型微调并构建领域大模型的主要步骤，可以把训练前回答问题很散漫的通用大模型Llama 2 13B，训练成专业性很强的chatbot——Llama 2 13B-chat。

微调可以减少大模型的幻觉，增加模型输出的一致性、专业性，并且只需要通用模型训练的千分之一或者万分之一的数据量。

需求端和供给端条件具备，商业模式就有了雏形，那么，企业要发挥的作用就是，效能建设。

一、效能建设：数据为道、模型为术

效能建设的核心变量，在于数据治理。但这个“数据”，和大数据时代的“数据”，内涵又有很大不同。

传统的数据治理，针对数据分析场景，主要面向结构化数据，包括主动元数据、AI增强治理等技术，已成比较成熟的体系。

而数据治理的新内涵，面向大模型训练常见的非结构化数据。

非结构化数据治理的首要难题是，高质量的领域数据获取的成本。

大模型微调的典型方法是instruction fine tuning，也就是指令微调，ChatGPT和Llama 2都是指令微调的产物。指令微调采用的数据，就是prompt加上response的问答对，要么由更强大的大模型比如GPT-4生成，要么由人工生成。

进一步的微调强化还可以采用Explanation Tuning——解释微调，这是一种数据增强技术，主要是通过成熟的大模型将对prompt的回答进行step by step的拆解，从而获得更容易理解的数据。这主要是基于这样的经验，即提示大模型一步一步拆解问题并解答，可以显著提高准确率。此外，还存在像Neftune这种通过将数据经过模型添加噪声之后再进行训练，就能显著增加推理准确率的魔法一般的数据增强技术。

除了增强，AI模型也可以反过来帮助将杂乱的非结构化数据进行压缩提炼，提取知识。一般来说，可以在公网中使用Claude2、GPT-4、GPT-3.5（ChatGPT），以prompt的形式将数据进行信息提取，就可以把大量的文档数据变成结构化的知识。如果企业考虑到数据安全的问题，就可以在本地部署Llama 2 13B、ChatGLM2 6B等本地大模型，来处理这些文档。

也就是说，非结构化数据其实在很大程度上正在借助已有的成熟模型来处理，其中包括了小模型和大模型。

“比如说在石化行业的数据有很大部分都是多模态的，包括勘探钻井时收集的图像数据、地震探测中收集的地理数据、安全监控视频的数据、物联网IoT数据等等，非常复杂。这些数据要得到利用，就要通过小模型、大模型的技术从里面提取出显性的、隐性的知识，从而能够让被训练的大模型也能够看懂，这就是非结构化数据的治理方法。”

采用大模型、小模型来代替人力从非结构化数据中提取高质量数据，可以极大降低人力处理的成本。

业内对大模型一直有着这样的质疑声音，认为现在的大模型就是把小模型做过的事情重做一遍，“但实际上，大模型和小模型形成了层次更丰富的模型栈，各自发挥所长，才能把效率最大化。”

不同规模、不同能力的AI模型，仿佛构成了一个内部生态。在训练时，它们之间使用数据进行交流，增强终端大模型的能力。在推理时，大模型又成了决策枢纽，通过prompt的交流来规划任务。

二、数据集的平衡：准确率 vs 多样性

数据集质量的评估是多维度的，需要平衡几项因素：灵活性、多样性和准确率。

其中，灵活性、多样性是指模型面对变化多样的prompt也能给出一致的回答，这在通用大模型应用中很常见。而领域数据之所以对质量要求高，也是因为对准确率要求很高。

“比如Text to SQL这样的场景，行业属性很强，对准确率要求也很高。目前行业相关应用的准确率普遍不高，ChatGPT也不到80%。而准确率不超过80%，在生产环境是不能应用的。“

此外，考虑到通用大模型的训练数据在灵活性、多样性上最高，准确率最低，小模型则相反，领域大模型其实处于两者之间，因此必须对这几项因素进行平衡。

滴普科技在实践中发现，在训练数据集中如果领域数据集占30%，通用数据集占70%，训练出来的领域大模型更能够兼顾灵活性、多样性和准确性。这个平衡又进一步降低了数据的总体获取成本。

通知