会员服务 登录 注册
×
资讯活动

数据治理与大模型一体化实践

发布时间:2023-12-20 来源:金属加工

降本增效方面,以机器学习团队的构成为例,滴普科技Deepexi产品线总裁柏海峰介绍道:“传统机器学习或者说小模型的技术落地,对人才的要求很高,但企业往往没有意识到这个问题。具体来说,一般需要构建一个综合性的团队即数据科学团队,团队中需要数据开发工程师、BI工程师、商业分析师、数据科学家、算法工程师等岗位,人力成本很高,除了互联网、金融行业的大型企业,传统企业或中小型企业很难组建这样的团队。”

人才要求高的原因在于,不同岗位的技能差异非常大,相关工具和技术栈也比较分散,比如在某个具体应用领域的AI模型也是采用不同的算法,数据处理层面的pipeline,很多时候自动化的实现也不够完善。总之,不同的钉子只能用不同的锤子,而每一把锤子都不便宜。

因此,尽管小模型对算力、数据要求没有那么高,但要调出好的效果,复杂度还是很高的。除了技术因素,在团队协作和业务适配方面,也还有很多难题。

“大模型带来的首要好处就是,它一下子把技术门槛拉低了,把整个技术栈从输入到输出的链条变得很短,原本需要很多人的数据科学团队,变成只需要一个人加多个Copilot就可以完成,这个人甚至可以是业务部门的,这是非常有想象力的。”

训练技术方面,大模型一般都是先进行self supervised learning,构建通用大模型,然后经过supervised fine-tuning训练,针对特定任务,构建领域大模型初版,最后通过RLHF训练,对齐人类价值,完成类似于人类学习成长的解题、实习、社会工作三步曲。

其中后两步是大模型微调并构建领域大模型的主要步骤,可以把训练前回答问题很散漫的通用大模型Llama 2 13B,训练成专业性很强的chatbot——Llama 2 13B-chat。

微调可以减少大模型的幻觉,增加模型输出的一致性、专业性,并且只需要通用模型训练的千分之一或者万分之一的数据量。

需求端和供给端条件具备,商业模式就有了雏形,那么,企业要发挥的作用就是,效能建设。

一、效能建设:数据为道、模型为术

效能建设的核心变量,在于数据治理。但这个“数据”,和大数据时代的“数据”,内涵又有很大不同。

传统的数据治理,针对数据分析场景,主要面向结构化数据,包括主动元数据、AI增强治理等技术,已成比较成熟的体系。

而数据治理的新内涵,面向大模型训练常见的非结构化数据。

非结构化数据治理的首要难题是,高质量的领域数据获取的成本。

大模型微调的典型方法是instruction fine tuning,也就是指令微调,ChatGPT和Llama 2都是指令微调的产物。指令微调采用的数据,就是prompt加上response的问答对,要么由更强大的大模型比如GPT-4生成,要么由人工生成。

进一步的微调强化还可以采用Explanation Tuning——解释微调,这是一种数据增强技术,主要是通过成熟的大模型将对prompt的回答进行step by step的拆解,从而获得更容易理解的数据。这主要是基于这样的经验,即提示大模型一步一步拆解问题并解答,可以显著提高准确率。此外,还存在像Neftune这种通过将数据经过模型添加噪声之后再进行训练,就能显著增加推理准确率的魔法一般的数据增强技术。

除了增强,AI模型也可以反过来帮助将杂乱的非结构化数据进行压缩提炼,提取知识。一般来说,可以在公网中使用Claude2、GPT-4、GPT-3.5(ChatGPT),以prompt的形式将数据进行信息提取,就可以把大量的文档数据变成结构化的知识。如果企业考虑到数据安全的问题,就可以在本地部署Llama 2 13B、ChatGLM2 6B等本地大模型,来处理这些文档。

也就是说,非结构化数据其实在很大程度上正在借助已有的成熟模型来处理,其中包括了小模型和大模型。

“比如说在石化行业的数据有很大部分都是多模态的,包括勘探钻井时收集的图像数据、地震探测中收集的地理数据、安全监控视频的数据、物联网IoT数据等等,非常复杂。这些数据要得到利用,就要通过小模型、大模型的技术从里面提取出显性的、隐性的知识,从而能够让被训练的大模型也能够看懂,这就是非结构化数据的治理方法。”

采用大模型、小模型来代替人力从非结构化数据中提取高质量数据,可以极大降低人力处理的成本。

业内对大模型一直有着这样的质疑声音,认为现在的大模型就是把小模型做过的事情重做一遍,“但实际上,大模型和小模型形成了层次更丰富的模型栈,各自发挥所长,才能把效率最大化。”

不同规模、不同能力的AI模型,仿佛构成了一个内部生态。在训练时,它们之间使用数据进行交流,增强终端大模型的能力。在推理时,大模型又成了决策枢纽,通过prompt的交流来规划任务。

二、数据集的平衡:准确率 vs 多样性

数据集质量的评估是多维度的,需要平衡几项因素:灵活性、多样性和准确率。

其中,灵活性、多样性是指模型面对变化多样的prompt也能给出一致的回答,这在通用大模型应用中很常见。而领域数据之所以对质量要求高,也是因为对准确率要求很高。

“比如Text to SQL这样的场景,行业属性很强,对准确率要求也很高。目前行业相关应用的准确率普遍不高,ChatGPT也不到80%。而准确率不超过80%,在生产环境是不能应用的。“

此外,考虑到通用大模型的训练数据在灵活性、多样性上最高,准确率最低,小模型则相反,领域大模型其实处于两者之间,因此必须对这几项因素进行平衡。

滴普科技在实践中发现,在训练数据集中如果领域数据集占30%,通用数据集占70%,训练出来的领域大模型更能够兼顾灵活性、多样性和准确性。这个平衡又进一步降低了数据的总体获取成本。