大数据环境中的数据科学自动化

大数据环境中的数据科学自动化

发布时间：2017-04-24 来源：金属加工

在大数据分析过程中，哪些步骤可以实现自动化以节省时间和金钱?

如今，一切似乎都能实现自动化，从无人驾驶汽车到BLS在线更新，但自动化可能影响人们最具变革性的方法之一是通过大数据科学数字的自动化。

数据科学日益重要，许多组织正在努力通过自动化简化流程。技术的发展既是一种诅咒又是一种祝福：与大数据和物联网相结合，数据科学随着新的数据集和条件而不断变化，导致分析师每次定期维护和重新创建模型。这个过程可以是乏味和耗时的，但它可以很容易地被自动化替代。自动化系统具有解决问题的能力，无论输入什么样的数据，都可以创建潜在问题的所有可能的解决方案，为工作人员节省宝贵的时间和精力。

然而，在大数据环境中自动化数据科学可能是一个复杂的挑战，特别是因为仍然有一些领域需要来自数据科学家或软件开发人员的努力。专家建议将数据科学自动化作为一个两个层次的过程，其中(1)将独立的数据科学组件自动化，然后(2)将每个单独的自动化零件组合在一起，以形成一个连贯的系统。

有四个主要领域可以单独自动创建一个完全自动化的系统：数据准备，机器学习，生成洞察和结果解释。这些任务可以在三个主要领域创建自动化模型：

1.数据准备

数据科学的第一步是提取，清理和转换数据的重复性操作。其任务包括输入空值和为每个特定算法变换数据。许多自动化这个过程的组织对任务使用基于规则的逻辑，考虑到数据科学的目的，替换基于规则的系统，这可能不是最佳的选择。最好的自动化系统将是通过机器学习自动化的自动化数据预处理，这意味着人们给机器更多的权力来决定应用于数据集的什么功能。

数据准备还可以通过特征工程自动化，其将原始数据转换为预测，从而提高机器学习系统的准确性。特征工程仍处于算法开发的早期阶段。随着过程的巩固，它可能在未来的数据科学中发挥重要作用。

2.机器学习

在工作人员的世界中，这个过程由统计学家观察数据来确定要使用的最佳算法，然后将信息放入模型中。在自动化世界中，机器为数据选择最佳算法，并简化数学复杂性，使方程和结果易于理解。该过程涉及更高级的自动化，因为机器必须识别输入模式和自优化以设定方程的边界。更先进的自动化系统使用基于云计算的服务器和元学习等自动理解和计算大量数据。

3.生成洞察

数据科学的最终结果不是一组新的数据，它是以适用于组织的方式解释数据。程序员或统计学家可以理解数据的输出及其如何相关，但是直到数据可以被没有统计知识的人理解为止，该过程才会完成。这意味着将这些数据变成一个全面和透明的故事。

自动化此步骤稍微有些复杂，因为它需要从原始数字结果自动创建用户友好的文本。这种类型的自动化的领先框架是自然语言生成(NLG)，其最好将机器语言转换为自然的人类语言。

数据科学的自动化处于早期阶段，并将随着进一步的技术的开发和应用而不断发展。在创建单个模块后，下一步是创建更多通用平台，可以自动集成数据科学系统的所有方面。这个过程可能很漫长，但结果可能在整个商业世界是强大的。HERO译（来源：企业网D1Net）

通知