IBM负责云和认知软件的高级副总裁Arvind Krishna在最近接受华尔街日报采访时表示,“大约80%的AI项目工作是收集和准备数据。有些公司没有准备好与之相关的成本和工作。你说:“嘿,等一下,人工智能在哪里?”
许多企业在启动AI和BI项目时没有为与数据准备(DP)相关的成本和工作做好准备。更复杂的是,项目的DP工作经常涉及数百种数据和记录类型以及数十亿条记录。
但是,数据分析项目对于数字经济中的组织成功越来越迫切,因此需要DP解决方案。
Gartner将数据准备定义为“用于探索,组合,清理和转换原始数据到用于数据集成,数据科学,数据发现和分析/商业智能(BI)用例的策划数据集的迭代和敏捷过程。”
2019年国际数据公司(IDC)的一项研究报告称,数据工作者每周花费大量时间进行与数据相关的活动:数据准备占33%,而分析占32%;可悲的是,数据科学占13%。本研究中超过30%的数据工作者引用的最大挑战是“花费在数据准备上的时间过长”。
各种数据源,数据类型的多样性,数据量的巨大以及数据分析和商业智能的众多用途 – 都会导致每个项目的多个数据源和复杂性。因此,今天的数据工作者经常使用大量工具来获得DP成功。
数据准备工具所需的功能
Gartner研究报告“数据准备工具市场指南” 中的证据表明,采用DP工具时,数据准备时间和信息报告可节约一半以上的时间。
在同一份研究报告中,Gartner列出了供应商和DP工具的详细信息。该分析公司预测,DP解决方案市场今年将达到10亿美元,近三分之一(30%)的IT组织采用某种类型的自助数据准备工具集。
另一项关于数据和分析趋势的Gartner研究圈调查显示,超过一半(54%)的受访者希望并需要在接下来的12到24个月内自动完成数据准备和清理任务。
为了加速数据理解并提高信任度,数据准备工具应该具备某些关键功能,包括能够:
提取和分析数据。通常,数据准备工具使用可视环境,使用户能够以交互方式提取、搜索、采样和准备数据资产。
创建和管理数据目录和元数据。工具应该能够创建和搜索元数据,以及跟踪每个数据源的数据源,数据转换和用户活动。它还应该跟踪数据源属性、数据沿袭、关系和API。所有这些都使得能够访问用于数据审计、分析/ BI、数据科学和其他操作用例的元数据目录。
支持基本数据质量和治理功能。工具必须能够与支持数据治理/管理和数据质量标准的其他工具集成。
数据准备入门:最佳实践
挑战来自如何掌握DP。商业智能先驱Howard Dresner最近的一份报告发现,64%的受访者经常或频繁地使用终端用户DP工具,但只有12%的受访者表示DP非常有效;近40%的数据专业人员花费一半的时间来准备数据而不是分析数据。
以下是一些有助于确保AI和BI项目的最佳DP的实践。从数据准备服务和产品供应商中可以找到更多。
最佳实践#1:确定满足AI和BI所需的数据源
将这三个常规步骤用于数据发现:
确定满足业务任务需求的数据。
确定该数据的潜在内部和外部来源(并包括其所有者)。
根据所需频率确保每个数据源可用。
最佳实践#2:确定数据分析和准备工具
有必要将数据源加载到DP工具中,以便分析和操作数据。将数据放入可以仔细检查并准备好进行后续步骤的环境非常重要。
最佳实践#3:对潜在和选定源数据的理解
这是DP中的一个重要(但经常忽略)步骤。项目必须先分析源数据,然后才能为下游消费做好准备。除了简单的视觉检查之外,您还需要分析数据、检测异常值、并在源中查找空值(和其他不需要的数据)。
这个理解分析的主要目的是确定哪些数据源值得引入在您的项目中。正如数据仓库大师Ralph Kimball在他的书“数据仓库工具包” 中所写,“尽早排除一些数据源是一个负责任的步骤,可以赢得团队其他成员的尊重。”
最佳实践#4:清理和筛选源数据
根据您对最终业务分析目标的了解,尝试使用不同的数据清理策略,将相关数据转换为可用的格式。从一个小的、统计上有效的样本开始,迭代地尝试不同的数据准备策略,优化您的记录过滤器,并与业务利益相关者讨论结果。
在发现看起来是一个不错的DP方法时,花时间重新思考您真正需要的数据子集,以满足业务目标。在整个数据集上运行数据准备规则将非常耗时,因此请与业务利益相关者一起审慎地考虑您需要或者需要哪些实体和属性,以及哪些是可以安全过滤的数据记录。
最后的想法
从AI / BI项目开始进行适当和彻底的数据准备,可以实现更快,更高效的实施AI和BI。此处列出的DP步骤和流程适用于您正在使用的任何技术设置 – 它们将为您带来更好的结果。
请注意,DP不是“做好就忘”任务。数据不断从多个来源生成,可能会随着时间的推移而发生变化,您的业务决策背景肯定会随着时间而变化。与数据准备解决方案提供商合作是DP基础架构长期功能的重要考虑因素。
改写自