人工智能/机器学习助力的数据管理驱动数字化转型

人工智能/机器学习助力的数据管理驱动数字化转型

本文针对数据驱动型企业的高管、架构师和业务利益相关者,针对现有的数据治理和数据管理实践无法跟上数据驱动型文化和运营的步伐的状况,提供有关数据驱动型企业如何利用人工智能/机器学习助力的数据管理平台,以实现运营的指南。

身处数据驱动型企业的时代,数字化转型计划产生的影响逐年增加。公司寻求从物联网、实时应用程序和移动应用程序等前沿计划中获取新数据源,并通过摒弃以往的纸笔记录方式,将现有的流程和信息引入 21 世纪。如果这些公司想要寻求能使其产品独树一帜以取得更高营收,为消费者改善客户体验,降低运营成本以提高利润的方法,那么,他们就必须采用新技术来管理和治理其转型为数字化形式的新数据资产。 在数据驱动型公司中,业务分析师和数据科学家的任务是寻找创新见解。业务分析师利用事件级数据研究创造新竞争优势的方法。数据科学家则为高级分析和机器学习算法评估最佳和最适用的数据。

但是,如果没能充分了解数据图谱中累积的信息,他们就可能徒劳无功

业务分析师需要一个工具,用来适当的探索和审核数据集,从而改进产品定价、客户定位或运营流程。数据科学家则需要一种能快速找到其模型的正确域信息的途径,否则就会影响得出的结果。

但是,能访问数据不等于能找到数据。

多种数据驱动型探索和数据科学计划正在迅速赶超传统分析环境的能力(如企业数据仓库和数据集市)。这些传统的分析环境架构仍 对公司具有价值,但数据驱动型企业正在突破这些体系结构的限制。公司想要以信息助力的创新计划为基础,寻求更灵活灵巧的方法和最佳实践。这些驱动因素催生了对现代分析架构和方法的需求。

数据驱动型企业必须要使整个企业结构中的员工都能访问其决策所需的正确数据。通常采用的工具是企业数据目录,其中包含其数据图谱中全面 且经过审核的元数据(技术、业务和操作)资产。然而,随着数据图谱不断增长和扩大,就要求现代数据目录具备人工智能/机器学习功能,可跨多平台扩展,不仅能处理不断变化的数据样本,还可定期对图谱进行彻底探查和清查。 有了所有这些信息,人工智能/机器学习功能就能对不同位置的数据进行编目分类、识别和匹配,安全地为企业各成员定位信息。所有人员均应享有安全的数据访问权限 – 而非只供少数人享有。

数据驱动型企业推动数字化转型

企业正在成功实施数据驱动型和信息推动式策略,从而让公司的业务运营更精准、更灵活。消费者零售业务正在转变供应商对其市场、产品组合和分销渠道的看法。

例如,亚马逊利用数据驱动型策略来更好地理解客户和供应商,从而灵活地提供独特的产品。其他数据驱动型企业则通过将个人交通和酒店住宿业务中未曾发掘的信息联系起来,创造新机会。在这方面,优步、来福车和爱彼迎等提供商开创了新型业务,这类业务专注于将敏捷性和数据作为关键投入,而非仅关注营收模型的结果。凭借这一成功,他们为其他企业和竞争对手开辟了一条新道路,大家争相追随。 数据驱动型计划基于访问企业范围内深层交易信息的能力。这种访问可以借助物联网设备的传感器读数,也可以利用来自企业应用程序(如订单和支付平台)的实时事件。数字化转型还可以采取摒弃纸笔时代,引入现有业务流程的方式。转型事件和流程不仅有助于了解前沿计划,还能让我们看清整个企业的运营情况。

数据驱动型战略的主要考虑因素:

• 发现数据并实现数据民主化

• 处理数据传输和消耗的多重延迟

• 扩展新增的数据量和数据类型

• 利用元数据和人工智能/机器学习实现流程自动化和指导 用户行为

• 治理数据,以实现风险最小化和数据价值最大化

• 用于检测和保护敏感数据的政策和系统

成功连接至这些新数据源和新型格式的信息后,企业需要转变其技术和业务运营方式,从而有效地管理、审核和维护其数据。这要求这些企业考虑其基础架构和实践的以下方面:

• 具备人工智能/机器学习功能的企业数据目录

• 大数据、数据湖、数据科学和机器学习

• 战略化数据治理/MDM

• 数据隐私和安全(PII 和 GDPR)

• 混合和多云

民主化力量:具备人工智能功能的企业数据目录

数据驱动型企业的关键目标之一是让整个公司的员工都能访问其决策所需的数据。但是,能访问数据不等于能找到有助于提高业务流程效率的信息、创新的营收模型或尖端的数据科学算法。企业需要拥有能支撑在整个企业中使用数据的工具。通常采用的访问形式是企业数据目录,其中包含其数据图谱中全面的元数据信息(技术、业务和操作)。 在数据驱动型公司中,业务分析师和数据科学家的任务是为企业探寻洞察。业务分析师利用事件级数据来寻找创造新竞争优势的方法。业务分析师需要一个目录,用以适当的探索和验证数据集,从而改进产品定价、客户定位或运营流程。如果没有理解数据图谱中的内容和没能进行信息更新,这可能就是无用之功。同样,数据科学家需要在模型中引入正确信息,否则就会影响模型性能。数据科学家致力于向高级分析和机器学习算法中输入最佳且最适用的数据。但是,如果没能充分了解数据图谱中的信息,他们就可能浪费过多时间去寻找正确的域信息。

企业数据目录的关键考虑因素:

• 大家均可访问,而不只是少数人

• 元数据需要超越技术属性(名称、类型、位置),扩展到语义属性(业务含义和质量)和操作数据(来源、新鲜度和访问权限)

• 不具备人工智能/机器学习功能的目录需要更多人工干预和人力资产进行维护

过去,企业使用多个旧版本的企业数据目录。数据架构师和/或数据管理员手动审核这些单源环境,但这种方法将无法再提供数据驱动型企业所需的访问权限。现代数据图谱持续增长,这就要求当前的数据目录发展为具备人工智能/机器学习功能,可跨多平台扩展,并能定期进行全面的图谱探查和清查。有了这些信息,机器学习算法和人工智能自动化不仅可以对不同位置的数据进行编目和分类,还能对其进行识别和匹配,安全地为企业各成员定位信息。这将真正实现大家都能访问数据,而非仅是少数人的专权。

元数据策略的长期愿景是将人工智能/机器学习应用于数据发现和编目

大数据、数据湖、数据科学和机器学习

自从开始采用数据驱动型探索和数据科学实践(如机器学习)以来,传统的分析环境就迅速落伍。传统的分析环境架构(如企业数据仓库和数据集市)仍对公司具有价值。但是,数据驱动型企业正在根据企业范围的探索需求以及高级分析实践的复杂性和速度,来探测这些体系结构的极限。这些企业想要以此为基础,寻求更灵活灵巧的架构。 企业追求创新和敏捷,因此就需要现代分析架构和基础架构,从而支持数据驱动策略。企业需要这样的环境,既可以从其内部各位置组建数据,且仍能满足数据驱动计划的各种要求。最初在大数据中,基于 Hadoop 的数据湖可满足数据驱动型企业收集和探索数据的需求。数据湖用于存储和访问新数据集,以及满足其数据科学计划的需求。但是,受限于元数据管理、数据访问和处理延迟,只有技术最娴熟的业务分析师和数据科学家才能使用这些环境。 想要让数据驱动型企业的各个层级都能享有新一代分析方式,这就要求企业在其数据湖中整合更全面的数据管理平台组件。

下一代分析的主要考虑因素:

• 企业只能通过在广泛的数据图谱(例如,混合数据生态系统)中优化整个数据管道,才能部署其大数据分析目标

• 为助力数据科学家和业务分析师,为下一代分析提供数据的管道(如机器学习)必须能够使用自助工具来准备、清理、集成和扩充数据,而非等待专用的 IT 资源

这些扩展平台具备一系列功能,能够:

• 获取各类数据

• 规模化集成和扩充数据,支持实时和批量工作负载

• 自助进行数据工程和元数据管理的准备和协作工作

• 使用集成数据治理和目录工具制定政策和验证合规性

• 协调企业范围内相关数据的交付

将企业应用程序、数据仓库和其他经过审核的数据解决方案中的信息用于为新的基于事件的数据源提供上下文和业务价值。基于列存储结构和 NoSQL 数据存储框架(如 MongoDB 和 Cassandra)的新分析数据库的出现形成了现代化却也更加复杂的环境。 有了具备人工智能/机器学习驱动的数据目录和自助数据准备工具的混合数据生态系统环境,技术娴熟的数据科学家、业务分析师和整个企业的“普通”员工就能访问由经过审核和管理的数据构成的各类数据库。

目前,70% 的企业采用数据湖策略

战略性数据治理

曾几何时,人们常常是在制定完数据策略后才想起数据治理。数据架构师和管理员凭借数据源基础,对数据源进行策略数据治理。通常是采用单线程和手动方式完成。当企业的数据图谱置身于本地数据中心,且主要由传统关系型数据库组成时,这种策略性的基层治理方法尚可接受。 而今,企业面临着更为广泛、更加全面的数据图谱,其平台和实施方式远非传统实践方式所能企及。新数据源来自于物联网设备传感器、实时企业应用程序、现代云应用程序以及并购活动,这使拥有数据图谱的平台的数量和类型不断增加。数据管理团队无法再用传统实践来管理、审核和治理数据。 更为严峻的是,大家认为数据已经成为了公司的资产,受到高层管理人员的监督。如今,必须把数据作为战略资产来进行管理,而不能只将其作为关于或耗尽企业运营的记录的信息集合。不论是首席信息官、首席技术官,亦或是新出现的首席数据官 (CDO),无一例外的认为需要策略性地评估和管理数据资产。数据、元数据和主数据都需要放置于整个图谱中来进行处理,从而协调和优化其对数据驱动计划的价值。这要求数据驱动型企业较之以往,要更策略性地进行数据治理。公司需要采用全面的解决方案来定义治理和监管政策,然后将这些政策与用于支持数据治理流程的数据编目、数据质量和数据安全工具联系起来,从而验证公司是否在遵守这些政策。

战略性数据治理和元数据管理的关键考虑因素:

• 像管理和治理任何其他有价值的企业资产一样管理和治理数据,尤其是在受到监管的行业和全球市场中

• 数据治理必须实现零阻力,不会影响业务发展速度

• 公司需要能将政策和运营关联起来的协作式端到端治理流程

如果出现不遵守这些政策的情况,数据治理流程和工具必须提醒关键利益相关方采取适当措施。这对于实现法规(例如 GDPR)相关风险最小化和数据价值(例如转变客户体验)最大化至关重要。

近 75% 的企业采用数据治理和元数据管理策略

数据隐私和安全

数据驱动计划得到广泛采用,为更多员工、供应商和合作伙伴提供了访问权限,随之,企业内部信息的隐私和安全就愈发重要。数据驱动型组织需要密切关注数据的隐私影响和整体安全性。随着欧盟 GDPR 的实施以及对最终用户许可协议 (EULA) 的实施方式采取更为严格的审查,与客户数据隐私相关的考虑因素变得至关重要。EULA 应明确规定和指出如何在企业内部收集和使用客户信息。 隐私政策需要符合这些协议,才能使得公司达到合规要求。对于那些客户转向其他供应商的障碍较少(或根本无障碍)的行业来说,这尤为重要。另外还有一个隐私问题,即访问信息的方式和人员。企业中,谁应拥有该访问权限?企业外,谁应拥有该访问权限?外部合作伙伴应仅能访问与其合作伙伴关系或供应链方面相关的信息。他们绝对不应能访问客户的个人可识别信息和其他合作伙伴活动的详细数据。

数据隐私和数据安全的关键考虑因素:

• 如要实现企业数据民主化并将其用于分析项目中,且符合行业法规,您就必须确保数据安全且受到保护

• 采用基于风险的数据安全智能工具,绘制所有敏感数据所在位置图

• 当数据安全信息和数据隐私策略相结合时,就可以采用更具成本效益的数据保护(例如,数据屏蔽和加密)策略来评估和修复风险

• 必须通过验证数据使用、质量、隐私和合规性(例如 GDPR、HIPAA、SOX 等)来明确定义政策并确认企业是否遵守此政策。

数据隐私和数据安全的关系就如同阴与阳的关系。拥有了大量的可信信息(如消费者支付和供应商库存),数据驱动型企业就需要确保其数据不会丢失、被盗或受到未经授权的访问。这要求企业能够从其数据图谱中获取数据管理平台的相关操作信息。了解敏感信息的存储、处理和访问的位置和方式,这对于确定安全策略类型尤为重要,这些策略将保护数据驱动型企业最宝贵的资产——企业数据。拥有可评估敏感数据风险和暴露情况的工具有助于企业制定关于数据保护最佳实践的明智的决策。

80%以上 的企业采用数据安全和数据隐私策略来保护其数据

混合和多云部署

随着数据驱动计划的变速加快,企业需要使用灵活有效的方法来测试、验证、部署和操作数据。基于云的资源提供了一种极佳途径,可让我们跨越传统实施实践进行部署。云端可使部署速度更快。它还能为整个企业内部的各用户提供经改进的自助服务,降低基础架构管理需求,提供可扩展机会,以便在难以匹配传统的本地数据中心时推动数据驱动策略的发展。 即时为存储、处理和分析提供技术资源的功能使云部署方式与数据中心的传统裸机部署方式相比成效卓著。曾经,在 IT 团队进行硬件采购和软件安装流程前,要详尽细致地预测数据增长和使用情况,这种方式已经一去不复返。而今,企业可以利用灵活且富有弹性的流程尝试、评估和验证技术配置,同时还能降低搭建错误架构的风险。从 Amazon Web Services (AWS) 等公共资源到私有数据中心(采用虚拟私有云部署来满足拥有敏感数据的企业的需求),无一不采用这种部署方式。

数据隐私和数据安全的关键考虑因素:

• 迁移到云端的好处包括提高运营效率、可扩展性、便捷性、安全性和灵活性

• 2016 年的行业报告发现,60.1% 的企业依靠混合和公共云作为实现大数据分析的平台,其位列受访者当前规划的所有其他分析计划的首位 • 确保云部署安全、合规,并遵守隐私协议(例如 SOC2、SOC3、ISO、HIPAA、CSA 等)

对于数据驱动型企业来说,减少支持分析计划所需的工作量至关重要。抛开系统和平台部署,以及维护任务的各方面事项,数据工程和管理团队就能更好地扩展。将数据管理团队从策略性和其他低级部署活动中解放出来,使其能更策略性地提供新数据集和改进信息。基于云的部署可让数据驱动计划快速从测试和验证沙箱迁移到生产环境。 但是,这些环境也存在挑战。不同的基于云的实施方式可将数据和数据资产分布于更广泛的数据图谱中。而使用传统技术来管理、治理和审核这种随意扩展的数据难度很大。使用统一的现代混合集成平台是一种能有效管理数据中心外部扩展的方法。

近 80% 的大数据项目采用云策略实施方式,如私有云、公共云和混合云部署方案

改写自ENTERPRISE MANAGEMENT ASSOCIATES®(EMA™)咨询概要,2018年10月,作者John L. Myers

Write a Comment