从数据管理入手开始考虑2019年的人工智能项目


    如果你已经决定在今年做更多的人工智能实验,请首先仔细研究您的数据管理实践。
    就在新年前夕,我与一位CIO客户兼朋友进行了交谈,他很兴奋地谈论了如何在2019年“启动”涉及人工智能的项目。和许多首席信息官一样,她也渴望赶在出现人工智能可能带来的破坏之前,充分利用人工智能带来的好处。在我们的谈话中,她让我帮助她了解该如何准备,才能让她的组织在未来几年能够“做好AI”。
    我的回复?在花任何一美元购买人工智能之前,首先确保你的数据是有序的!如果你想让你的人工智能计划成功,你必须让数据管理成为你新年的首要任务。
    对于一个有一整个团队和组织正在急切地想要“进入人工智能领域”的CIO来说,这可能很难听到。人们很容易的就一头扎进数据科学和人工智能领域当中。然而,如果不首先了解数据管理(以及数据的其他方面)的重要性,就很难取得进展。
    记住,AI即数据。在没有数据的情况下,你无法使用AI或机器学习做任何事情,因此你必须首先确保理解并管理数据的生命周期。
    好的数据管理的标志
    数据管理虽然不是CIO最重要的方面之一,但它对机器学习和人工智能却是至关重要。老话说得好,“输出质量是由输入质量决定的”用在这里非常合适,因为如果你拥有的是糟糕的数据,你也将得到一个糟糕的模型。一个糟糕的模型反过来又会告诉你去做错误的事情,这确实会对你的组织造成一些损害。
    也就是说,当你的数据管理得当时,人工智能绝对可以改变一个组织的能力和可能性。
    为了确保你的组织在使用AI时走上正确的道路,你需要仔细查看你的数据管理实践。一个数据管理的关键要素之一是理解:
    你的数据来自何处
    谁访问或更改了该数据
    如何使用你的数据(例如,你是否有权将数据用于其他目的?)
    收集数据的时间
    你的数据在过去有什么用途(以及将来可能如何使用)。
    4个需要检查的领域
    在接下来的一年里,想想你的目标。如果AI出现在这个列表上的任何地方,你都需要认真考虑如何从事一些专注于数据和数据管理的最佳实践。在新年的会议中考虑一下这些问题。
    首先,为了确保你的数据不是垃圾,你需要从全局开始,虽然这听起来可能违反直觉。你需要构建一个数据策略来回答围绕数据的这些“大”问题,然后考虑治理、质量和集成等相关的关键元素。以下是我认为可以帮助你为AI做好准备的几个方面:
    数据策略:即数据的“who, what, when, why, 以及 how”。你的数据策略会告诉你所做的一切。如果你没有数据策略,你确实需要制定一个。
    数据治理:管理组织数据的(或应该)的规则和系统。数据治理应该由数据策略来驱动。治理应该考虑(并管理)数据的所有方面,包括数据质量、数据访问和数据集成。
    数据质量:拥有一个能够确保数据准确和有用的过程和系统。数据质量的保证需要从收集数据的瞬间开始,并在整个数据生命周期中持续。数据质量应该由数据治理规则/系统来决定和驱动。
    数据集成:许多人会将数据集成到其他领域(不管他们是否有这样的意识),但是他们应该在考虑数据时就考虑到这一点。它将被数据策略所告知和驱动,并与数据质量密切相关。必须花时间考虑如何在整个组织和整个数据生命周期中集成数据。
    数据管理、数据策略和数据治理可能不像谈论人工智能和机器学习来得那么吸引人,但是在能够正确地使用人工智能之前,必须先将这些数据整理好。当你的同事在下一次社交活动中不断谈论人工智能时,你必须提醒他们数据有多重要。提醒他们“输出质量是由输入质量决定的”--尤其是在人工智能和机器学习方面。
    在未来一年,我预计我们将看到会有比以往任何时候都多的资源转向人工智能和与是人工智能相关的项目上面。如果人工智能是你所在的IT组织的下一个重点关注领域,那就从数据管理开始吧,这样才能为自己最后的成功做好准备。