真正的未开发资源:非结构化数据
我们可以利用的类比方法的唯一积极方面是,应提炼原始资源以获取更多价值。简单定义,结构化数据是存储在数据存储区中的信息,这些信息维护数据的某些架构结构,并具有定义的类型以及数据之间的关系。非结构化数据通常没有任何结构上下文,例如图像,视频,电子邮件,文档,文本文件和许多其他数据源。从所有人的角度来看,公司收集的大多数数据都是非结构化数据。对于大多数组织而言,超过80%的数据是非结构化的。对于某些组织,它可能接近其总数据的90%。有人称此非结构化数据为“暗数据”,因为仍有许多值需要提取。因此,真正的价值不仅仅在于提取结构化信息的价值,还有非结构化数据。信息经济的石油大亨是那些做得最好的人-Google,Facebook,亚马逊,微软以及他们的世界。
人工智能和机器学习非常耗费数据。训练AI模型需要大量数据。挑战来自将大数据资产转变为有价值的机器学习培训模型。就像石油经济中的财富集中在少数寡头和国有企业一样,我们也开始看到大数据驱动的AI集中在一些大公司中,这些大公司积累了大量的大数据。但是与石油不同的是,任何组织都可以使用大数据驱动的AI,该组织可以创建一种策略来收集大量适合于机器学习的非结构化和结构化数据,并适当地精炼该数据,以随着时间的推移从中获取更多的价值。
有远见的组织正在成为“人工智能第一”,而要成为人工智能第一,您需要首先是数据。但是,不要后退地认为数据是新的石油,因为事实并非如此。数据几乎是无穷无尽的资源,但是,您需要根据数据的价值来提取价值并实现其前景。数据是潜在的,要由您来实现其全部潜力,尤其是在AI的情况下。