2019年大数据分析市场将更加动荡
大数据分析一直是过去这十年的一个重要技术趋势,也是IT市场中最具活力和创新力的领域之一。但是如今的大数据分析市场与几年前截然不同,未来几年肯定也会有很大的变化。
2018年有很多明显的迹象表明,这十年中快速崛起的大数据市场,正在以不同的形式沉淀下来。未来几年,大数据分析市场甚至可能不会被称为“大数据”,因为很多大数据分析取得的进展都是针对人工智能的,尽管其核心是数据驱动的,但实际上并不一定要依赖于大量的数据才能在应用中发挥作用。
展望2019年,分析公司Wikibon预测大数据分析将会出现以下一些趋势:
公有云提供商正在吸收大多数大数据分析增长的新机会
企业正在将越来越多的大数据分析工作负载转移到公有云,并在这些环境中开发更多的绿地应用。
2019年,三大公有云提供商AWS、微软Azure和Google Cloud将加大力度,帮助企业将数据从本地平台迁移出来。
其他公有云提供商将难以保持自己在大数据分析市场的份额。2018年,来自公有云领导厂商的压力迫使IBM收购了RedHat。展望未来,IBM、Oracle和其他公有云提供商将更加强调混合云解决方案,帮助客户集中管理分布在私有云和公有云之间的大数据资产。
此外,越来越多的大数据公有云提供商将基础设施及服务和平台即服务细分市场拱手让给AWS、微软和Google,并将转向为业务线和特定行业提供软件服务分析应用。例如,Snowflake Computing就在云数据仓库市场大获成功,2018年得到了4.5亿美元的资金以保持增长势头。
大数据分析生态系统正在深入云原生环境
开源软件Kubernetes是一种针对管理需要在云和本地数据中心之间轻松迁移的应用的软件容器,是新一代云原生大数据的基础。过去一年中,这个市场最引人注目的趋势就是围绕Kubernetes的数据生态系统“再结晶”。
云原生大数据架构的发展,推动了2018年大量资金和并购活动的活跃。这就解释了为什么专注于多云分布式内存数据的Pivotal在其首次公开募股中就获得了5.55亿美元的资金;Talend收购Stitch,是因为市场需要一种更简单的工具来加载数据到云数据仓库;Cloudian收购Infinity Storage的一个重要原因,是企业对基于云的可扩展文件存储和对象存储的要求越来越高。
Wikibon预测,2019年Open Hybrid Architecture Initiative将开始实施HDFS、MapReduce、HBase、Hive、Pig、YARN和其他Hadoop主要组件的模块化和容器化计划。此外,主要赞助方——即将成为Cloudera 和IBM/Red Hat一部分的Hortonworks公司——将在2019年初提供下一代商用Hadoop解决方案,将这一架构融入他们各自的混合云解决方案组合中,其他云解决方案提供商也会紧随其后。
2019年,Spark、TensorFlow、流媒体、分布式对象存储和块存储细分领域中类似的容器化项目也将开始实施,因为整个大数据堆栈将在基于Kubernetes的DevOps环境中通过解耦来实现更灵活的部署和管理。
大数据分析平台提供商均在大力投资数据科学工具链
大数据分析解决方案提供商正在争相赢得新一代AI项目开发人员的心。过去几年中,市场中涌现了众多新一代数据科学工作台,包括Anaconda、Dataiku、DataKitchen、DataRobot、Dimensional Mechanics、Domino Data Lab、H2O.ai、Hydrosphere.io、Kogentix、Pipeline.ai和Seldon。此外,老牌大数据分析厂商如IBM、Oracle、Cloudera和Alteryx等,都已经进入这一领域,三大公有云厂商亦是如此。
2018年,DataRobot、Tamr和Immuta纷纷得到风投资金,说明这几家初创公司在过去几年中已经扎根于数据科学工作台领域,并且也将触手伸到了中国和远东。
2019年,将会越来越多的企业强调他们能够自动执行诸如特征工程、超参数优化和数据标记等传统手动任务。大数据分析解决方案提供商将大力投资工具以加快将经过训练的AI模型部署到生产应用中的进程。随着大数据分析生态系统开始向云原生架构转变,越来越多的数据科学工作台将整合Kubernetes业务流程结构自动化任务的能力,并将容器模型集成到公有云和私有云中,这一趋势将把新兴标准(如Kubeflow)带入蓬勃发展的数据科学DevOps工具链生态系统中来。
Hadoop和Spark正在变成传统遗留技术
Hadoop在大数据分析领域发挥的作用正在逐渐消失。Hadoop市场的增长前景趋于平缓,这也成为Cloudera和Hortonworks在2018年合并的主要原因。
Hadoop的核心用例正在逐渐缩小到面向非结构化数据的分布式文件系统、用于批量数据转换的平台、大数据治理存储库和可查询的大数据存档。
2019年,Hadoop将试图把应用范围扩展到在线分析处理、商业智能、数据仓库以及其他开源项目覆盖的领域。今年年底,很多企业大数据环境将开始逐步淘汰Hadoop,即使Hadoop重点瞄准的数据湖,也更倾向于采用分布式对象存储、流计算平台和大规模可扩展的内存集群。
即使作为Hadoop替代品问世的Apache Spark,在许多以TensorFlow为中心的AI环境中也开始变成一项遗留技术。这一趋势通过数据提取/转换/加载进入到Spark的部署领域就可以看到,而且随着Schema on Read架构(将数据的处理推迟到从数据库读出后)的出现,这种趋势可能会有所放缓。
大数据正在成为数据管理DevOps的核心
用户能否快速搜索、发现、组织和管理数据资产,已经成为数字业务能否取得成功的基础。在这方面,Looker Data Science在E轮融资中获得了1亿美元,以满足大数据编目、治理、准备和可视化解决方案的市场需求。
2019年,Wikibon预测会看到越来越多的企业将数据湖重新用于应用基础架构的大数据目录中,从而提高知识工作者的工作效率,支持正在构建训练生产AI应用的新一代开发人员,并促进算法透明度和电子发现。
Wikibon还预计IBM、Cloudera/Hortonworks、Informatica、Collibra等厂商将强化他们现有大数据目录平台在管理更多元数据、模型、图像、容器和其他组件(这些组件都是AI DevOps工作流的生命线)的能力流程。企业将越来越多地跨多云环境部署大数据目录,利用新一代虚拟化工具,提供单一控制平面来管理公有云和私有云中的不同数据资产。Wikibon预测,AWS、微软和谷歌将推出自己的大数据目录,面向那些选择在公有云/私有云混合环境中部署这些服务的客户。
1 2 下一页>