数据敏捷,HTAP数据库既决效率又决生死
数据库发展的这50多年以来,联机事务处理OLTP和联机分析处理OLAP两条道路上的风风雨雨,源自用户需求的驱动,也经历了漫长的“融合-分离-再融合”的演进过程。
但是,在没有出现新一代HTAP数据库前,想要实现数据敏捷却很困难。为什么?
实际上,在同时支持OLTP和OLAP场景的HTAP数据库技术迭代之路上,一直存在着“改革派”与“改良派”两大阵营,他们从两条路径上探索着“数据敏捷”。
“改良派”基于结合中间件的模式来实现“OLTP+OLAP”的HTAP,在规模扩展与性能提升两个重要方面都受限。一方面,基于中间件实现的HTAP,其数据必须汇聚到中间件节点,然后再执行,速度必然就上不来,难以实现高性能;另一方面,数据节点之间靠中间件来汇聚实现交互,数据节点也就成了孤岛,规模化扩展受限不说,分布式事务也难以支持。
作为HTAP数据库最早的改革派代表之一,SAP HANA 通过内存数据库实现了强大的混合负载能力,实现了很高的性能,快是快,但数据量有限,毕竟基于单一存储架构,在规模化扩展上容易受限。更令众多用户望而却步的是HANA“贵且专有”,仅在使用SAP的大企业有少量用户。因而,这一代HTAP并没有真正扩展起来,也并没有流行成为数据库行业大趋势。
因为这些不足,所以这类数据库厂商也很难构建出数据敏捷(Data Agility)的能力。
近年来,随着互联网的发展,数据爆炸式的狂增,海量、实时、在线的需求越来越广泛,大量采用MySQL和PostgreSQL(PG)开源数据库的新一代企业,在针对提升热数据的实时在线分析能力上有着强烈的需求,特别是从事线上业务的数字化转型企业,这类需求尤为强烈。比如电商、游戏、数字媒体、金融科技、网络安全等互联网和数字化业务,其新鲜数据的实时分析能力,强化了数据敏捷,在很大程度上直接决定了企业未来发展的兴衰存亡。因为只有构建了数据敏捷,才能实现业务敏捷。
当新一代HTAP的发展成为全球数据库行业中的大趋势之时,以Google Cloud谷歌云的AlloyDB、Snowflake的Unistore、PingCAP的TiDB等为代表的新一代“改革派”,不仅打破了过去OLTP和OLAP两大典型应用场景的传统定位,获得了强大的数据实时处理和分析计算能力,而且基于分布式架构,实现了传统数据库、数据仓库难以实现的高性能、高扩展与实时处理能力。与此同时,“改革派”让数据敏捷(Data Agility)成为了HTAP数据库发展的关键词。
目前,有两大重要原因正在改变着新一代HTAP的市场需求和技术环境。一是来自用户实际的实时分析需求在攀升,特别是MySQL和PG开源数据库用户对于实时分析的需求在激增,迫切需要拥有HTAP的能力。二是,近些年来随着公有云的快速迭代发展,企业上云从刚需再到全面加速应用落地,分布式与云原生的叠加效应,也正在加速重构企业数据架构,并进一步影响着HTAP数据库的发展。
应尽其用,充分展现数据敏捷的行业价值
正如PingCAP CEO刘奇之前所言,一个好的数据库不是写出来的,而是靠用出来的。在HTAP赛道上,国内外的选手也越来越多,数据库行业“HTAP化”趋势日益明显,那么新一代HTAP数据库究竟适合哪些用户呢?
在早期还没有诞生新一代HTAP数据库之时,MySQL和PostgreSQL可以满足用户的基本需求,在较小规模数据量情况下MySQL 数据库可以应对OLTP实时业务的挑战。
后来数据仓库兴起,诸如数据仓库(Data Warehouse)、数据湖(Data Lake)、湖仓一体(Data Lakehouse)等大数据技术可以处理大规模的数据量,但无法实现在线服务,可以想象一下,要将Hadoop直接当做一个OLTP数据库平台去用,将是多么尴尬的事情。再者,大数据栈要为用户提供毫秒级别的响应,也是挑战不小。
但是,新一代HTAP数据库诞生后,在扩展性、TP与AP融合的HTAP两个方面得到充分发挥,成功开辟并构建了一个数据敏捷(Data Agility)的数据库发展区域。以此定位,将为用户提供更简单、更易用的新一代HTAP数据库,这也成为了TiDB的定位。
事实上,全球已有众多MySQL应用开发者,他们都需要更具备数据敏捷(Data Agility)的数据库来承载。因此,新一代HTAP数据库与传统数据库对比有错明确的错位。包括Databricks、MongoDB、Confluent、Snowflake、PingCAP等厂商,都基于云生态而发展,而得以彰显其价值。TiDB也成为了云生态的受益者,发布了全托管的数据库即服务(DBaaS)产品TiDB Cloud,为企业用户提供开箱即用的TiDB服务。同时TiDB还陆续上线了亚马逊云科技与谷歌云的Marketplace,以及阿里云云市场。
在更完整的生态对接方面,数据库从来都不是单独被使用的,而TiDB也在持续改进和生态环境的对接。在新版本中,TiDB引入了用户级别锁和TiCDC下的Avro格式向Kafka同步数据的支持。TiDB从6.1版本开始支持兼容MySQL的用户级别锁管理,支持GET_LOCK、RELEASE_LOCK、RELEASE_ALL_LOCKS 等锁管理函数,这使得TiDB得以更好支持现有 ORM框架的生态。尤其在数据敏捷(Data Agility)方面,TiCDC工具表现出色,支持将TiDB数据库的增量数据转换为Avro格式,并发送到Kafka的方式,这将使得TiDB数据库与Kafka、Snowflake、SQL Server等众多生态系统都连接起来。从而实现对常用的数据格式的支持,降低开发复杂度。
全球云观察分析指出,近年来,TiDB快速发展并获得先发优势的秘籍,必然就在于将“数据规模高扩展性与数据处理实时性”得以有机结合,未来也将充分展现出数据敏捷(Data Agility)定位的行业应用价值。
Scalability x HTAP虽好,也需要两大生态的助攻
然而,Scalability x HTAP虽好,也需要开源和云两大生态助攻。
开源优势在于拥有开放生态,敏捷创新与更快迭代速度。不过,在PingCAP联合创始人兼CTO黄东旭看来,真正的迭代速度或者说更有价值、更有意义的迭代速度在于开源软件如何帮助应用开发者更快地开发出新应用。
在这之前,PingCAP推出一个OSS Insight.io的开源项目,采用了46亿个GitHub事件数据来构建,开源社区开发者可以凭借这个OSS Insight开源项目分析工具,多维度深入洞察开源项目的健康状况,从而获得有用的价值分析。值得关注的是,PingCAP只用了两个人一周时间,就成功构建了整个OSS insight网站,其背后却只有一个 TiDB Cloud 支撑其在线数据、所有数据的分析以及图表等应用。
可见,通过开源数据库与云服务融合发展,新一代HTAP数据库能够极大降低应用开发的复杂性,加速开发进程,为应用和业务赢得更多的时间,从而助力数字化企业赶超行业对手,占得市场先机。
在过去几年中,开源与多云的融合发展,已经凸显出来了三个关键技术赛道,包括云原生、数据技术和人工智能,新一代HTAP数据库已经融合了这三大关键技术,并以云服务方式对外发展。
基于开源的开放性,通过云原生的灵活性,发挥公有云带来的低门槛、更快速、更有业务友好性,通过与公有云合作,新一代HTAP数据库在第三方云平台的公有云上部署,可以应对当前企业出海,走向全球化发展面临的数据挑战。
然而,并非所有的企业都会将自己的应用全部上公有云。在发展to B业务过程中,大家也清醒地认识到一个事实,在国内的中大型用户,基本上都采用的是1+N的部署模式,既采用自己数据中心的私有部署模式,同时又在公有云上部署,面向全球发展出海业务。为此,一种经典的SQL体验,多种部署形态的新一代HTAP数据库将更利于企业用户业务发展需要,并助力加速企业数字化创新。这也是TiDB发版策略变化的原因所在。
不同于之前DMR开发里程碑版,PingCAP最新推出了LTS长期支持版TiDB 6.1,采取长期支持版+开发里程碑版的发版方式,对外提供服务。TiDB可以最大限度兼顾用户的快速迭代和稳定投产两大需求。在没有特定需求开发的情况下,用户可以选择最新的LTS版本投产;如果需求某个DMR发布的新功能,则可以选择该版本进行 PoC以及试运行,待到对应的LTS版本发布后升级TiDB到稳定生产状态。
全球云观察分析认为,部署在多云架构上,还保持着开源快速迭代的数据库服务,可以同时满足多种企业级部署模式,提供灵活更多元的开源数据库应用选择,来满足企业数字化转型进程的需要。在很大程度上,这更利于实现数据敏捷的行业价值,体现出了一个开源数据库厂商重塑行业格局的决心与信心。从社区走向商业化,从互联网行业走向企业级to B、to G,TiDB也迈向了企业级发展的新阶段。
此外,在坚持开源开放生态与云生态融合制胜的同时,TiDB也不断在降低应用门槛。一是,成为MySQL生态圈更好的邻居。二是,基于开源与云的融合发展趋势,持续兼容更多的生态组件和生态产品。未来,TiDB将与整个MySQL生态和云生态协同协作,助力企业构建创新业务构架和实现创新的技术目标。
源于开源带来的开放性,通过开源数据库天然和大数据生态集成,TiDB在增强跨云能力的同时,也对上游向上结合人工智能算法技术生态,进一步强化“AI For DB”的能力,向下与云原生的生态融合,面向应用开发生态,强化数据敏捷的综合能力。
全球云观察分析指出,融合开源和云两个生态的价值,TiDB从第三方云平台的公有云部署,到纯托管的TiDB Cloud部署,再到LTS企业稳定版私有部署,提供了一致的SQL经典体验,聚焦了用户价值的每一个环节,满足数字原生企业和数字转型企业的广泛需求。V6版的发布,对重塑行业格局带来了积极的意义,使能行业数据价值释放,新一代HTAP数据库令业界刮目相看。因此,在开源和云两大生态助攻下,基于Scalability x HTAP的数据敏捷发展区间的创新构建,HTAP数据库“改革派”必将迎来新数据时代发展的春天。
小结:不容小觑,依然面临四大挑战
当前,HTAP概念虽然很火,新一代HTAP数据库也开辟了数据敏捷的发展新区域,但是我们如果理性地看,不难发现HTAP一直还没有成为主流应用,原因是什么?全球云观察总结指出主要有四大挑战,不容小觑。
其一,应用场景仍在探索。众多用户不知道什么场景下什么时候用HTAP,虽然互联网企业有实时数据分析的明确需求,但是尚有很多传统企业还不知道如何利用实时数据来提升业务价值。
其二,应用门槛高。在公有云领域应用最广泛的还是RDS,即Relational Database Service在线关系型数据库服务,而HTAP较少。目前大多数HTAP数据库是商业数据库和开源数据库,以私有部署为主,需要用户采购服务器,既要懂得HTAP数据库应用部署,又要懂得基础设施架构,有一定的应用门槛。不过,在HTAP与云原生结合之后,多云化带来部署门槛降低,公有云优势与HTAP数据库优势都将双双凸显。
其三,架构人员亟待调整。以前在用户实际应用中,大数据技术栈使用比较多,DBA运维部门与大数据部门,即TP和AP的组织架构独立,长期以来是两个部门在维护不同的技术栈,现在HTAP正在改变用户的技术架构和组织架构,一栈式模式带来了架构人员统一的解决之道。
其四,新一代HTAP数据库厂商风起云涌。如谷歌云、Snowflake、亚马逊云科技、PingCAP等都在发力新一代HTAP数据库,聚焦数据敏捷的发展新格局,大家都想去推动行业洗牌,重塑行业格局。