拓数派创始人兼CEO 冯雷(Ray Von)
【资料图】
钛媒体获悉,拓数派(OpenPie)不久前发布了全新产品虚拟数仓PieCloudDB「云上云」版(CoC:Cloud on Cloud),并正式上线基于阿里云构建公共云数据仓库服务。
据创始人兼CEO冯雷所述,基于数仓虚拟化打造的旗舰产品PieCloudDB,是对行业顶级数据库的抽象思考和设计原则复用为技术路线,实现了分析型数据数仓上云虚拟化。
拓数派成立于2021年,创立之初便获得头部产业基金连续两笔天使轮投资,并于2022年6月再度获得新一轮战略融资,其核心产品PieCloudDB是面向企业级的云原生虚拟数仓。
如今过去两年,拓数派已相继发布PieCloudDB的企业版/社区版(基于私有云部署)、软硬件一体机、「云上云」版本(首先基于阿里云构建公共云数仓)。
拓数派为此给出了数仓虚拟化技术理念的完整演绎。据介绍,团队将多个数仓整合到一个高可用的云虚拟数仓,以打通多云数据管道,数据计算资源按需扩缩容,同时可计算数据空间实现了数量级增加,数仓的管理复杂度和成本均得到降低。这个过程中使用了存算分离、eMPP(elastic Massive Parallel Processing,弹性大规模并行计算)、服务器无感知及TDE等多项核心技术。
PieCloudDB数仓虚拟化四大核心技术架构:
云原生存算分离架构:运用元数据-计算-数据分离的三层架构,实现云上存储资源与计算资源的独立管理。云上计算资源可弹性分配,有查询计算任务的时候按需启动,按照使用时间和规模计算成本。
eMPP分布式专利技术:在云上,PieCloudDB利用eMPP架构,实现多集群并发执行任务。企业可灵活进行扩缩容,随着负载的变化实现高效的伸缩,轻松应对PB级海量数据。
全新的存储「简墨」和缓存架构设计:在计算层,各个计算节点针对元数据和用户数据都设计了多层缓存结构,避免网络延迟和数据移动,提高计算效率,保证用户的实时性需求。针对底层对象存储设计了高效的文件格式,可在节省网络请求的同时提高计算效率。
全新的优化器「达奇」:可更智能高效地生成统计信息,并生成更高效的查询计划,达奇优化器支持聚集下推,预计算,Block Skipping等高级特性,全面满足各种复杂的分析查询需求。
云原生数据库/数仓技术近些年在概念上非常热,但怎么实现云原生的弹性优势、存算分离,各家厂商的产品成熟度和技术积累难免有所差异。从产品迭代周期和研发复杂性上看,拓数派的技术路径难度颇高。据了解,团队已经进行了百万行代码的推倒重写。
以eMPP为例,PC版分析型数据库所采用的传统MPP技术,在遇到云端海量数据时会存在比较明显的缺陷:如拓展困难、升级部署难,以及大量的数据孤岛。eMPP则基于云计算架构的弹性并行计算,存储和计算各自作为两个独立变量,各自在云里弹性伸缩,同时可以实现瞬间扩缩容。此外,用户对于云中数据同时开启多个集群进行数据计算,可以持续将所有数据在云中存储,为已有的应用和未来的应用真正实现数据共享。
在媒体沟通会上,拓数派CTO郭罡告诉钛媒体,“团队最开始在单机版本上进行原型创新,支持多节点共享元数据和用户数据,后来才支持分布式集群,相当于在Postgres上重新实现了一个新的分析型数据库(OLAP)。”
从产品迭代节奏上,他还指出,“并不是因为Teradata退出中国,而是目前国内企业客户还是会有对一体机的场景需求,未来也会跟更多的国产硬件厂商进行适配。”“目前来看,基于私有化部署的业务占比会更高,但未来3~5年内还是希望将公有云的业务收入进行持续提升。”
另外值得一提的是,冯雷为原Pivotal(中国)创始人兼总经理,在此之前,Pivotal就已经是一家非常成功的技术公司,其支持运营的开源数据库Greenplum、PaaS平台Cloud Foundry和Java开发的Spring框架在业内赫赫有名,云原生(cloud native)一词最早起也源于Pivotal公司。
谈及Greenplum的创新逻辑,郭罡明确指出:“团队并没有沿袭GP技术栈进行创新,而是进行了数据库内核的重构;但另一方面,团队保留了GP的部分优势,通过GP生态进行更广泛的用户连接。”
在钛媒体看来,从以Teradata为代表的一体机MPP数据库产品,到Greenplum和Vertica等基于PC的MPP数据库,再到如今企业所倡导的云原生数据库/数仓,尽管市场对新一代数据技术栈的关注在近些年十分火热,但国产数据库产业的整体资金投入、人才积累以及实际应用案例的深度仍有待提高。
作为一家初创公司,拓数派正式组织研发与市场力量不过两年,有其发展的优势与契机。
(本文首发钛媒体APP 作者 | 杨丽)