大变局:国产数据库的机遇与挑战|深度研报

编辑导语:在当下的国际环境下,国产数据库的机遇和挑战正在上演中,本篇文章作者系统且详细地讲述了国产数据库的机遇和挑战,从多个层次分析了数据库的方方面面,一起来学习一下,希望对你有帮助。

就在本月,乌克兰副总理兼数字化转型部长Mykhailo Fedorov在推特上晒出了发给Oracle和SAP的两封信,希望其终止与俄罗斯的商业关系。

Oracle随后发推文称:“为了Oracle在全球各地的150000名员工的利益,为了支持乌克兰民选政府和乌克兰人民,Oracle公司已经暂停了在俄罗斯联邦的所有业务”。

俄罗斯的遭遇给了中国很大警示,在当前国际贸易摩擦加剧、国际局势多变的情况下,数据库软件作为最重要的IT基础设施之一。

中国必须实现国产化和自主可控,由此也引发了近年来国产数据库的创业投资浪潮。

一、核心结论汇总

1)数据库行业云化趋势显著,所有数据库都可直接上云,云原生架构最具优势。

Gartner预计,到2021年,云数据库在整个数据库市场中的占比将首次达到50%。

而到2023年,75%的数据库要跑在云平台之上。

2)国产数据库存在广泛替代空间。

目前,国产数据库主要应用还是在党政军领域。

国产数据库长期被Oracle、IBM、MySQL这类产品挤压,随着中美贸易战的升级,国家鼓励软件国产化,国产软件将会越来越被重视,这将是一大转变契机。

3)我国公有云、私有云、混合云将长期共存,云数据库作为基础性产品,需要支持跨云、多云、混合云

初创厂商具备云中立优势,可以避免客户被过度绑定,提供多云支持,拉动客户增长。

很多公司并未采用单一的云厂商,他们的大多数业务都运行在混合环境和多云环境中。

4)湖仓一体成为发展热点。

「湖仓一体」是一种新型开放式架构,将数据湖极低成本存储大量数据和数据仓库高性能进行大量数据处理的优势充分结合,通过一套架构、一个集群、一份数据,真正消除数据孤岛。

5)大数据与数据库一体化趋势明显。

用户可直接用SQL处理海量数据对厂商有以下需求:

  1. 内核引擎强劲,一定性价比对外输出海量数据分析处理能力;
  2. 生态工具要完善。

6)场景端时效性要求倒逼数据库厂商提升产品性能,产品性能持续领先是决胜要素之一。

产品硬核实力及成熟度是决定营收规模及增长的主要因素。

7)分布式数据库快速发展。

分布式数据库物理上更贴近业务部门,可以降低通信成本;同时增加数据的适当冗余,因为一个地方出了故障不会引起整个系统崩溃。

8)智能化运维助力数据库智能调优。

启发式机器学习技术给予海量运行数据形成智能运维模型,自动化处理各项任务,例如自动管理计算与存储资源、自动防范恶意访问与攻击、主动实现数据库智能调优。

9)开源策略成为部分厂商吸引用户、盘活生态和促进技术发展的重要手段。

通过将底层技术开源,可以吸引更多人开发、测试、维护,不仅可以降低厂商售后和服务的成本,还可以进一步提高软件质量,同时有利于构建生态。

10)One size cannot fit all。

虽然混合事务分析HTAP在中等规模客户的应用已成为热点研究方向。

但HTAP价值在于更加简单通用,对于中等数据量规模用户可满足需求,对于超大型企业数据分析性能可能不如OLAP。

11)更多利用硬件发展红利是必然趋势

计算需要GPU加速,存储方面持久存储(NVM)代替硬盘存储,需要重新设计架构利用特性。

存算分离执行路径变长,数据库需采用高性能网络等。

12)其他:OLAP和NoSQL将是主要的创业和投资方向。

在国产数据库的OLTP领域,华为、阿里、腾讯等厂商有技术优势和资金优势,同时也有生态和渠道的优势。

创业公司进入OLTP领域门槛非常高,而在 OLAP领域,建立新一代数据仓库以及NoSQL数据库方面,未来会涌现更多的创业公司,这块可能是很多投资机构接下来要重点关注的方向。

二、市场环境

1. 数据库的定义及边界

数据库管理系统是各类信息系统不可或缺的基础性平台,主要任务是对数据的归集、分类、组织、处理、存储、分析、应用的全生命周期提供共性技术支撑。

数据库大致可以由内核组件集与外部组件集共同组成,其中外部组件集以数据库配套的独立支撑软件为主,例如数据库驱动。

内核组件集则一般可以分为管理、网络、计算和存储四大模块。

  1. 存储组件:负责数据持久化存储的组件,对数据库的日志、索引、堆数据等内容进行管理。
  2. 计算组件:又可以称为协调组件、服务组件,负责响应数据库访问请求,并将SQL语言解析成为数据库对应的内部任务。计算组件在分布式、集群等架构下也承接大部分的计算任务,例如排序、联接等。
  3. 管理组件:公共组件部分,用于对数据库全生命状态的管理,例如心跳管理、集群管理等,以及各类中心化任务承接,如死锁仲裁、存储映射管理、元数据管理、事务号管理等。
  4. 网络组件:管理整个数据库管理系统的网络通讯的组件。数据库的网络通讯有内部和外部之分。内部一般指在集群环境或者分布式环境下的各节点之间的高速数据交换。外部一般指的是各个数据库通过对外访问协议与存在于客户端的驱动进行互联的网络交换。
  5. 驱动组件:支撑数据库能正常提供服务的配套独立组件,数据库管理系统基于其通用特性,往往可以对不同语言开发的软件提供数据服务。但是由于数据库本身只对外提供网络通讯协议,对协议的封装则由客户端侧的不同驱动组件完成。通常有支持JAVA 语言的JDBC 接口、支持C 语言的ODBC 接口和C-API 接口等。

2. 行业常见名词释义

  1. 关系型数据库:采用了关系模型来组织数据的数据库,其以行和列的形式存储数据,以便于用户理解,关系型数据库这一系列的行和列被称为表,一组表组成了数据库。用户通过查询来检索数据库中的数据,而查询是一个用于限定数据库中某些区域的执行代码。关系模型可以简单理解为二维表格模型,而一个关系型数据库就是由二维表及其之间的关系组成的一个数据组织。
  2. 非关系型数据库:对于NoSQL并没有一个明确的范围和定义,一个共同的特点都是去掉关系数据库的关系型特性。
  3. 数据湖:是一个集中式的存储,允许以任意规模存储结构化和非结构化数据。可以存储原始数据,而不需要先转化为结构化数据,基于数据湖之上可以运行多种类型的分析。
  4. 数据仓库:是处理过后的结构化或者半结构化数据,更加靠近数据的消费端。
  5. 湖仓一体:使用一套技术去实现数据湖和数据仓库的能力,类似多模的概念。

3. 行业历史及阶段

数据库发展经历萌芽——商业化起步——发展成熟阶段。

1)萌芽阶段:1960年,GE发布IDS数据库系统(Integrated DataBase System),制定网状模型语言标准,1969年,IBM发布IMS数据库系统(Information Mangement System),使用层次模型。解决了数据集中和共享问题,用户在对两种数据库进行存取时,需要指出存储方法和路径,易用性较差,没有应用起来。

2)商业化起步:1970年-1980年,关系模型提出,IBM开发出关系型数据库System R,与之相适配的结构化查询语言SQL。70年代末,关系型数据库在Oracle和DB2中得到发展和商业化,SQL不关注获取数据的具体过程,把用户从数据操作细节中解脱出来,只描述想要的数据即可,成为−关系型数据库得以成功的关键。

3)发展成熟(1980-1990):主要表现为

  • 数据库生态逐步完善,与程序设计语言、软件工程、信息系统设计等Ρ技术互相影响;
  • 开源数据库发展,当前2大开源数据库系统——MySQL和PostgreSQL诞生;
  • OLAP开始发展。早期数据库处理在线交易业务,被称为OLTP(On-Line Transaction Processing);业务数据积累,OLAP出现(On-Line Analytical Processing);
  • 数仓概念(Data Warehouse)提出。单机难以应对爆发数据增长,分布式技术走上舞台。

4)云数据库时代(1990-):云计算的发展带动各类基础软件开始云化转型,云原生数据库天然具备云上的弹性、灵活性、高可用等特点,实现了存储和计算完全解耦,作为服务整体交付,节约了用户管理基础架构所需的成本、时间和资源,能够提供丰富的产品体系,经济高效的部署方式、按需付费的支付模式。

数据库的云化经历了2个阶段:

  • 一是云托管,将原有数据库系统部署在云平台,将数据库服务化,按需购买,用户自行负责整个数据库系统的可用性、安全性和性能,有自己的IT运维团队,有自己的数据库管理团队,能力要求高,人力成本投入大;
  • 二是云原生,利用云化的资源池特点完全重构数据库的层次结构,使计算、存储、网络等资源彻底解耦,更充分灵活利用资源池的弹性。后一阶段对数据库的改造更为彻底。

云原生数据库的特点:

  1. 存算分离,计算层解析SQL,并转为物理执行计划,存储层负责数据缓存与事务处理;资源解耦与池化,目前进展是CPU和内存绑在一起,和SSD持久化存储分开。下º一步随着非易失性存储和RDMA技术的成熟,会将CPU和内存隔离,内存再进行池化,三层池化有利于客户按需取用;
  2. 执行引擎的完全弹性,云原生架构,下层是分布式共享存储,上层是分布式共享计算,中间用于计算存储解耦,提供弹性能力;
  3.  高可用与数据一致性,可用性是指集群的部分节点发生故障时,系统可以在正常响应时间内对外提供服务;一致性是指更新操作完成后,各个节点可以同时看到数据的最新版本,分布式系统存在网络分区,需要在一致性和可用性之间做出权衡;
  4. 多租户与资源隔离,传统做法是一租户一数据库系统,或者多租户共享同一个数据库系统,运维管理复杂,避免某个租户“吃掉”系统资源,云原生场景下,数据库可以为不同的租户绑定相应的计算和存储节点实现资源隔离;
  5. 智能化运维,比如自定义备份策略、自动在线升级修复BUG,监控自定义报警灯。

以AP为例,OLAP从最早的数据库一体机,逐渐演变到MPP数据库和Hadoop数据库,再到云原生架构的数据库,数据库一体机价格非常昂贵,国产替代有南大૟通用、人大金仓、天玑、云和恩墨等。

而MPP数据库的实时性非常强,现在主要是Greenplum、Teradata。

最后是Hadoop,有星环、中兴、华为等传统的硬件厂商在搭建Hadoop数据仓库。

最新一代为云原生,检具扩展、存算分离、弹性扩容等特点。

共享存储架构:服务器,有计算有内存,存储完全共享,集群规模很小,存储受限,架构也受限。

MPP架构:存算一体,数据存储容量存在瓶颈,无法满足随业务而快速增长的数据量存储需求。

扩容涉及数据的重分布,产生大量网络、内存开销,影响业务连续性。

多ETL任务时,会大量抢占资源,从而影响数据分析的效率,导致查询超时甚至因为集群负载过大后整个集群崩溃不可用。

例如,Teradata,软硬一体,网络硬件是专有硬件,比较贵,几百节点,扩容比较复杂。

加一个节点,要挪过来一部分数据,所有数据要重新打散排一遍;GP解决软硬一体,X86服务器上就可以,用软件实现TD用硬件实现的过程;

Hadoop:随着数据仓库在 Hadoop/Hive 体系上搭建和完善,ETL 任务全部转移至 Hadoop 集群,这个阶段使用 Presto 完成 OLAP 分析。

Presto 天然和 Hive 共享元数据信息,且共同使用物理数据存储,即插即用。

大量的对数仓表的灵活查询使用 Presto 完成;组件非常复杂,软件定义存储,分布式文件系统。

存储和计算还是绑定的,交付非常复杂,做了一些边缘场景;

云原生架构:存算分离、弹性(动态启停)、无状态的网线和计算节点,错峰使用,例如Snowflake、偶数科技。

4. 市场需求及价值

1)数据库分类——按应用方向

按应用方向不同,关系型数据库又可分为交易型数据库(OLTP)和分析型数据库(OLAP):

交易型数据库主要面对与企业业务数据相关性强的事务场景,例如银行转账,电子商务等,涉及高并发数据的“增、删、改、查”。

分析型数据库对来自交易型数据库和其他数据源的历史数据进行大批查询,应用在海量、复杂数据环境下为企业决策提供数据分析。

2)数据库分类——按数据组织形式

按照数据组织形式,数据库可以分为关系型和非关系型(NoSQL)数据库。

关系型数据库的核心是数据表(行、列数据)、表内结构和表间关系。

非关系型是一种新型的数据结构化存储方法的集合,适用于各种非结构化、半结构化数据,能够很好地满足海量数据的高并发读写需求。

典型的NoSQL数据库包括键值数据库,列存储数据库、文档型数据库、图数据库,其中,根据DB-engines排名ૡ,以图数据库受欢迎度最高。

部分非关系型模型示意图:

图数据库

图数据库(GDB-Graph Database),是一个使用图结构进行语义查询的数据库,它使用节点、边和属性来表示和存储数据。

目前主流的图数据库选择的图模型是属性图。属性图由点、边、标签和属性组成。

关于图数据库的实例:

图数据库直观表示关系,对于高度ਲ਼互联数据非常有用(数据量越大,越复杂的关联,优势明显)。

应用场景来看,图数据库还是针对用大量数据并且需要多维处理或者多层渗透的环节,因此金融、电商、社交等领域中使用比较多,且场景的针对性较强。

  • 社交领域:Facebook, Twitter,Linkedin用它来管理社交关系,实现好友推荐;
  • 零售领域:eBay,沃尔玛使用它实现商品实时推荐,给买家更好的购物体验;
  • 金融领域:摩根大通,花旗和瑞银等银行在用图数据库做风控处理;
  • 汽车制造领域:沃尔沃,戴姆勒和丰田等顶级汽车制造商依靠图数据库推动创新制造解决方案;
  • 电信领域:Verizon, Orange和AT&T 等电信公司依靠图数据库来管理网络,控制访问并支持客户360;
  • 酒店领域:万豪和雅高酒店等顶级酒店公◐司依使用图数据库来管理复杂且快速变化的库存。

图数据库——大想象空间来源于与AI的结合。

图数据库的数据存储模型其实特别适合机器学习计算,因此,不少人会直接选择直接在图数据库上跑机器学习算法。

近年来,随着深度学习的兴起,有了在图数据库上做图神经网络(GNN)的案例。

5. 市场规模及增速

1)全球市场规模及增速

Gartner报告显示,2020年全球数据库市场规模为648亿美元,占基础软件支出最大构成。

未来,数据库市场的规模还将继续增长,预计到2024年,全球数据库市场规模将达到1000亿美元。

云数据库是未来趋势:云原生数据库正在成为一种重要的数据库新形态,根据Gartner数据,2020年云数据库已占据整体数据库市场份额的40%,且贡献了增长市场的9成以上份额.

据Gartner预测,到2023年75%的数据库会被直接部署或者向云上迁移,营收数据将占据数据库整体市场的半数以上。

Gartner对数据库细分市场的规模统计,2020年关系型数据库全球市场规模为531亿美元,占比83.3%。

根据Gartner,2020年非关系型数据库市场增速34.5%,关系型数据库市场增速15.2%。

全球非关系型数据库(NoSQL)在 2020~2022年市场增速30%左右,远高于数据库市场整体增速。

&#25d3;

2)中国³市场规模及增速

数据规模爆炸性增长,数据应用快速深化,叠加网信产业的快速发展和新基建的深度布局,我国数据库产业进入重大发展机遇期

据中国信通院测算,2020年中国数据库市场规模约241亿元。

预计到2025年,中国数据库市场规模将达688亿元,年复合增长率为23.4%。

我国数据库市场规模在全球占比约5.2%,而同期我国IT支出在全球占比约12%。

2020年我国数据库市场规模在国内IT支出占比约0.9%,而全球这一比例则达1.9%。

两组数据都表明,我国数据库市场增长潜力巨大。

伴随云计算底层设施成熟,云端数据库市场份额迅速扩大。

中国信通院报告显示,2020年我国公有云数据库市场规模为107.68▥亿੊元,占我国数据库规模45%,未来5年复合增长率36.1%,预计到2025年公有云数据库市场规模将超过500亿元。

中国关系型数据库规模为31亿美元,占比76%。

由此可见,关系型数据库在国内外无疑都是数据库中的绝对主流。

6. 市场增长的驱动因素

互联网大规模商用,加速数据的产生、流通和融合,海量数据规模和复杂数据结构驱动数据库市场稳定增长。

IDC和Ovum 预计2024 年全球数据总量和流量将分别保持4 年CAGR 28.1%和27.6%的强劲速度,更大的数据量级对数据库的扩容、性能、功能提出了新的需求。

此外,人工智能、机器学习、语义分析、图像识别等技术则需要大量的非结构化数据来开展工作,NoSql存在发展机遇。

根据IDC 数据,非结构化数据占整体数据量比重高达80%以上,这意味着绝大部分非结构化数据的价值还未被充分发掘。

企业上云趋势明显,数据库成为连接IaaS到应用的关键环节。

数据显示,在过去十年,企业上云的意愿从3%上升到了84%。

2020年我国已经应用云计算的企业占比达到72.1%,较2019年上升了6%。

伴随着企业上云进程的不断深入,企业上云从资源上云逐步进入到应用上云,数据库作为PaaS层产品,成为关键环节。

政策利好本土厂商,「信创」风口,国产数据库的新机遇。2020-2022 三年时间,信创产业进入好用阶段,将在党政军和八大核心行业(金融、电信、能源、电力、医疗、教育、交通、公共事业)铺开。

云数据库厂商、本土数据库厂商份额持续增长,国际数据库品牌份额下降。

信创指硬件和软件的一系列信息化创新技术,可理解为数字基建,是新基建最底层的一环,主要包括核心芯片、基础硬件、操作系统、中间件和数据服务器等领域。

信创产业是数据安全、网络安全的基础,也是「新基建」的重要内容,将成为拉动经济发展的重要抓手之一。

从信息基础设施国产化程度来看,目前国内重要信息系统、关键基础设施中使用的核心信息技术产品和关键服务大多依赖国外。

例如中美贸易战,Oracle停止美国敌对国家的数据库服务后,导致数据库功能缺失,促使数据库加快国产替代。

三、产业链与行业格局

1. 产业链及行业图谱

数据库与芯片、操作系统并列为全球技术三大件,也是企业IT系统必不可少的核心技术。

在数据库软件产业链中,上游多是以服务器厂商、芯片厂商组成的网络和硬件厂商。

中游由数据库、操作系统和中间件等基础软件厂商组成,下游主要是各行业的应用开发商。

数据库管理系统在企业数据流管理体系中处于核心位置。

业务行为相关的数据首先在不同的操作型数据库中进行事务处理OLTP,然后通过ETL工具(提取、转换、加载)汇聚整合成面向主题的、全局的一致数据集合,存储在业务数据临时存储系统ODS中。

ODS的数据再次通过ETL工具转换集成为结构化数据进入企业统一的数据仓库。

数仓数据针对某个特定主题分类,进入到从属型数据集市。

根据企业需要,基于操作型数据库、数据仓库和数据集市也能够构建企业数据湖,存储着包括原始数据、转换数据在内的各种结构化、半结构化、非结构化数据,实现数据的集中式管理。

经过汇总后的数据通过OLAP 操作分析处理,并通过BI 工具以体系化、可视化的方式直接呈现在👽决策者面前,为业务提供数据支撑。

2. 行业集中度

从全球范围来看,微软、Oracle、亚马逊为前三大厂商,占据全球市场接近70%市场份额。

2020年微软同比增长超17%,规模首次超过Oracle,主要来自于云数据库的增长。

国内:海外巨头占据市场主要Š份额,云化和国产替代趋势下海外厂商份额不断下降。

2020年国外厂商仍占据我国数据库市场80%以上份额,并已形成较为完善的数据库生态,国产替代安全自主可控下的国产数据库在未来将有很大的市场空间。

中国市场分应用来看,OLTP仍是国外厂商占据最大市场份额,OLAP和非关系型数据库中国厂商具备一定商业基础。

OLTP一直由Oracle、IBM DB2、MySQL、SQL Server等占据主导地位,市场份额超90%,而国内阿里的OceanBase、腾讯的TBase、达梦数据库、PingCAP才刚刚起步。

TiDB目前是在互联网行业应用较多,OLAP国外MPP架构的Tßeradata、Greenplum,国产替代厂商有南大通用、人大金仓、天玑等,以及国内星环、中兴、华为等Hadoop数据仓库,以及偶数科技等新一代云原生数据仓库。

图分析领域,国外Tigergraph和neo4j为明星厂商,现在中国银联、VISA、Mastercard很多金融机构都在用图分析做风控、做反欺诈,这个领域在未来有很大机会能够实现国产替代。

分行业来看,金融、电信、政府、制造、交通五大行业占据数据库服务市场份额超80%。

各行业的数据库服务市场份额比例分别为金融22.3%、电信18.9%、政府16.4%、制造13.3%、交通9.6%(中国信通院统计)。

公有云数据库部分,云厂商份额超70%。

2020年,阿里云、腾讯云、华为云等公有云数据库约占国内市场份额75.5%。

以电商、游戏、短视频等为主营业务的互联网公司是线上数据库的服务对象。

3. 竞争分析

1)整体竞争格局

目前我国本土数据库企业类型主要分为四大类,分别是传统厂商、跨界厂商、云厂商以及初创厂商。

国内市场主要参与者为海外巨头(Oracle、Microsoft、IBM、AWS 等),国内公有云厂商(阿里云、腾讯云)。

跨界厂商主要是设备商(华为、中兴通讯);以及新兴数据库厂商(巨杉大数据、PingCAP、偶数科技等)。

其中,初创厂商主要是最新一代的面向云原生架构的数据库,架构优势更为明显。

传统数据库厂商:达梦数据库、人大金仓、神舟通用等,主要信创数据库公司,占据党政军背景及政策优势,以人大金仓为例,其金仓数据库产品主要应用在党政的办公系统等市场, 2020年实现收入2.41亿元。

跨界厂商:中兴、浪潮、东方国信;利用原有客户及业务基础,叠加销售。

云厂商:占据云生态优势,目前国内全栈的云厂商,使其在软硬件协同方面有机会做一步优化,实现数据库整体性能的提升。

阿里云:2020 年,阿里云宣布进入→2.0 时代,架构升级成为υ云平台+数字原生操作系统。目前,已有超过40万个数据库实例迁移到阿里云上,包含政务、零售、金融、电信、制造、物流等多个领域的龙头企业。2021年阿里云在产品技术领域进展迅猛。

腾讯云:完备的产品体系+生态合作伙伴。目前,腾讯云已经服务了国内超过70%的游戏公司,市占率行业第一。经过多年积累,腾讯云数据库已经拥有了一套完整解决方案,成功服务的客户数已经超过50 万,其中,90%以上的业务是在亚洲完成的,并且主要在中国(腾讯云数据库类型主要为云托管数据库)。

华为云:数据显示,华为云数据库2019年外部收入相比2018年外部收入实现高达400%的增长;此外,华为云数据库2020年H1外部收入相比2019年H1外部收入实现高达405%的增长。

初创厂商:主打云中立机会以及产品能力。

2)分应用场景竞争情况

  • OLTP:Pingcap
  • OLAP:南大通用、星环、偶数科技、Kyligence、StarRocks(原DorisDB)。
  • 图数据库:我国图数据库产品数量为13 款,自研程度较高,自研产品占总数比例为69.23%。从供应商类型看,初创公司、云厂商、高校纷纷入局,其比例分别为7:5:1。
  • 大厂:蚂蚁金服GeaBase,百度安全HugeGraph,腾讯云 TGDB(Tencent GraphDatabase),字节跳动 ByteGraph,华为云GraphB‹ase。
  • 初创厂商:创邻科技 Galaxybase、费马科技、欧若数网Nebula Graph、蜀天梦图、Ultipa图数据库、星环 StellarDB等。

4. 行业的决胜要ⓠ素

数据库公司的发展遵循内核——外壳——生态的主要路径:内核组件和底层能力为基础,外部组件为支撑,生态为商业化及产品迭代重要路径。

内核层面:底层能力+性能表现为基础。

底层代码积累与产品迭代需要与具体业务场景深度融合。国内厂商诞生之初就面对Oracle、IBM 的激烈竞争,难以拥有接触客户核心业务场景的机会。

目前国家要求金融行业全替换,也是针对办公系统的数据库全替换,在业务系统层面更多的是在小业务系统上做实验,现在去谈核心业务系统的数据库国产化还为时尚早。

阿里、腾讯的数据库产品之所以能够成为国内代表,依靠的是与自身电商、支付、社交等核心业务场景的不断打磨,而其他数据库公司之前难以拥有这样的机会。

因此,厂商要先争取拿到小业务系统的备份系统机会。

大厂拼综合实力,创业公司拼技术,创业公司胜出的要素是产品过硬。

数据库云化是关于部署形态、架构形态的问题,但是对底层技术能力的掌握和提升仍然重要。

数据库包括数据库内核、分布式组件和接口驱动,SQL引擎、事务引擎和存储引擎,是否支持多副本、分布式事务、高性能、扩展能力、故障恢复、优化器、多活容灾、语法兼容等核心技术。

数据库性能优È势也是要素之一。

AP场景天然有很多复杂的用户查询,具体到SQL语句上就是大量的多表连接、复杂的表达式计算、多层嵌套的子查询、聚合函数等等。

这些对引擎的查询优化能力要求门槛极高。数据分析型基准测试(TPC-H)是公认的衡量数据库数据分析能力的权威标准之一,因此TPC-H测试结果也被作为数据库性能的衡量标准之一。

外壳层面,大数据与数据库一体化趋势明显,需要完善外部组件部分:自研或兼容主流生态组件,完善产品力为进一步发展支撑。

大数据生态中的组件罗列:

生态重要性凸显。国产数据库公司发展的战略重点在生态扩展。

做数据库一定要有一个生态,自从X86替换小型机,DB2的市场份额逐渐下降。

软硬件分离的趋势,导致Intel、微软的操作系统得以普遍应用,在此生态下才有Oracle、MySQL发展壮大的机会。

不同客户核心架构系统不同,存在不同程度的定制化开发诉求。

数据库作为基础软件,需要完成芯片、服务器、操作系统、中间件的适配工作,集成商、二次开发商、IT 咨询公司都是数据库厂商生态伙伴体系中的重要参与者,自建生态难度较大,兼容生态为主要选择。

生态伙伴赋能企业在快速实现业务扩张的同时最大程度减少成本增长,使得企业能将有限的人员和资金投入到核心技术和核心产品。

合作伙伴生态是Oracle早期占领中国市场的核心要素之一,早期Oracle中国区90%以上收入来自2000多个合作伙伴。

而2020年中国拥有合作伙伴最多的武汉达梦也仅仅只有101 家合作伙伴。其他的数据库厂商合作伙伴均低于50 家。

出海有助于国内数据库厂商的商业化发展以 OceanBase 数据库为例,第一大用户是支付宝,但是第三大用户其实是国外的厂商。

四、国外相关公司

1. 交易型数据库OLTP

2021年年底,Cockroach DB从估值50亿美金的F轮中募集了2.78亿美金;

2021年10月,Yugabyte也从C轮融资中募集了1.88亿美金,将估值推向13亿美金。

2. 分析型数据库OLAP

国外厂商:Snowflake、ClickHouse、Databricks、Firebolt、Ahana、Starburst、Dremio、Imply、StarTree。

2021年海外厂商融૙资情况(单位:美元):

其中:

1)Snowflake:云原生架构,研发周期长,产品功能完备。

  • 帮助企业实现了数仓按需上云,其数仓的底层可对接AWS、谷歌云等主流云计算平台供客户选择,其提供的多云间迁移、多云上容灾备份等服务较为吸引用户;
  • SnowflaΞke CDW可以兼容多家公有云厂商,这一技术创新从根本上解决了传统数据仓库的架构问题,最大化体现了云原生的架构特点;
  • 实现了存储Ǝ与计算分离,在资源管理上更为精细化。∗Snowflake 开发的CDW支持计算、存储节点单独扩展,实现在查询计算时,不影响同步扩容或પ缩容,不发生延迟或中断;
  • Snowflake自身联合了数家专注于机器学习的厂商来去打造自己的data cloud。

商业化初步验证:2021年,Snowflake季度营收环比增长连续超100%,与此同时更重要的一点是,SΥnowflake的净收入留存率(NRR)达到173%。

易用性也是Snowflake能够战胜其他竞品的秘诀。产品简单好用,文档通俗易懂,用户友好也是其快速增长的原因之一。

2)Databricks:Databricks于2021年8月宣布了自己高达380亿美金估值的H轮融资;

数仓研发周期明显短于Snowflake,产品功能的完备性可能η不如Snowflake;

Databricks两大亮点:

  1. open format,也就是开放文件格式,降低用户的数据迁移成本,缩短就决策链条;
  2. 多功能多语言平台的集成。Databricks的lakehouse底层可以无缝连接到Spark上去。如果有数据科学家想要使用lakehouse上的数据,他们无需经੢过复杂的系统导入导出,直接用他们最喜欢的语言,比如Python,进行数据的操作。

3. 图数据库

主要公司:Neo4j,TigerGraph,KetanaGraph,Memgraph等

1)Neo4j:

  • 当前市值/估值:2021年 F轮融资估值20+亿美金,募集资金3.25亿美金,领投方为有着140多年历史的投资集团Eurazeo ,原谷歌风投Google Ventures(GV)也参与其中。单从数字上来看,这个估值相比于同等阶段的OLAP领域数据库公司来说要小了不少,这也从侧面反映出该领域在这个阶段的体量。
  • 业务简介:商业化方面,他们的服务已经被75%的Fortune 100公司所使用。

2)TigerGraph:

  • 当前市值/估值:2021年,C轮1.05亿美金融资,投资方为Tiger Global,估值34亿人民币,约5.38亿美金。
  • 业务简介:基于 C++ 从底层核心做起,利用分布式技术,支持万亿级节点,具备高性能和高可扩展性,并且操作界面十分简单。性能测试结果领先。

4. 文档数据库

MongD:上市公司,估值92亿美金,收入2.6亿,可以看到在这个领域存在能够实现国产替代的机会。

1)OLTP推荐项目:PingCAP

2021年7月,完成估值30亿美金的E轮融资。

内核研发深入+云的大量投入:内核层面,分布式数据库查询优化器相关的设计,开发,文档撰写和新人指导;分布式数据库 SQL 层的设计,开发和性能优化。

分布式数据库底层系统存储系统的设计等。既支持在线横向扩展,又能非常高效的支持数据实时分析。

同时,数据库技术与云技术加速融合,云原生技术在数据库获得了深入的应用。

根据PingCAP联合创始人黄旭东:“PingCAP这几年在云技术上的投入可能都赶上了数据库内核研发的投入”。

与大数据的广泛融合:TiDB实现了与Spark、Flink、Presto等大数据技术栈的广泛融合。

建成中国最大的开源社区,构建人才护城河,迭代产品技术。

通过举办TiDB社区用户的开源活动,包括线下 Meetup、源代码系列的内容讲解、精心设计针对不同社区技术爱好者的参与路径等,得到了全世界技术爱好者与参与公司参与到TiDB的社区开发中来,包括Databricks、Mobike、Speedcloud、腾讯云、G7、三星韩国研究院等都为TiDB提交了大量的代码。

积极出海,从2019 年服务Shopee开始,目前海外营收已超越国内。

PingCAP 在不同国家均有头部客户和标杆案例,比如日本最大的在线支付公司Paypay、越南独角兽公司VNG、东南亚最大电商Shopee、法国最大在线视频公司Dailymotion 等。

目前公司已经拥有超100 家客户,且平均客单价超百万,营业收入增速超300%。

2)OLAP推荐项目:

(1)偶数科技

业务简介:偶数科技是一家云数仓和AI产品提供商,致力于赋能全球各行业客户,被评为专精特新企业。

其核心产品偶数数据云 Oushu Data Cloud,由新一代极速云数ૉ仓 OushuDB、自动化机器学习平台 LittleBoy,以及数据管理平台Lava 组成,已在金融、电信、政府、能源和互联网等行业头部企业得到广泛应用。

融资历史:

  • 2017-04-01 天使轮 数百万人民币 红点中国;
  • 2017-10-31 A轮 数千万人民币 红杉资本中国(领投) 红点中国;
  • 2020-11-04 B轮 数千万人民币 金山云 势乘资本Scale Partners(财务顾问);
  • 2021-08-25 B+轮 2亿人民币 腾讯投资(领投) 红杉资本中国 红点中国 势乘资本Scale Partners(财务顾问)。

推荐理由:

产品架构全球领先:采用计算存储分离的云原生架构,弹性扩展,可扩展至上万节点,利用云服务器、分布式存储,对数据基础设施的可扩展性进行深度优化,充分满足云端应用高度弹性、无限扩容的要求。

完善的大数据配套工具矩阵:数据管理平台Lava(支持敏捷数据应用开发)、自动化机器学习平台LittleBoy(图形化建模)。

多云支持:支持主流公有云部署,包括腾讯云、阿里云、华为云、金山云、微软Azure、AWS等主流云平台,同时支持私有云及混合云,帮助客户解除云绑定限制。

性能优势:领先的 SIMD 性能优化技术,相比MPP和SQL-on-Hadoop快一个数量级。全新设计的执行器让性能提升5~10倍,显著降低批处理和即席查询所需的时间。

兼容性强:具备完善的SQL标准和ACID特性,支持HDFS和多种对象存储的增删改查、以及偶数自研的Magma存储。兼容基于Oracle,PostgreSQL,Greenplum开发的数字应用,用户可以轻松实现不同数据基础设施的平稳迁移。

新一代湖仓一体:创新性提出 ANCHOR“锚点”概念,其6个字母分别代表All Data Types(支持多类型数据)、Native on Cloud(云原生)、Consistency(数据一致性)、High Concurrency(超高并发)、One Copy of Data(一份数据)、Real-Time(实时T+0)。

真正的从物理和实施层面形成一体化架构,彻底解决实时性和并发度,以及集群规模受限、非结构化数据无法整合、建模路径冗长、数据一致性弱、性能瓶颈等问题,有效降低IT运维成本和数据管理的技术门槛。

Omega实时方案:率先提出Omega架构,由流数据处理系统和实时数仓构成。

相比Lambda和Kappa,Omega架构在批处理层同时满足实时按需和离线按需的数据处理,同时在服务层创新引入了快照视图 (Snapshot View),解决了Lambda 长期的数据一致性问题。

资深核心研发团队:OushuDB由国内顶尖数据库内核研发团队自主开发,符合国家信创标准。

偶数研发团队曾主导国际顶级的数据库开源项目Apache HAWQ,担任项目Chair和PMC。

头部客户积累:产品已在建设银行、中国联通、国家电网、VMWare等头部客户落地,并获得广泛认可。

全面生态协同:除了腾讯云、金山云等云厂商股东背书,还兼容UOS、麒麟等国产操作系统,及飞腾、鲲鹏、申威、兆芯、海光、龙芯等国产ô硬件平台。

(2)Kyligenc’e融资:2021年4月,Kyligence 宣布完成7000万美元的D轮融资。

推荐理由:产品成熟度高&性能领先

Kyligence 提供企业级的智能多维数据库产品,帮助企业在数据湖或数据仓库上搭建一个受治理的数据集市。

通过统一定义业务分析使用的指标与维度,搭建统一业务语义层,沉淀分析型数据资产。

此外,Kyligence 内置 AI 增强引擎,通过识别高频业务查询和数据特征,简化和自动化数据集市构建。

Kyligence 提供统一的 SQL 服务接口,以支撑商务智能(BI)分析、灵活查询和高并发数据服务等多类应用场景。

领先的全场景 OLAP 引擎 ,为 PB 级数据提供高并发、亚秒级查询性能,并可无缝集成 Hadoop/Spark 架构或基于云原生架构,提供去 Hadoop 架构,支持在公有云、私有云、本地ਫ਼环境部署,并实现存储与计算分离,支持计算资源按需弹性伸缩。

Kyligence 智能数据云的产品设计基于开源理念,技术上自主可控、包容开放,具有简单易用、高性能、高并发特性,最大化利用资源提高效率,节省 TCO。

智能分层存储:Kyligence 新一代产品中提供的高级功能,引入性能强劲的 ClickHouse,可以帮助用户在未进行预计算的情况下快速冷启动进行查询,显著地提升超多维度灵活分析和明细查询的性能。

生态:Kyligence 一直坚持生态共建,合作共赢。

一方面,公司会和更多的云厂商、BI 以及应用厂商合作。

另一方面, Kyligence 设立 Partner Network 合作伙伴计划,该计划将从培训认证、资源支持、推广合作等方面赋能合作伙伴,共同携手为全球客户带来更优质的服务。

客户积累:目前全球有超过 1500 多家公司使用 Apache Kylin 作为核心大数据分析平台。

Kyligence 已服务中国、美国及亚太的多个银行、证券、保险、制造、零售等行业客户,包括建设银行、浦发银行、招商银行、平安银行、宁波银行、太平洋保险、中国银联、上汽、一汽、安踏、YUMC、Costa、UBS、AppZen 等全球知名企业和行业领导者。

5. 图数据库推荐项目

1)欧若数网

业务简介:欧若数网是一家分布式图数据库研发商,旗下分布式图数据开源产品“NebulaGraph”拥有容错性、扩容缩容、线上查询等功能,主要应用于互联网银行及社交领域。

融资历史:

  • 2020-06-05 Pre-A轮 800万美元 红点中国,经纬创投;
  • 2020-11-16 Pre-A轮 近千万美元 源码资本(领投) 经纬创投 红点中国。

推荐理由:

  • 团队背景优秀:创始团队来自于Facebook、阿里巴巴、华为等国内外各大知名公司,在图数据库、大数据等领域有丰富的开发和业务经验;
  • 性能领先:相较੨其他图数据库,能处理的数据量为它们的两倍甚至是更多;世界上唯一能够容纳千亿个顶点和万亿条边,并提«供毫秒级查询延时的图数据库解决方案;
  • 合作客户优势:京东数科、有赞、小红书、vivo、美团、腾讯、微众银行、快手、企查查。

2)Ultipa

业务简介:Ultipa是一个图数据库平台,通过将图计算引擎和知识图谱结合,可为用户提供实时数据处理.

融资历史:2021-05-25 A轮 2100万美元 某知名主权基金领投,招银国际跟投.

推荐理由:

  1. 产品层面:Ultipa Graph 产品线分为 Ultipa Server,Ultipa 工具,Ultipa SDK,Ultipa Manager 等。
  2. 性能层面:Ultipa的性能被客户称为“核动力”引擎,在计算速度上以三角形计算为例,其速度可达 3 亿个三角形/秒——这样的速度在某种程度上已经挑战了现有计算机系统的物理极限;在计算深度上,可做30层的深度穿透及关联发现,并能够方便的构建复杂的模型并与数据相关联。
  3. 场景层面:已经经实现了针对资债、资管、企业 GRC、供应链金融等金融场景的应用。以招行为例,银行部门繁多、有许多对 C 端用户监管以及内部增效的需求,需要对 C 端用户画像进行深挖、并对各维度数据进行关联及穿透,因此对算力有很强的诉求。
  4. 商业化层面:目前有 20 余个头部行业客户,平安银行和招商银行是其金融行业的典型客户。同时支持SaaS化部署和私有化部署,收费模式灵活。

3)创邻科技 Galaxybase

业务简介:创邻科技是一家商业图数据库供应商,提供多源异构数据的关联挖掘、深链查询、可视化分析及行业图智能计算应用服务。

融资历史:

  • 2018-08-14 天使轮 数百万人民币 百度风投;
  • 2020-10-14 A轮 数千万人民币 高瓴创投(领投)百度风投 西湖科创;
  • 2021-02-01 A+轮 数千万人民币 腾讯投资(领投) 高瓴创投;
  • 2021-12-06 A+轮 1亿人民币 腾讯投资(领投) 同创伟业(领投)达晨财智。

推荐理由:

  • 产品自研程度高:国内首个、通用的商业化分布式图数据库;全自主知识产权的自研产品,团队和代码都在国内,不基于任何第三方存储产品,支持各种国产CPU和操作系统;国家自主可控。
  • 性能优势叠加真实场景:小数据量级,深链查询性能,比国际竞品快数十倍;大数据量级上,世界上唯一一个在真实业务场景中,加载和处理了万亿点边大图,PB级数据量级。

 

本文由 @光锥智能 原创发布于人人都是产品经理。未经许可,禁止转载。

题图来自Unsplash,基于CC0协议。

Leave a comment

Your email address will not be published. Required fields are marked *