10月18日,星环科技正式登陆科创板,成为国产大数据基础软件第一股。这一事件不仅代表了星环科技这家公司取得的阶段性成就,也标志着在当前数字化转型以及信创建设持续推进的背景下,国产大数据基础软件已驶入了发展的快车道。
关于星环科技,想必大数据业内的从业者都不陌生。其成立于2013年,核心团队曾在英特尔负责大数据技术的研发,公司最初基于开源的Hadoop技术提供大数据平台产品。但自2014年起,为突破大数据技术瓶颈和完善企业级产品功能,星环科技逐渐通过自主研发的大数据技术取代了开源技术,现已形成了包括一站式大数据基础平台TDH、分布式分析型数据库ArgoDB及交易型数据库KunDB、基于容器的智能数据云平台TDC、大数据开发工具TDS、智能分析工具Sophon等在内的多个大数据软件产品系列。
星环科技为何能在国内大数据基础软件市场中脱颖而出?大数据基础软件技术和行业发展有哪些重要趋势?国内市场厂商的关键竞争要素有哪些?星环科技和国内大数据基础软件市场未来前景如何?爱分析将通过本文对这些问题进行详细探讨。
01
大数据基础软件是数字化的关键基础设施,市场空间广阔
大数据基础软件,是指能够对多种来源、多种类型的源数据进行采集、存储、治理、建模、分析、挖掘,支撑上层数据应用的各类软件工具的统称,通常包括了数据库、大数据平台组件、数据开发与管理工具,数据科学与机器学习平台等。
表1:大数据基础软件主要构成
在数字化时代,大数据基础软件是数字化的关键基础设施。首先,数字化的核心要义是要让企业的业务由经验依赖转向由数据驱动,因此需要大数据基础软件来打通企业全链路的数据,并对数据进行加工处理,挖掘数据价值,从而支撑企业的数字化转型;其次,随着企业需要处理的数据规模急剧膨胀,数据类型更加丰富,以及数据应用场景越来越广泛,大数据基础软件也需要紧跟市场发展趋势,推出性能更高、功能更丰富、更易用的产品,满足用户更广泛的需求的同时,也在数字化转型中发挥更加重要的作用。
大数据基础软件的重要价值加上广泛的需求,使其成为一个空间巨大且具备高成长潜力的市场。根据研究机构沙利文的数据,中国大数据软件市场规模在最近五年保持高速增长,整体市场规模将从2019年的146亿元,增长到2024年的492亿元,复合增长率27.5%。
图1:中国大数据市场规模(2019-2024E,亿元)
02
市场参与者众多,三大关键竞争要素决定未来市场格局
中国大数据基础软件市场的巨大空间,也吸引了国内外诸多厂商参与。
在国外厂商方面,以Oracle、IBM 和Teradata 等为代表的关系型数据库厂商,和以Cloudera、MongoDB、Elastic 等为代表的大数据平台或分布式数据库厂商,凭借其较领先的产品技术,以及早年进入中国市场的先发优势,在中国市场已经获得了一定的市场占有率。
在国内厂商方面,重要的参与者除了以星环科技为代表的专业大数据软件厂商以外,还包括以华为云、阿里云为代表的公有云厂商,以及以新华三为代表的ICT厂商。
在这个参与者众多、竞争激烈的大数据基础软件市场,以下三方面的竞争要素决定了各家厂商的竞争力和未来市场格局。
由于大数据的应用场景非常广泛,并且还在不断变得更加复杂多样,这就要求大数据基础软件采用更先进的技术架构来满足不同场景对于功能、性能、使用方式的不同需求。我们观察到,数据库和大数据平台的技术架构有以下三点关键的演进趋势:
1)从单模型到多模型数据统一处理
随着各行业企业的结构化、半结构化和非结构化数据处理需求的快速增长,对不同模型数据的处理变成了企业的常态化需求。在以往的大数据解决方案中,企业会根据不同的应用场景和数据类型,分别部署不同类型的数据库。
例如,大型银行通常会部署十多种类型的数据库系统,用Hive做大规模批处理,用Neo4j做图分析,用MongoDB做文档处理,用Elastic做搜索分析等,但这也会给企业在数据应用中带来新的问题。首先,在做跨库的联合分析时,用户需要跨多个系统,使用多种查询语言,并做多次数据连接才能得到结果,整个操作流程非常复杂,对用户的技能要求非常高,并且也难以保证数据的一致性和实效性;其次,多套系统同时部署的混合架构,要求企业针对每个系统单独建设相应的开发和运维体系,适配不同的产品接口,学习成本和管理成本非常高。
针对这些挑战,国内外一些领先厂商近年来开始探索多模数据统一处理技术,通过统一的SQL语言实现不同数据模型的查询和操作,从而实现跨模型的联合分析。
2)从集中式到分布式
随着移动互联网、物联网、5G 等信息通信技术的不断发展,企业需要处理的数据量更大、类型更丰富、速度要求更快,传统集中式架构的大数据软件在扩展性、容错性方面已无法适应这样的变化。在扩展性方面,以银行支付系统或城市的核酸检测系统为例,在应对高峰期比平时多几个数量级的数据处理需求时,采用传统的集中式关系型数据库会出现数据计算缓慢,甚至导致系统崩溃的情形。在容错性方面,随着数据成为企业越来越重要的资产,数据必须要满足高可用,这就要求企业通过使用分布式数据库实现数据的多幅本。
上述挑战导致了大数据软件从集中式架构到分布式架构的演进,即将数据分散在网络上多个通过高速网络互联的节点上进行联合计算。
3)从传统独立部署到云原生
随着企业数据应用需求的逐步增加,以及数据应用敏捷性要求不断提升,传统独立部署的大数据平台在使用和运维中诸多问题也不断显现,包括:
基于容器化的云原生大数据平台由于具备存算分离、敏捷弹性、安全隔离等优势,成为了近年来数据库和大数据平台的一个重要技术方向。
由于大数据技术首先在美国等国家产生和发展,目前较成熟的主流大数据技术都被国外公司所掌握,并且这些公司对外提供相应的开源版本产品,导致国内大部分大数据基础软件厂商目前都是基于国外开源技术做商业版产品并提供相关服务,但这种模式存在的三点问题会让国内厂商的国产化自研能力变得越来越重要。
首先,基于开源技术做发行版产品的技术总是落后一代,加上先进技术不会立即应用于产品,实际的产品整体上会落后更多。因此,只有通过自主研发建立自身的技术壁垒,打造自身产品的技术优势,才能够在激烈的市场中形成强有力的竞争力。同时,基于自研技术打造的产品,可以提供更加专业的原厂服务,为客户带来更加高效的技术支持。
其次,国外一些领先的大数据公司的实践表明,在大数据基础软件领域,基于开源技术做发行版产品的商业模式更难获得较高的财务收益。因为当开源项目足够成熟好用时,很难向用户收费,而当提供功能被简化的免费版产品,并靠服务收费时,厂商又难以获得较高利润。知名大数据公司Cloudera前几年发展一直处于颓势也正是因为这个原因。同时,我们也看到越来越多的大数据产品开始向闭源的方向发展,如原先开源的MongoDB、Elastic近年来都推出了开源许可证,要求第三方在售卖其软件时需要获得其授权,并向其付费,Cloudera和Databricks目前也在开始推行这一模式。这进一步降低了厂商使用开源技术这一模式的利润水平。
此外,在近年来美国持续升级对中国的技术出口管制措施的背景下,国内陆续出台了一系列政策,来推动国内的信创产业建设,尤其提到要重点培育一批包括数据库等基础软件在内的重点企业。这一因素也导致了大批政府机构以及国有企业今后在采购基础软件时必须自主可控,从而倒逼国内基础软件厂商加强自研能力,走出一条独立自主的道路。
商业化落地能力也是评估厂商竞争优势的一项关键因素,因为良好的商业化能力能保障厂商持续获得客户与收益,不断优化和迭代产品,获得更好发展空间。而厂商商业化能力主要体现在以下两个方面:
第一,厂商在特定行业的落地案例,尤其是行业标杆案例的落地情况。厂商行业落地案例数量多,且获得很多行业标杆案例,不仅反映了其产品技术得到了该行业客户的认可,也代表了其产品能力在大量应用场景中得到广泛验证。
第二,基于行业理解提供针对性的行业解决方案。不同行业企业由于其所需处理数据量、数据类型、分析场景存在差异,其对大数据软件产品的功能、性能、成本等方面的要求也各有不同,加上国内企业对于很多应用场景的复杂需求。使得厂商需要针对特定行业积累更丰富的经验,理解行业特点和企业需求,从而提升其在该行业中的市场份额。
03
星环科技:领先的一站式多模型云原生大数据平台提供商
基于以上大数据基础软件市场的关键竞争要素,我们认为星环科技在自主原创、技术先进性、以及商业化落地能力方面均具备显著优势。
星环科技的核心产品大数据基础平台TDH,以及分布式分析型数据库ArgoDB及交易型数据库KunDB等均已实现了真正的自主研发。以大数据基础平台TDH为例,其从底层的资源调度系统,到中间的分布式数据管理系统,分布式计算引擎,多种模型的数据存储引擎,以及上层的编译器均为自研,根据根据工信部电子第五研究所代码扫描测试报告,大数据平台TDH 的1200万行代码里自研代码率超过70%,ArgoDB代码自主率超过90%。
星环科技重构了大数据与分布式数据库软件栈,公司目前已经积累了31 项核心技术,主要体现在分布式技术、SQL编译技术、数据库技术、多模型数据统一处理技术、基于容器的数据云技术以及大数据开发与智能分析技术六个方面。以下我们对其多模型数据统一处理、分布式,以及云原生技术进行重点分析。
1)多模型数据统一处理技术
目前常见的多模型数据库或大数据平台主要有四种实现路径。第一种是为每一种新数据模型开发独立完整的存算策略,其缺点是存算耦合,支持的模型越多,系统的开发量和复杂度就越高,消耗存算资源也较多;第二种是用单一存储引擎支撑多个存储模型,缺点是由于不同计算数据模型对于存储的要求不同,单一存储引擎无法随之匹配适合的存储策略,从而限制了多模型数据库的性能;第三种是在多种独立数据库之上提供统一的用户界面,对底层多个数据库进行转发,缺点是由于底层多个数据库开发语言不一致,导致了实际开发时的高难度,排除故障的成本也较高。
图2:四种多模数据库/大数据平台实现路径
为了解决现有解决方案中存在的种种问题,星环科技于2020年在大数据基础平台TDH上采用了创新性的大数据技术架构,包括统一的SQL 接口、统一的计算引擎、异构的数据存储模型、统一的数据管理系统和统一的资源管理系统。其中较关键的统一数据管理系统,实现了统一的数据分片、复制、存取和事务管理,使得平台能够支持更快捷地开发不同模型的存储引擎,具备较好的模型扩展性。相比业界同行的单个数据库或数据平台,大数据平台TDH支持的数据模型数量更多,目前一个平台已能够支持多达10种数据模型。
表2: 星环科技大数据基础平台TDH支持的模型列表以及主流同类产品举例
2)分布式技术
目前,分布式数据库或大数据平台的实现,主要有两个技术难点需要厂商去解决优化。首先,分布式架构中数据很难保持强一致性,因为分布式集群的规模越大,系统就越容易出现故障并导致副本的数据不一致的情况,这不仅制约了集群的扩展性,也影响了数据应用的实现。其次,如上文所述,随着大数据平台往多模的方向发展,单个的分布式数据库都是针对特定数据模型设计分布式管理技术,为了统一处理不同模型的数据,厂商还需要为大数据平台开发统一的分布式存储系统,以及统一的分布式计算引擎。
星环科技也针对分布式软件架构设计了全新的大数据技术栈,实现了统一的分布式计算技术、分布式一致性技术、分布式存储管理技术和分布式事务技术,使用统一融合的数据平台架构取代了业界的混合架构。同时,星环科技产品从2015 年开始支持分布式事务技术,提供了强一致性和完整性的保障,打破了当时业界普遍认为大规模分布式系统只能实现最终一致性的认知,扩大了大数据技术在关键核心系统中的应用范围。领先的技术也让其产品在从 GB 到 PB 不同量级的数据处理上都具备很好的计算性能,其中,大数据基础平台TDH 是全球首个通过TPC-DS基准测试并经官方审计的产品,表明其基于分布式架构构建的基础软件在海量数据的计算和分析上达到业界先进水平。
3)云原生技术
相较于国内外大部分同类厂商在2020年左右才开始采用云原生技术,星环科技早在2015年开始做容器化研发,并于2017年5月即将大数据技术与容器云技术有效结合,在大数据基础平台TDH中应用基于容器云的资源管理技术,并推出基于容器的资源调度产品TCOS和数据云平台TDC。
通过对云原生技术的采用,星环的大数据平台产品能为用户提供统一资源管理技术、多租户隔离技术和统一的工作负载管理技术。统一的资源管理技术使得产品支持多种架构的芯片和操作系统,也支持国产CPU 与X86 架构的混合部署模式,让客户能逐步实现国产化的替代;多租户隔离技术可以保障同时运行的服务之间能够实现资源隔离,互不影响;统一的工作负载管理技术不仅可以管理包括数据库、大数据平台、机器学习平台等分布式软件,也可以管理业务应用。
截至目前,星环科技已累计有超过1,000 家终端用户,分布在金融、政府、能源、交通、制造等众多国民经济支柱领域,具备广泛的客户基础,并在多个行业树立了标杆客户:金融行业包括中国银行、浦发银行、浙江农村商业联合银行等,政府领域包括上海市大数据中心等,能源行业包括中国石油、南方电网等,交通行业包括中国邮政集团、东方航空等,制造业包括湖南中烟等。
04
未来展望
大数据基础软件市场市场空间广阔,参与厂商众多,但与国外市场相比,我们认为国内该市场依然还处于发展相对早期的阶段,未来市场格局将会发生较大变化。
首先,大数据基础软件完全开源免费的时代将逐渐成为过去时,国内厂商在使用很多国外开源技术时将需要取得开源许可证并为其付费,届时,具备自主技术的国内厂商不仅可以凭借技术和成本优势获得更多的客户,也可以成为公有云、ICT等厂商的合作付费对象。同时,国内信创政策提出的自主可控的要求下,将进一步使得具备自主技术的国内厂商获得更多的市场份额。
其次,国内大数据软件的用户基础尚未真正成熟。美国等国家的信息化和数字化相比中国领先数十年,早已培育了一大批成熟的大数据软件的终端用户,根据巴克莱银行的估算,全球目前已经有2750万的数据分析师,根据全球最大的数据科学家社区Kaggle的数据,全球目前已经有超过300万的数据科学家群体。而中国市场无论是发展阶段,还是用户基础,相比国外市场还有很大差距。
正是因为有着领先的技术、成熟的商业模式,以及广泛的用户基础,才使得国外市场出现了像Snowflake、Databricks这样的市值或估值达到数百亿美金的大数据软件公司。
相信随着国内市场环境的成熟,已经具备领先自主技术和市场先发优势的星环科技可以在这个过程中不断提升竞争力,获得更高的市场份额和利润水平,逐渐进入真正的成熟收获期。