随着近些年互联网行业的飞速发展,很多业务的数据量都在急剧的增大,传统的RDBMS数据库逐渐撑不住,逐渐出现读写分离策略、分库分表策略。从数据结构上看,非结构化数据的量在不断剧增。总之,从架构搭建、程序调用到后期运维上,数据库的复杂度变的越来越高,且很多中小型的公司,数据规模都达到了数TB、数PB的级别,对数据的吞吐要求也达到了百万QPS,甚至是千万级别。
在这样的大背景下,HBase出现了,它是一个分布式的、面向列的开源数据库,该技术来源于 Fay Chang 所撰写的Google论文“Bigtable:一个结构化数据的分布式存储系统”。 HBase是运行在Hadoop上的NoSQL数据库,能够融合key/value存储模式带来实时查询的能力,以及通过MapReduce进行离线处理或者批处理的能力。Hbase能够让用户在大量的数据中查询记录,也可以从中获得综合分析报告。当下较大的一些互联网公司如google、facebook、alibaba在较早就开始探索基于HBase的数据库解决方案。
阿里巴巴集团从2011年开始步入HBase的发展、建设之路,是国内最早应用、研究、发展并回馈开源HBase的团队,也诞生了HBase社区在国内的第一位Committer,成为HBase在中国发展的积极布道者。过去的几年时间,阿里累积向社区回馈了上百个Patch, 在诸多核心模块的功能、稳定性、性能作出积极重大的贡献,成为推动HBase的迅速发展的重要力量之一。
HBase本身虽然优秀,但是它本身比较复杂,涉及到分布式、数据存储、响应延迟、索引等一系列的知识,虽然它的API比较简单,但是各种组合情况下,畅玩好HBase还是需要一定的功力,在后期的运维上也需要投入大量的精力,并且自建的情况下,各项费用累加导致性价比不高,在这样的背景下,上云逐渐成为了一种趋势。
本次阿里云重磅推出的云数据库HBase版,其内核是基于开源社区1.1版本之上的深度改造,阿里在较早版本上做的很多优化策略也会渐渐迁移到此版本中。云数据库HBase在正式商业化前,已经在阿里集团内部服务了超过6年,积累了大量的性能、运维等的经验,目前云数据库HBase提供了以下产品优势:
15分内完成部署,全指标监控预警,在线扩容节点、磁盘及修改配置,集群自动更新升级,专家在线坐诊
性能提升30%以上,个别scan等性能提升100%+
多副本机制,副本丢失提前感知检测恢复,提供9个9个数据可靠性
提供白名单隔离,支持VPC
同比自建成本,云数据库HBase便宜至少20%,后续进行本地盘、云盘、OSS分级别存储后,成本将进一步下降。
底层使用了ECS及本地磁盘的架构,保证在低成本的同时又具备高性能
使用了Ali-JDK及Ali-Linux,背后是源码级团队维护
与阿里集团一致的版本,阿里内部所有的性能优化、功能增强在公共云的客户都可以享受到。这些包括但不限于:提升读写性能、增强稳定性、降低磁盘等
包括监控报警、配置管理、健康诊断等,易于运维的功能。
云数据库HBase作为大数据时代的存储,基本解决以下三大类的场景:
存放是平台的产品,即其它软件的存储,比如目前很就行的Kylin,阿里内部的日志同步工具TT,图组件Titan等。此类存放的往往平台的数据,有时候往往是无业务含义的,可作为平台的底层存储使用。
此类主要是面向各个业务系统。这里的用户不仅仅指的人,也包括物,比如物联网。在阿里主要还是人产生的数据,比如:淘宝收藏夹、交易数据、旺旺聊天记录等等。这里使用比较直接,数据直接存放HBase,再读取。难度是需要支持千万级别的并发写访问及读取,需要解决服务质量的问题。
比如报表、大屏等,如阿里巴巴的天猫双十一大屏。
作为一款优秀的产品,在正式商业化前,阿里云已经进行了为期4个月的免费公测,共有1307家企业在云上建立了集群进行测试。为感谢公测期间各方提出的产品改进建议及对产品发展的贡献,阿里云决定加大力度将技术红利回馈所有用户,本次云数据库HBase商业化上线初期(8月10号-10月31号),所有产品规格将以包年68折发售,公测用户还将免费享受专家服务。