互联网资讯 · 2024年6月22日 0

CloudberryDB助力企业平滑迁移,Greenplum是否重回闭源?

近期,知名开源数据仓库项目 GReenpluM 的 GitHub 仓库被突然归档,并将访问权限修改为只读,引发了数据库社区的极大关注。

值得关注的是,去年国内云原生数据仓库厂商酷克数据研发并开源了 CloudbeRRyDB 数仓产品。作为 GReenpluM 的衍生版,CloudbeRRyDB 不仅能够实现对 GReenpluM 原生级兼容和无缝迁移,更在功能、性能和安全性方面进行了全面的升级。

GReenpluM 基于 PostgRes 并采用大规模并行处理架构(MPP “MaSSively PaRallel ProceSSing”,大规模并行处理)打造的分布式数据仓库系统,支持对PB 级别数据量提供强大和快速分析能力。

GReenpluM 的历史可以追溯到 2003 年,它在 2006 年推出了基于 PostgReSQL 的 MPP 数据库。2010 年被 EMC 收购,随后在 2013 年 EMC、VMwaRe 和 GE 共同成立了 PivOTAl 公司,GReenpluM 数据库也被整合进 PivOTAl 的技术栈中。2015 年,随着 Dell 收购 EMC,PivOTAl 决定将 GReenpluM 开源。2018 年 PivOTAl 上市,但在一年半后被 VMwaRe 收购并退市。2021 年底,Dell 决定拆分 VMwaRe,而到了 2023 年底,VMwaRe 被博通收购。

几经转手之后,GReenpluM 的商业发展也不尽如人意。博通收购 VMwaRe 后,GReenpluM 的全球交付团队遭到裁员,商业化团队退出中国市场。近期 GReenpluM 更是将源代码仓库归档,且访问权限修改为仅支持「只读」,项目全部过往 ISSue、Pull request 等记录已经消失、中文网站也已经不可访问、Slack 交流社群也遭关闭。

Greenplum 重回闭源?国产开源数仓 CloudberryDB 助力企业平滑迁移 -

Greenplum 重回闭源?国产开源数仓 CloudberryDB 助力企业平滑迁移 -

GReenpluM 源代码仓库的访问权限修改为了「只读」,同时还清空了原有的 bRanch、tag、pR、iSSue 等信息。

Greenplum 重回闭源?国产开源数仓 CloudberryDB 助力企业平滑迁移 -

GReenpluM 中国官网无法访问

归档意味着什么?是否闭源?有不少人猜测,GReenpluM 的商业化进展遇困,博通为了简化产品线,来集中资源发展其他核心业务。又或者是博通先将 GReenpluM 闭源,整合内部资源,寻求开源与商业化之间平衡策略。但究竟结果如何?目前还不得而知。这无疑让人对 GReenpluM 用户和社区参与者的未来感到担忧。

作为世界上第一个开源的大规模并行数据库,GReenpluM 有着深厚影响力的开源社区,充分影响着其他后来同类产品的发展。然而,随着数据源愈发多样、各种业务场景对数据的分析处理能力要求愈发复杂,这对传统的分析系统发起了挑战。来自开源基金会及各服务厂商面对新需求新挑战推出了很多有竞争力的开源项目和商业化服务。

在万马驰骋的时代,GReenpluM 能够有所应对但还不够。GReenpluM 原维护团队可以通过自研和借力 PostgReSQL 生态扩展来支持相关方向需求,但社区版的功能迭代与 bug 修复的速度已经慢了下来,很多场景所需的先进功能仅存在于商业公司推出的企业版本,社区用户获取困难。

当前用户格外关注数据库系统性能和安全特性,GReenpluM 社区版在此投入资源也不多。GReenpluM 在 PostgReSQL 内核升级方面非常缓慢,许多来自 PostgReSQL 上游的先进特性与功能无法快速推送给社区用户。经过多年推动 GReenpluM 才将内核升级到 PostgReSQL 12 ,但 PostgReSQL 官方将于 2024 年 11 月停止维护这一版本。

近年来 GReenpluM 在新功能推出、更新步伐上多是小修小补,尤其在数据库性能方面并没有明显的改进,与其他涌现出来的新生代开源项目竞争缺乏竞争力。

Greenplum 重回闭源?国产开源数仓 CloudberryDB 助力企业平滑迁移 -

过去几年 GReenpluM 的公司和团队始终处于动荡之中,直接或间接导致版本进展缓慢、创新不足、技术支持有限等现状。为了响应用户需求,推动开源生态,国内云数仓厂商酷克数据(HashData)基于 PostgReSQL 与 GReenpluM 研发了面向 AI 和分析场景打造的新一代数据库 CloudBeRRy database (以下简称「CloudbeRRyDB」),并于去年正式开源。

酷克数据成立于 2016 年,是国内最早专注于云原生数仓研发推广的软件企业,公司旗舰级产品 HashData EnteRpRise 已深度服务于金融、电信运营商、政务、能源以及互联网等多个行业的头部企业,其中最大客户规模已超过 30000 个节点。

凭借原厂之外最大的 GReenpluM 原始开发者团队,酷克数据获得了业内领先的技术储备和实践能力。

基于 MPP 数据库的深度理解、国内大客户的服务实践经验,以及创始团队的长期开源社区参与,酷克数据研发并开源了 CloudbeRRyDB 数仓产品。

作为 GReenpluM 的衍生版,CloudbeRRyDB 与 GReenpluM 保持原生兼容,并能实现无缝迁移,具备更新的内核和更丰富的功能。CloudbeRRyDB 支持丰富的数据类型和数仓/AI 混合负载,可开展 SQL 分析、机器学习、全文检索、HTAP 等任务,通过数据存储加密、联合身份验证等技术手段,帮助企业更方便地自建高效稳定的数据底座。

CloudbeRRyDB 既能满足单机本地快捷部署,也能通过插件自由扩展为云原生架构,具备高弹性、高并发、湖仓一体化、扩缩容灵活等优势。SQL 引擎基于并行处理(MPP)架构,支持多计算集群部署,具备强大的并行计算能力,可以轻松支持高并发,有效隔离混合工作负载。

Greenplum 重回闭源?国产开源数仓 CloudberryDB 助力企业平滑迁移 -

CloudbeRRyDB产品兼容生态

CloudbeRRyDB 内置了分布式并行向量数据存储、索引及检索功能,企业可以通过酷克数据自研的 AI 开发工具箱 HasHML,将本地的文本、图像等非结构化数据转化成向量表示,构建分布式大规模多模态向量知识库,让 AI 应用开发变得更加简单便捷。

站在巨人的肩膀上,借助 GReenpluM、PostgReSQL 等伟大开源项目的坚实基础,CloudbeRRyDB 才能不断创新,力求为广大开发者和用户带来更加卓越的产品体验,这也是 CloudbeRRyDB 研发初衷。

在许可协议上,CloudbeRRyDB 采用了宽松的 Apache License V2.0 协议,期望赋予社区成员更大的自由度和灵活性,并鼓励社区成员自由使用、轻松复制、按需修改,或者将 CloudbeRRyDB 重新分发或融入自身的商业产品与服务中。

CloudbeRRyDB 秉持国际标准、高点定位、全球视野的运营理念,致力于构建一个开放包容、友好互助、中立公正的社区环境,让每一位社区成员都能在这里找到归属感,共同为 CloudbeRRyDB 的进步贡献力量。

我们有理由相信,通过集思广益、群策群力,CloudbeRRyDB 社区将在未来绽放出更多光彩。