近期,知名開源數據倉庫項目 Greenplum的 GitHub倉庫被突然歸檔,並將訪問許可權修改為只讀,引發了數據庫社區的極大關注。
值得關注的是,去年國內雲原生數據倉庫廠商酷克數據研發並開源了 CloudberryDB數倉産品。作為 Greenplum 的衍生版,CloudberryDB不僅能夠實現對 Greenplum原生級相容和無縫遷移,更在功能、性能和安全性方面進行了全面的升級。
01 Greenplum重回閉源?源碼歸檔引發業界猜測
Greenplum基於 Postgres並採用大規模並行處理架構(MPP"Massively Parallel Processing",大規模並行處理)打造的分佈式數據倉庫系統,支援對PB級別數據量提供強大和快速分析能力。
Greenplum的歷史可以追溯到 2003年,它在 2006年推出了基於 PostgreSQL的 MPP數據庫。2010年被 EMC 收購,隨後在 2013年 EMC、VMware和 GE共同成立了 Pivotal公司,Greenplum數據庫也被整合進 Pivotal 的技術棧中。2015年,隨著 Dell收購 EMC,Pivotal決定將 Greenplum開源。2018年 Pivotal上市,但在一年半後被 VMware收購並退市。2021年底,Dell決定拆分 VMware,而到了 2023年底,VMware被博通收購。
幾經轉手之後,Greenplum的商業發展也不盡如人意。博通收購 VMware後,Greenplum 的全球交付團隊遭到裁員,商業化團隊退出中國市場。近期 Greenplum更是將源代碼倉庫歸檔,且訪問許可權修改為僅支援「只讀」,項目全部過往 Issue、Pull Request等記錄已經消失、中文網站也已經不可訪問、Slack交流社群也遭關閉。
Greenplum源代碼倉庫的訪問許可權修改為了“只讀”,同時還清空了原有的 branch、tag、pr、issue等資訊。
Greenplum中國官網無法訪問
歸檔意味著什麼?是否閉源?有不少人猜測,Greenplum的商業化進展遇困,博通為了簡化産品線,來集中資源發展其他核心業務。又或者是博通先將 Greenplum閉源,整合內部資源,尋求開源與商業化之間平衡策略。但究竟結果如何?目前還不得而知。這無疑讓人對 Greenplum 用戶和社區參與者的未來感到擔憂。
作為世界上第一個開源的大規模並行數據庫,Greenplum 有著深厚影響力的開源社區,充分影響著其他後來同類産品的發展。然而,隨著數據源愈發多樣、各種業務場景對數據的分析處理能力要求愈發複雜,這對傳統的分析系統發起了挑戰。來自開源基金會及各服務廠商面對新需求新挑戰推出了很多有競爭力的開源項目和商業化服務。
在萬馬馳騁的時代,Greenplum能夠有所應對但還不夠。Greenplum原維護團隊可以通過自研和借力 PostgreSQL 生態擴展來支援相關方向需求,但社區版的功能迭代與 bug 修復的速度已經慢了下來,很多場景所需的先進功能僅存在於商業公司推出的企業版本,社區用戶獲取困難。
當前用戶格外關注數據庫系統性能和安全特性,Greenplum社區版在此投入資源也不多。Greenplum在 PostgreSQL 內核升級方面非常緩慢,許多來自 PostgreSQL上游的先進特性與功能無法快速推送給社區用戶。經過多年推動 Greenplum才將內核升級到 PostgreSQL 12,但 PostgreSQL官方將於 2024年 11月停止維護這一版本。
近年來 Greenplum 在新功能推出、更新步伐上多是小修小補,尤其在數據庫性能方面並沒有明顯的改進,與其他涌現出來的新生代開源項目競爭缺乏競爭力。
02接棒再出發,CloudberryDB為開源注入新活力
過去幾年 Greenplum 的公司和團隊始終處於動蕩之中,直接或間接導致版本進展緩慢、創新不足、技術支援有限等現狀。為了響應用戶需求,推動開源生態,國內雲數倉廠商酷克數據(HashData)基於 PostgreSQL與 Greenplum研發了面向 AI和分析場景打造的新一代數據庫 CloudBerry Database (以下簡稱“CloudberryDB”),並於去年正式開源。
CloudberryDB助力企業靈活應對數據新挑戰
酷克數據成立於 2016年,是國內最早專注于雲原生數倉研發推廣的軟體企業,公司旗艦級産品 HashData Enterprise 已深度服務於金融、電信運營商、政務、能源以及網際網路等多個行業的頭部企業,其中最大客戶規模已超過 30000個節點。
憑藉原廠之外最大的 Greenplum原始開發者團隊,酷克數據獲得了業內領先的技術儲備和實踐能力。
基於 MPP數據庫的深度理解、國內大客戶的服務實踐經驗,以及創始團隊的長期開源社區參與,酷克數據研發並開源了 CloudberryDB 數倉産品。
作為 Greenplum的衍生版,CloudberryDB與 Greenplum 保持原生相容,並能實現無縫遷移,具備更新的內核和更豐富的功能。CloudberryDB支援豐富的數據類型和數倉/AI混合負載,可開展 SQL 分析、機器學習、全文檢索、HTAP等任務,通過數據存儲加密、聯合身份驗證等技術手段,幫助企業更方便地自建高效穩定的數據底座。
CloudberryDB既能滿足單機本地快捷部署,也能通過插件自由擴展為雲原生架構,具備高彈性、高併發、湖倉一體化、擴縮容靈活等優勢。SQL 引擎基於並行處理(MPP)架構,支援多計算集群部署,具備強大的並行計算能力,可以輕鬆支援高併發,有效隔離混合工作負載。
在部署方式上,CloudberryDB採用 100%純軟方案,支援裸金屬、虛擬機、容器化等多種部署方式,企業開發人員可以使用 R、Python、Perl、Java、 pgsql等語言編寫用戶自定義函數(UDF),面向多計算集群部署,實現專屬的業務需求。
CloudberryDB架構與靈活部署形態
此外,CloudberryDB還全面整合 PstgresQL 14.4,支援 ANSI SQL 2011,內置豐富的庫內分析模組,具備強大的 SQL 分析功能,滿足企業進行海量數據的複雜分析需求:
·支援 Multi-range、JSON、JSONB、XML等多種類型,並提供了相關操作、函數支援。
·支援 UPSERT,增加 INSERT... ON CONFLICT語法,在發生約束衝突時可以轉換成 UPDATE語義,對於數據導入友好。
·增加新語法方便數據更新:UPDATE tab SET (col1, col2,...) = (SELECT col1, col2,...)。
·支援範圍、列表、哈希等類型的分區,支援多層分區嵌套,支援分區管理操作。
·支援 BTree、Bitmap、Hash、GIN、 BRIN、GiST等多種類型的索引。
·支援物化視圖,支援複雜查詢,如:CTE、遞歸查詢。
· postgres_fdw支援聚集下推,減少傳輸數據量。
·允許窗口函數執行增量排序。
·支援 just-in-time (JIT)編譯。
·支援創建覆蓋索引。
·引入 PostGIS插件,實現了對空間數據類型、空間索引和空間函數的支援。
·基於 CBO優化器,CloudberryDB支援基於代價模型的聚集下推能力,能夠有效減少 Join 運算的數據量,大幅提升性能。
·改進了 CBO優化器,以生成更智慧高效的查詢計劃,適應雲和混合負載環境。
·支援基於代價的聚集下推,減少 Join數據量並提升性能。
·利用 Runtime filter技術進一步加速 Join運算。
……
CloudberryDB研發了新型行列混存技術,在保證寫入效率的情況下,利用查詢時跳塊過濾和預計算,大幅提升查詢性能。CloudberryDB 還利用向量化對算子進行了針對性的細緻優化,帶來了數量級的效率提升收益。
為確保企業數據的安全,CloudberryDB採用了統一認證、按需授權、安全存儲、動態脫敏等方式,構建了多層級安全體系。
在生態方面,CloudberryDB完美相容第三方産品,與主流 BI工具、挖掘預測工具、ETL工具、J2EE/.NET 應用程式以及其他數據源/計算引擎均有良好連通。
CloudberryDB産品相容生態
CloudberryDB內置了分佈式並行向量數據存儲、索引及檢索功能,企業可以通過酷克數據自研的 AI開發工具箱 HashML,將本地的文本、圖像等非結構化數據轉化成向量表示,構建分佈式大規模多模態向量知識庫,讓 AI應用開發變得更加簡單便捷。
持續構建開放、友好、中立的開源社區
站在巨人的肩膀上,借助 Greenplum、PostgreSQL等偉大開源項目的堅實基礎,CloudberryDB 才能不斷創新,力求為廣大開發者和用戶帶來更加卓越的産品體驗,這也是 CloudberryDB研發初衷。
在許可協議上,CloudberryDB採用了寬鬆的 Apache License V2.0 協議,期望賦予社區成員更大的自由度和靈活性,並鼓勵社區成員自由使用、輕鬆複製、按需修改,或者將 CloudberryDB 重新分發或融入自身的商業産品與服務中。
CloudberryDB 秉持國際標準、高點定位、全球視野的運營理念,致力於構建一個開放包容、友好互助、中立公正的社區環境,讓每一位社區成員都能在這裡找到歸屬感,共同為 CloudberryDB的進步貢獻力量。
我們有理由相信,通過集思廣益、群策群力,CloudberryDB社區將在未來綻放出更多光彩。