全國網路扶貧推進會召開 伊對結對幫扶新疆莎車縣 | 麻利快嘴搭配原創點評,媒體人張彬在今日頭條獲粉無數 | AI引領智變 訊飛智慧滑鼠獲金投賞商業創意獎全場大獎 | TCL U潤智慧柔風空調——後浪生活中的小確幸 | 麥鍶科技榮獲2020年度區塊鏈最佳應用創新獎 | 重組帶狀皰疹疫苗完成溫州首針接種,惠及50歲及以上人群 | 亞信科技朱軍:基於工業網際網路標識構建數字孿生生態 | 麥子錢包A+輪融資780萬美金後 又獲Fundamental百萬美金追投 | 致遠互聯攜手客戶走進華為 CXO高端管理培訓 共探企業管理創新之道 | 智教慧學 迎面未來 ——第78屆中國教育裝備展示範校園觀摩行活動成功舉辦 |
 
當前位置: 新聞>滾動>

魚和熊掌可以兼得,雲原生開啟“數據庫大數據一體化”新時代

發佈時間:2020-10-26 17:04:57  |  來源:東方網  |  作者:   |  責任編輯:科學頻道

10月23日數據湖高峰論壇上,阿里巴巴集團副總裁、阿裏雲智慧數據庫産品事業部負責人、達摩院數據庫與存儲實驗室負責人李飛飛表示:“雲原生作為雲計算領域的關鍵技術與基礎創新,正在加速數據分析全面進入數據庫大數據一體化時代”。

阿里巴巴集團副總裁、阿裏雲智慧數據庫産品事業部負責人李飛飛

他表示,隨著數字化轉型進程深入推進,企業的數據存儲、處理、增長速度發生了巨大的變化,傳統數據分析系統在成本、規模、數據多樣性等方面面臨很大的挑戰。雲計算的發展正在加速推進數據分析系統進入“數據庫大數據一體化”時代,以更好得幫助企業加速邁入數字原生時代加速業務數智化。

傳統數據分析系統和技術面臨巨大挑戰

近年來,企業數據需求呈現出海量、數據類型多樣化、處理實時化、智慧化等新特點,對數據分析系統提出了彈性擴展、結構化/半結構化/非結構化海量數據存儲計算、一份存儲多種計算及低成本等核心訴求。

而傳統商業化數據倉庫及大數據技術,因存在擴展性、建設維護成本、系統複雜讀等一系列挑戰,無法很好得滿足業務訴求。例如,大量企業需要對數據進行離線ETL計算、機器學習及多維度查詢分析等多種計算時,使用大數據技術或傳統數據倉庫,企業需要組合使用多種技術産品,通過複雜的數據整合、數據冗余來滿足多樣的計算訴求,整個技術架構複雜且數據冗余成本高。

雲原生重構數據處理架構,加速向“數據庫大數據一體化”演進

針對企業面臨的分析困境,是否有一種新型數據分析技術和架構能夠高效解決海量數據深度計算分析的業務訴求?答案是肯定的,李飛飛表示,下一代數據分析演進方向是“以雲原生為基礎,在離線一體化技術融合,實現數據庫大數據一體化”。隨著雲計算的發展,計算存儲解耦、資源池化、Serverless、流批一體等核心基礎技術正在加速數據分析系統向“數據庫大數據一體化”演進。“數據庫大數據一體化”的雲原生數據分析系統能夠很好得提供彈性擴展、海量存儲、多種計算及低成本等能力,有效解決海量數據深度計算分析的業務分析和創新訴求。

其實,“數據庫大數據一體化”也是業界近年的發展趨勢,Gartner及業界多個産品都在朝這個趨勢演進:

● Microsoft SQL Server在2018年9月發佈的SQL Server 2019預覽版中宣佈通過深度整合Spark與Hadoop提供端到端的數據處理解決方案。

● AWS Redshift及Snowflake均提供離線ETL處理、多維度互動式分析、實時增刪改查的一體化的産品能力。

同時,2019年6月,全球知名諮詢公司Gartner發佈了一篇名為“There is only one DBMS Market“的報告,報告指出過去,因為性能需求不同,根據業務場景按照分析型和交易型需求,需要獨立發展OPDBMS和DMSA,而未來分析型和交易型數據操作對技術架構依賴性會更小,將不再需要獨立區分OPDBMS和DMSA,未來通過一體化的數據處理技術即可滿足絕大部分訴求。

從技術架構演進過程來看,數據處理發展經歷了四個重要階段:

● 60年代,關係數據庫之父E.F.Codd博士提出了關係模型,促進了連線事務處理(OLTP)的發展,誕生了如Oracle、DB2等數據庫幫助核心業務如銀行實現線上交易的普及。

● 1993年,關係數據庫之父E.F.Codd博士提出多維數據庫、多維分析的概念以及十二條準則,認為OLTP已不能滿足終端用戶對數據庫查詢分析的性能需求,SQL對大型數據庫進行的簡單查詢也不能滿足終端用戶分析的多樣性要求,促進了線上分析處理(OLAP)的發展,出現了MOLAP(Multidimensional OLAP)、ROLAP(Relational OLAP)、HOLAP(Hybrid OLAP)計算模型和引擎,誕生了如IBM Cognos、Oracle Essbase、Greenplum等數據倉庫幫助業務實現海量數據存儲、建模、業務分析探索的普及。

● 2003~2006年,Google發表《TheGoogleFile System》、《MapReduce:Simplified Data Processing on Large Clusters》、《Bigtable:A Distributed Storage System for Structured Data》三篇海量數據存儲、處理重要論文,促進了大數據技術的飛速發展,誕生了如Hadoop HDFS、Hadoop MapReduce、Tez、HBase、Spark、Flink等為代表的分佈式文件系統、分佈式計算框架、分佈式寬表存儲系統,加速了大數據應用向5V(Velocity、Volume、Variety、Value、Veracity)方向發展和普及。

● 2012年至今,隨著雲計算的發展,雲計算的資源池化、存儲與計算彈性擴展等基礎設施升級以及計算存儲分離、在離線一體化等技術創新,促進了數據處理開始朝一份數據開放計算、存儲計算分離的雲原生方向演進,誕生了如Snowflake、AWS Redshift、AWS Aurora、AWS Athena為代表的新一代雲原生數據庫、數據倉庫、數據湖,加速了數據處理向線上化、在離線一體化、結構化與非結構容和處理演進,加速業務走向數字化、數智化創新的新形態。

李飛飛表示,“數據庫大數據一體化”的數據分析系統應該具備如下特徵:

1.雲原生,數據分析系統需要支援強大的彈性擴展能力,根據業務負載動態擴展計算資源,提供大規模數據處理能力,有效滿足數據分析性能訴求的同時,降低分析成本。

2.一份存儲多種計算,數據分析系統必須支援在一份存儲數據上相容多種計算,包括實時增刪改查、多維度互動式分析、離線ETL及機器學習。通過一份存儲支援多種計算的特性,避免了數據計算過程中的數據搬遷,簡化了數據分析過程,降低分析成本。

3.海量存儲,支援結構化、半結構化及非結構化數據庫的存儲及計算。隨著IOT/移動網路的發展,半結構化/非結構化數據佔比越來越高,數據分析系統需要支援這些數據的低成本存儲及計算,助力企業充分挖掘併發揮數據價值。

4.全面相容數據庫生態,數據分析系統需要提供並相容數據庫介面協議,且支援數據庫上下游生態,降低數據分析門檻,讓開發人員會數據庫就會大數據。

基於“數據庫大數據一體化”的演進趨勢,阿裏雲推出了以雲原生數據倉庫AnalyticDB及雲原生數據湖分析DLA為核心的雲原生數據分析系統。深度融合數據庫及大數據技術,為企業提供一體化的數據接入、數據存儲、數據計算及數據分析解決方案,讓會數據庫的用戶就會大數據。

雲原生數據倉庫AnalyticDB讓開發人員“會數據庫就會大數據”

為滿足企業計算分析多元化的訴求,阿裏雲于2013年開始研發並推出雲原生數據倉庫AnalyticDB。基於雲構建,秉承“數據庫大數據一體化”的理念,AnalyticDB為用戶提供了新一代的數據分析系統,有效解決當前企業數據分析痛點。AnalyticDB具備如下優勢:

一、離線上一體化,AnalyticDB提供離線ETL及多維度互動式分析的多樣化計算能力。通過存儲服務化、MPP+DAG混合計算引擎及混合負載調度等技術,實現一份數據多種計算的能力。且基於智慧索引、智慧優化器及行列混存等技術,複雜SQL的查詢速度相較于傳統的數據分析系統快10倍以上。

二、雲原生,AnalyticDB通過存儲計算分離及存儲服務化等技術,實現了計算與存儲的獨立自由彈性。AnalyticDB可以根據業務負載變化動態擴縮計算資源,滿足企業數據分析性能訴求的同時,有效控制分析成本。同時,存儲服務化後,按存儲量付費,

三、海量存儲,AnalyticDB通過分佈式存儲、存儲服務化及向量計算等多種技術,可以支援結構化、半結構化及非結構化海量數據的存儲。同時,AnalyticDB支援冷熱數據分層存儲。企業可以根據業務的使用情況,做表/分區級別的冷熱分離存儲,通過對低頻訪問的冷數據提供低價存儲,對於頻繁訪問的熱點數據,採用ESSD存儲滿足高性能訪問,進而保障訪問性能的同時,優化整體數據存儲成本。

四、相容數據庫生態,不同於複雜、高門檻的大數據體系,AnalyticDB高度相容MySQL、PostgreSQL及Oracle。相容數據庫的客戶端及上下游生態,降低數據分析門檻,讓開發人員會數據庫就會大數據。

五、一鍵建倉,AnalyticDB提供一鍵建倉功能,企業可以通過一鍵建倉功能輕鬆得將數據庫及日誌數據實時整合至AnalyticDB。

與傳統數據分析系統最大的不同是,AnalyticDB基於“數據庫大數據一體化”的技術架構,為用戶提供一體化的數據分析系統,滿足多樣化的數據分析訴求,讓開發人員會數據庫就會大數據。

雲原生數據湖分析DLA讓數據湖分析進入Serverless時代

近幾年數據湖的概念很火,數據湖允許以任意規模存儲所有結構化、非結構化及半結構化數據,其中的數據主要用於報告、可視化、增強分析及機器學習等場景。為了實現數據湖的數據可分析,需要解決數據湖構建、元數據構建管理及數據計算引擎對接等問題。為此,阿裏雲2018年開始佈局並推出端到端的數據湖解決方案:雲原生數據湖分析Data Lake Analytics(簡稱:DLA),幫助企業快速構建並高效挖掘數據。

雲原生數據湖分析DLA,具備四大優勢:

一、數據湖管理,DLA提供一站式數據湖管理能力,包括元數據發現、管理及變更,全量及增量數據一鍵入湖。元數據管理功能可以支援OSS/RDS/Hbase/MongoDB等數據源的元數據自動發現、管理及變更。同時,內置Apache hudi, DLA支援增量數據分鐘級入湖,助力企業構建準實時數據湖。

二、一份存儲多種計算,DLA提供了Presto、Spark兩種計算引擎,滿足多維度互動式分析、離線ETL、機器學習等多種計算能力。針對Presto,DLA在資源隔離、高可用及元數據庫許可權隔離等方面做了極大增強,保障服務穩定性及可靠性。同時,對於Spark計算引擎,DLA實現了數據暫存、元數據訪問優化及文件上傳優化等,保障計算性能,據測試,在Spark典型ETL Benchmark Terasort,1TB輸入數據量的場景下,相較于自建spark,DLA性能提升163%。

三、Serverless計算分析,DLA基於容器及多租戶隔離等技術,提供完全Serverless的計算能力。DLA可以根據Spark Job或Presto SQL動態擴縮計算資源,一分鐘可拉起300個計算節點。用戶只需按實際運作作業付費,計費精確至秒級,相較于自建系統,性價比提升300%,大大提升數據分析性價比。

四、數據庫生態相容性,DLA完全相容MySQL的JDBC,相容MySQL的客戶端及上下游生態,降低數據分析門檻,讓開發人員會MySQL就會大數據。

到企業中去

阿裏雲AnalyticDB與DLA自上線以來,已覆蓋遊戲、廣告、文旅、零售、金融、數字政府、運營商等眾多行業的企業客戶,且覆蓋阿里巴巴集團的所有核心業務。據介紹,Yeahmobi利用DLA進行廣告業務數據的深度挖掘分析,實現時間、成本、安全、計算效率等方面的優化,綜合成本降低大約50%。某大型物流企業,通過AnalyticDB構建企業數據倉庫,實現離線上一體化分析架構,支援 2PB數據的存儲計算,分析性能大幅提升10倍,實現分析實時化。

未來數據分析系統將全面進入“數據庫大數據一體化”時代,阿裏雲AnalyticDB及DLA將秉承“數據庫大數據一體化”理念,持續打造雲原生、一體化的數據分析能力,助力企業加速邁入數字原生時代。