VMware中國研發中心總經理任道遠:業務數據湖 當敏捷遇上大數據
- 發佈時間:2016-01-20 14:55:00 來源:中國廣播網 責任編輯:羅伯特
2016年1月20日,2016全球大數據峰會GBDC2016在京舉行。本次大會由全球大數據聯盟(GBDC)、全球移動遊戲聯盟(GMGC)、世界O2O組織(WOO)、光合資本主辦,中國網際網路協會(ISC)O2O工作組、中國汽車流通協會(CADA)支援。VMware中國研發中心總經理任道遠做了主題為《業務數據湖——當敏捷遇上大數據》的演講。
以下為演講全文:
任道遠:大家上午好。今天給大家分享的是業務數據湖——當敏捷遇上大數據。我是代表VMware、EMC等等的聯盟來與大家分享。我今天開始所講的第一個話題,其實是關於軟體工程以及應用開發。我們知道在軟體工程裏面,其實從編程語言的角度來講,近幾年我們其實沒有太大的顛覆性的突破。我們知道最新的一些語言,但是比起當初從C++到Java不算很顛覆性,但是在軟體工程生命週期裏,我們看到了有大量的敏捷性的工具來去支援所有的軟體工程的每一個環節。這裡包括從一個創意到代碼,然後版本的管理,程式的整合,部署,以及自動化的測試,以及今天講的平臺即服務,我們新一代容器的技術,以及這些工具它們所提供的一個緊密的反饋的路徑。這些都能夠大大提高軟體工程的效率,以及減少問題的出現。
在2014年一個官方的統計,專門專注開發運維的流程,我們發現左邊一些部署的頻率失敗的機會也是大大的減少。在變更流程的成功率大大的提高。同時我們對軟體部署的恢復效率也有了迅猛的增長。在右邊看到不管對企業的營業額,利潤,還是這些企業通過敏捷開發之後,在市場上面的增長,也是非常的可觀。
今天的問題當然是大數據,在我們數據工程,在我們的數據管道裏怎麼來去避免,在軟體工程以及應用開發上面的敏捷,但是可能在數據上面還是一個瀑布式的流程。我們新一代的,數據工程裏的挑戰,包括在數據的取獲,不止有傳統的用戶系統的數據,也有我們基於社交網路,基於新一代的物聯網的感應器,以及實時系統的一些數據的取獲。我們也會引入到要存儲各種各樣數據在同一個環境裏方便我們去進行跨數據的分析。在分析的流程裏我們可能會引入一些更先進的演算法,同時我們的需求可能不止是對歷史性的分析,也是對將來的一些可推測的分析。這些分析我們是希望能夠很快的通過界面來去給我們的業務領域的專家來去分享。最後,可能是通過打造應用,這些數據驅動的應用來去讓我們的企業能夠更加敏捷的作出決定。
我們的看法是在這裡面所有的問題聚焦,是在業務的産出,也就是説,怎麼樣能夠把我們的分析的用力,能夠有效的映射到我們分析的平臺以及基礎架構。這裡面這些分析的用力,包括有客戶的分析,有産品的分析,有競爭對手的分析,也有供應流的分析。在中間我們看到有不同的新一代的分析的平臺和演算法,當然最後還有我們的虛擬化,以及存儲,計算的基礎架構。
我們數據湖的解決方案有三個大的特色:
第一,統一的平臺管理。在自動化的數據管理平臺上面,我們可以做到是沒有傳統的IT的可以自動提供數據存儲的環境,能夠提供不同的分析處理的環境,包括新一代的Xbox,以及各種集群的環境,能夠提供更好的數據的取獲的環境,不管是傳統的,還是新一代的移動大數據,以及實時的感應系統。最後,各種不同的數據,我們能夠把這些進行有效的索引,讓它們能夠及時的給我們的應用展現出來。
第二,我們覺得是一個有序的數據湖,而不是一個數據混亂的沼澤或者泥濘。這裡有數據驅動的存儲,讓我們的數據能夠有效可靠。當然我們也希望從管理的角度能夠控制和去審計我們的數據的使用。我們也想希望能夠符合各種的法規,同時能夠支援雲數據的管理。
最後,所有的數據,所有的這些分析的演算法,我們希望能有一個索引,這樣數據的服務,分析的服務,演算法的服務能夠提供給新一代的應用。同時我們能夠打造很好的界面,以及一些動態的應用,能夠讓最終的用戶去使用。
最後,我們的索引希望能夠儘快的把一些簡單的數據上面的分析,能夠給企業創造價值,從以前的幾年,幾個月到現在的幾週,甚至是幾天的時間,幾個小時的時間。我們提出的解決方案,業務數據湖,除了有這三大支援的組件,我們的平臺管理,我們的業務規範,以及我們數據分析的索引,當然還有我們的核心。這個核心是以大數據套件等等作為核心,同時也是支援開放數據平臺,這裡麵包括了VMware的虛擬化,雲計算的組件等等的一些産品和組件。同時在最上面我們支援一些開放分析的工具,包括SAS,或者其他的一些在行業裏的優秀的演算法以及軟體。
在大數據的套件裏面,我們看到了一些先進的演算法,它們會基於PIVOTAL的大平臺,可以支援大規模的接近實時的一些數據的處理。在中間這層,當然在數據的分析的前提是有一個很好的存儲,以及數據處理的技術。我們也會支援Xbox等等的開源組織的技術。在DDS大數據套件它的亮點,當然是完整,以及在SQL上也是一個領先的技術,在大套件本身是一個開源的技術和産品,同時我們會提供靈活的商務的協議,來去提供一些企業它們有些特別增值的需要。PIVOTAL CLOUD FOUNDRY可以讓數據師或者用戶能夠敏捷的打造雲原生的運用,來接入我們一些分析的服務,它會更加關注于開人員有效的開發,而把運維以及一些新一代的角色能夠用這個技術和平臺來非常好的支援,包括對容器,以及新一代的大數據的服務,在這個平臺裏面都能夠有很好的支援,能大量的減少開發人員在運維部署方面的一些瓶頸。PIVOTAL CLOUD FOUNDRY也是在我們大數據套件裏自動的包括,它也是業界領先的開源的技術項目。同時它可以在亞馬遜的公有雲,我們叫基礎架構即服務這樣的公有雲,以及私有雲等等的都能夠進行無縫的運作。我們做大數據和HADOOP是離不開的,它也是一個標準。VMware、EMC都是在開源的組織裏,和我們生態環境裏的合作夥伴一起去共同推進HADOOP以及一些大數據的技術。
最後,我們的理念,在業務數據湖上面,是能夠有效的把數據分析和應用能夠匯集起來,給企業創造價值。首先是在數據方面,我們需要是去存儲所有的數據,這裡麵包括了結構化,非結構化以及不常用的離線的數據,包括了企業本身産生的數據,以及在外部産生的數據,歷史的以及及時的數據。業務數據湖能對所有數據進行有效的分析,進行預測,能夠有新的組合以及關聯,能夠用到前面一些我們的同行講到的機器學習,人工智慧,來去將我們的數據做最有效的分析。
最後,是通過數據驅動的應用,能夠打造合適的東西。這個東西當然希望有一個好的界面給最終的用戶用,而不是我們數據的科學家或者業務的分析師來用,而是給最終的用能來用。同時我們希望很多的分析,能夠直接接入到雲原生的應用,讓這些雲原生的應用可以更加自動的、聰明的來去把我們的分析能夠作出對於最終用戶更好的一個決策。
我這裡也是舉一個例子,大家也都知道UBER,這也是全球最大的打車的平臺。當我們去用UBER的時候,在幾分鐘之內就有車神奇的來到我們身邊。大家可能認為這個後臺的系統就是很簡單的將用戶的需求,通過系統發佈到所有的附近的汽車,然後把最近的汽車能夠調度到我們的身邊。假如單單是這樣的話,這個系統當然也是很好的,但是它並不是非常的神奇。神奇的是UBER五將歷史的數據,包括汽車司機的數據,包括用戶的數據,在哪些地方,什麼時間會産生什麼樣子的需求,什麼樣的峰值,然後它通過一個預測的調度,提前的把合適的汽車,以及司機放到了最有可能出現客戶需求的地方。這樣子大大的減少了我們等車的時間。否則我們系統會通過十分鐘、十五分鐘,但是UBER的目標是在三分鐘之內,我們的汽車能夠調度到有需求的地方去。這個神奇我覺得就是大數據和敏捷應用合在一起的一個神奇。我們VMware、EMC、Pivotal聯盟,推出的業務數據湖,也是希望能將我們的大數據,實時數據,我們分析的演算法,以及我們的雲原生的應用,能夠有效的匯集起來,把敏捷帶到我們的大數據,帶到我們的實時數據,同時更重要的是能夠為我們的企業,為我們的合作夥伴能夠創造一個更高的價值。謝謝。