星圖數據:雙11全網銷售數據直播背後的支撐者
- 發佈時間:2014-11-25 09:00:48 來源:中國企業新聞網 責任編輯:書海
針對星圖數據CEO谷熠的採訪正好趕在“雙11”附近,這個鑄造中國電子商務一個新里程碑的同時,也留下了一串光輝的數字:星圖數據對這個一年一度的網路購物狂歡進行了全網銷售數據直播。作為國內唯一一家對全網銷售情況直播的企業,創始人兼CEO谷熠表示做到這些主要依賴兩點: 一是自身的數據獲取方式,區別於傳統的市場調研機構的”抽樣推總“方式,星圖數據利用”全網普查“方式獲取數據;二是直播效率的問題,目前他們的直播僅有三個小時左右的延時,這是傳統方式完全無法做到的,而做到如此高的數據獲取和處理效率,主要還是依賴他們自主研發的iNebula和WarpEngine這兩套系統。
創立不到一年,已經獲得A輪數百萬美元的融資,星圖數據已經在幾個方面開始快速發展,其中主要包括更多領域的數據監測、商務合作的推進以及新業務的研發,後期會將更多精力放在打磨産品和擴充數據方面。以下是對谷熠的採訪實錄。
星圖數據創始人兼CEO 谷熠
CSDN:首先介紹下自己和星圖數據,以及技術團隊情況如何?
谷熠:我是星圖數據的聯合創始人谷熠,現在在星圖數據擔任CEO一職。星圖數據(Syntun)是一家新銳的網際網路大數據服務公司,致力於大數據技術在消費領域的行業應用,專注于通過大數據的技術幫助傳統企業解決線上零售方面所遇到的實操問題。技術團隊目前在星圖數據佔據70%以上的團隊規模,其中涵蓋了數據的採集、清理、模型計算、産品開發等環節,數據處理的技術構成主要以Java、Hadoop為主,前端産品開發則採用了開發效率和靈活度都比較高的LNMP環境.
CSDN:你們目前的産品種類和業務方向如何?具體的應用場景有哪些?
谷熠:目前星圖數據主要專注于為傳統的品牌製造企業和渠道流通企業提供大數據解決方案。所提供的産品主要以SaaS+DaaS的形式提供,並且我們的産品區別於傳統的報告或者是數據庫的交付形式,主要針對企業日常工作流程中的職能與環節,通過工具化和服務化的方式,幫助企業相關人員解決場景化的實操問題。
應用場景:以傳統的品牌製造企業為例,我們全流程地幫助企業線上上零售過程中的産品管理、渠道管理以及行銷管理等多方面解決問題。舉例來説,我們曾經幫助一些傳統的品牌製造企業在産品的策劃和設計環節提供服務,通過對於消費者的評價評論的輿情反饋、消費者的購買習慣和選擇偏好等數據,在一款産品的各個細分維度提供設計支援,打造真正符合線上消費者需求的單品。經過該過程所設計生産的産品,至今依然是銷售名列前茅的明星單品。
CSDN:目前的客戶規模如何,有哪些重量級客戶?
谷熠:星圖數據目前主要服務的是傳統的品牌製造企業和渠道流通企業,從2014年3月份開始進行市場推廣和商務拓展後,目前共服務了數十家企業。其中包括耐用消費品類的美的集團和快速消費品類的蒙牛等知名企業。
CSDN:目前國內外做大數據行業的企業很多,專注海量數據分析的也不少,相比其他,你們的優勢何在 ?
谷熠:我認為競爭優勢主要體現在以下幾個方面:
更懂技術:我們利用開源的Hadoop等技術,自主研發出iNebula(數據星雲)大數據獲取和存儲系統,以及WarpEngine(曲速引擎)大數據處理和分析引擎等具有自主智慧財産權的大數據系統,構建了自有的大數據供應鏈。通過這套供應鏈系統,極大地加強了數據的吞吐能力,提升了效率。因而能夠減少人工操作所帶來的延遲和風險,從而做到更為實時的數據供給。
更懂數據:我們的團隊具有專業化的豐富的大數據處理的經驗和能力,能夠通過系統化的方式,快速準確地進行數據的清洗、標準化、挖掘以及數據模型演算的過程,從而很大程度上提升了數據的準確性和可用性,並且將數據的顆粒度細化到SKU級別。
最重要的是我們更懂客戶:我們通過與上百家的傳統企業所進行的服務與接觸,深入地了解企業線上上零售方面整個的業務流程和所遇到的困難。這也是我們能夠設計出符合客戶需求的産品的最本源的出發點。
CSDN:據我了解,星圖數據作為唯一一家對“雙11”當天進行全網銷售情況直播的企業,能否分享這背後的技術基礎?
谷熠:能夠做到在雙十一當天進行全網銷售情況的直播,主要依賴於以下2點。
一是我們自身的數據獲取方式的問題,我們區別於傳統的市場調研機構的”抽樣推總“方式,而是利用”全網普查“方式獲取數據。我們對於全網18家主流的綜合性B2C和垂直性B2C進行實時監測,從而匯總出了我們所發佈的全網銷售情況數據。二是直播效率的問題,目前來講我們的直播僅有三個小時左右的延時,這是傳統方式完全無法做到的。如此之高的數據獲取和處理效率,主要還是依賴於我們自主研發的iNebula和WarpEngine這兩套系統,“零人工干預”的方式極大地提高了系統的效率。
iNebula是一套針對網際網路海量資訊的實時監測和數據獲取系統,通過分佈式解偶採集和智慧解析,從常態監控或定向的web頁面中提取結構化數據,並通過動態地址池、智慧任務路由、網路環境自適應以及多樣化的數據校驗及存儲技術確保數據獲取的完整性和效率。目前iNebula平均每分鐘獲取的頁面數量為50000個以上,每日常態化獲取並存儲的網際網路數據超過3TB。
中臺的大數據處理及分析引擎WarpEngine,主要完成數據的清洗挖掘、QC和標準化、以及建模計算和語義分析。通過應用Hadoop平臺上的各項技術以及機器自學習技術,目前WarpEngine每分鐘處理的數據超過6000萬條。
星圖數據的雲服務産品線目前已上線三款産品:D-Matrix、SkyScope及Atom.Power,主要採用主流的LNMP架構來提高産品系統的效率和擴展性,其中數據庫主從方式和Redis熱數據暫存的應用,使大數據産品在雲端服務的承載量級更高、展現速度更快;而數據可視化部分使用了目前主流的Chart圖方式,讓數據的易用性更強,展現更加生動。
但是我們相信這仍然還有可提升的空間,我們希望在明年“雙11”的時候能夠通過和今年天貓採用的大屏直播的方式進行全網銷售情況的直播。
CSDN:能否介紹下星圖數據背後的技術架構和平臺打造歷程?
谷熠:星圖數據技術團隊的前身是2010年組建於美國加州的BDTAC團隊,核心來自於USC和CMU等高校,聚焦于大數據前沿技術及應用。星圖數據的國內研發團隊在2014年初組建完成後,在首席科學家糜萬軍博士的帶領下,基於美國團隊的技術研究和積累,歷經數月的本土化和行業化,開發了現在星圖數據底層的大數據採集及存儲系統iNebula和中臺的大數據處理分析引擎WarpEngine兩個系統的里程碑版,並在此之上逐步研發了針對消費領域的企業雲服務産品線。
CSDN:你們在Hadoop等開源技術實戰這一領域具有非常豐富的經驗,有哪些經驗可以分享給讀者?
谷熠:這個我們的技術人員也是通過不斷摸索、優化來逐漸完善的。Hadoop做一款支援數據密集型分佈式應用的開源軟體框架,配合其子項目使用,對於大數據的處理和模型計算是具有天生的優勢的。但是最為一個開源軟體框架,它的版本更新頻率和是比較頻繁的,雖然版本更新帶來了更高的性能,特別是從1.x版本升級到2.x的大版本升級,改動比較大,我們的技術團隊也走了不少彎路。所以建議大家在獲得更新的版本和穩定性兩方面做好平衡。
CSDN:站在客戶的角度,你覺得目前客戶們最關心的問題集中在哪些方面,你們有無應對之策?
谷熠:從我們和數百家的傳統企業的接觸來看,我們認為目前我們的客戶,尤其是傳統的品牌製造企業客戶核心關注的問題實際上是如何完成自己內部工作流程和方式的轉型升級。企業已經越來越從銷售結果導向,開始轉為消費者導向了。這正好符合星圖數據所構建的數據體系,即零售數據體系和消費者數據體系。我們所追求的正是這兩套體系的打通,從而完成從企業到消費者的完整閉環。舉例來説,企業可以通過消費者數據進行所有的生産、銷售和行銷的決策,並最終通過銷售數據來進行驗證和考核。
CSDN:國內外目前的大數據分析領域發展趨勢如何?星圖未來有哪些計劃能透露下嗎?
谷熠:大數據領域無疑是最近幾年最為火熱的領域,越來越多的企業開始意識到大數據的重要性,也有越來越多的企業開始投身於大數據服務的浪潮之中。從個人角度來講,我認為無論服務的目標對像是誰,都需要充分地了解你所服務的對象,了解他的業務流程、使用方式、應用場景以及所遇到的問題等等。只有深入了解你的目標對象,才有可能實現蘊藏在海量數據背後真正的大數據價值。大數據時代的到來,數據量的極大豐富,導致了數據價值密度的降低,因此,更需要有真正懂得大數據規律的企業來起到提煉價值、貢獻價值的作用。星圖數據也正在朝著這個方向努力。
中國創新“先鋒”企業系列報道 | |||||
序號 | 公司名稱 | 成立時間 | CEO/CTO | 官方微網志 | 公司産品/方向 |
---|---|---|---|---|---|
1. | 雲適配 | 2012年 | 陳本峰 | 網站適配 | |
2. | 友友 | 2010年 | 姚宏宇 | @友友微網志 | C、C++、Java産品研發 |
3. | 聚合數據 | 2010年 | 左磊 | @聚合數據 | 移動數據服務 |
4. | Anchora | 2009年 | 魯為民 | MoPaaS和InPaaS | |
5. | 夠快 | 2012年 | 蔣爍淼 | @夠快科技 | 雲存儲 |
6. | 文思海輝 | 2012年 | 吳凱 | @文思海輝 | OpenStack公有雲 |
7. | 搜狐雲 | 2011年 | 邱英波 | SendCloud | |
8. | 聯想雲存儲 | 2009年 | 羅予晉 | 雲存儲 | |
9. | 南京訊之智 | 2012年 | 謝晚霞 | 大數據實時分析 | |
10. | 上海聖何賽 | 2012年 | 金劍 | 雲管理、雲存儲 | |
11. | 國雲科技 | 2010年 | 季統凱 | @國雲科技 | 雲作業系統 |
12. | SSO365 | 2012年 | 趙健 | 雲安全、雲身份認證 | |
13. | ClouDil雲方案 | 2001年 | 葉濱 | @世紀鼎利 | 通信運營商 |
14. | 多備份 | 2013年 | 胡茂華 | @木浪 | 雲備份 |
15. | 上海越誠軟體 | 2011年 | 王煒 | 基於雲的建站軟體超市 | |
16. | 雲智慧 | 2009年 | 殷晉 | @監控寶 | 雲監控、基於大數據APM |
17. | 深圳澤雲 | 2012年 | 何巨彬 | 高性能存儲系統 | |
18. | 深圳智冠 | 2004年 | 盧慧莉 | 手靜脈生物識別、虛擬化 | |
19. | 北京沃安科技 | 2009年 | 曹學武 | @沃安科技 | 移動視頻技術提供商 |
20. | 星環資訊科技 | 2013年 | 孫元浩 | @星環科技 | 大數據分析平臺 |
21. | 杭州數雲 | 2011年 | 宣曉華 | @杭州數雲 | 數據挖掘 |
22. | 紅象雲騰 | 2012年 | 童小軍 | @RedHadoop | 基於Hadoop大數據平臺 |
23. | APICloud | 2013年 | 鄒達 | @APICloud | 雲API和端API |
24. | SequoiaDB | 2012年 | 王濤 | @SequoiaDB | 大數據、雲計算、NoSQL |
25. | Syscloud | 2012年 | 張雄國 | 雲主機虛擬數據中心 | |
26. | 易思捷 | 2008年 | 楊炳富 | @易思捷虛擬化和雲計算 | 數據中心,虛擬化 |
27. | 親加通訊雲 | 2011年 | 須澤中 | @親加通訊雲 | 通訊雲 |
28. | OneAPM | 2008年 | 何曉陽 | @藍海訊通OneAPM | 基於SaaS平臺的APM |
29. | TalkingData | 2011年 | 崔曉波 | @Talkingdata | 移動大數據平臺 |
30. | 北森 | 2002年 | 紀偉國 | @北森官方微網志 | 網際網路人才管理軟體 |
31. | 聽雲 | 2007年 | Wood Chen | @聽雲 | 基於SaaS的APM |
32. | 萬國數據 | 2000年 | 黃偉 | @萬國數據 | 高可用IT服務提供商 |
33. | 思明軟體 | 2013年 | 馮是聰 | @思明軟體 | 大數據分析 |
34. | 七牛雲存儲 | 2011年 | 許式偉 | @七牛雲存儲 | 雲存儲 |
35. | 星圖數據 | 2014年 | 谷熠 | @星圖數據 | 數據挖掘 |
備註:2014年11月25日更新,持續更新中......