百度聯合微軟等組建深度機器學習開源平臺
- 發佈時間:2015-05-21 11:48:57 來源:光明網 責任編輯:王磊
5月21日消息,百度聯合微軟等組建深度機器學習開源平臺平臺正式面向公眾開放。據悉,該平臺隸屬於名為“深盟”的開源組織,該組織核心開發者來自百度深度學習研究院(IDL),微軟亞洲研究院、華盛頓大學、紐約大學、香港科技大學,卡耐基·梅隴大學等知名公司和高校。
通過這一開源平臺,世界各地的開發者們可以免費獲得更優質和更容易使用的分佈式機器學習演算法源碼,從而大幅降低開發和部署分佈式機器學習系統及相關應用的門檻。包括今日頭條、汽車之家等在內的多家公司已經通過該開放平臺受益。
“此次我們推出的深度機器學習開源平臺,和其他開源軟體一樣沒有任何使用限制,個人和機構均可以自由使用。而其最大的優勢,在於已經達到了工業級應用標準。” 深盟項目負責人之一、百度深度學習研究院李沐介紹稱,目前業內流行的分佈式平臺例如Spark都基於JAVA語言,開發難度雖然較低,但通常在性能上有所缺陷。而此次“深盟”推出的深度機器學習開源平臺,其核心則完全採用C++語言,加之所開放的演算法經過了多家公司的實踐,因此性能非常成熟穩定,已經達到了工業級應用水準,能夠滿足各種工業界需求。
機器學習是人工智慧研究領域中的重要方向,而深度學習則是近年機器學習領域的一個重大突破, 作為目前最接近人腦的智慧學習方法,深度學習可以完成需要高度抽象特徵的人工智慧任務,如語音識別、圖像識別和檢索、自然語言理解等,有著廣泛的應用前景,廣受業界追捧。在深度學習的研發上,百度有著領先世界的優勢。早在2013年,其便組建了百度IDL(深度學習研究院),面向全球延攬一流學術人才,並嘗試將深度學習應用於語音識別和圖像識別、檢索,以及廣告CTR預估(Click-Through-Rate Prediction,pCTR)等領域。2014年,百度又將Andrew Ng(吳恩達)招致麾下,吳恩達是斯坦福大學人工智慧實驗室主任,入選過《時代》雜誌年度全球最有影響力100人,是16位科技界的代表之一。截至目前,百度在深度學習上已經取得巨大成功,到目前為止,已經有超過8項深度學習技術在百度産品上線,在用GPU提升計算效率,處理海量訓練數據,語音識別,OCR識別,人臉識別,圖像搜索等領域,均達到國際領先水準。
“我們推出這個項目最大的願望,就是希望通過開放和分享百度在分佈式深度機器學習及大數據領域的技術經驗,將分佈式機器學習的門檻降低,使得更多個人和機構能夠享受大數據帶來的便利。同時也希望聯動更多來自工業界和學術界的開發者們,共同推動全球範圍內分佈式深度機器學習技術的研發及商業化應用,也希望能吸引更多的開發者和項目的加入” 李沐表示。
據了解,截止目前,“深盟”分佈式深度機器學習開源平臺的已有組件已成功覆蓋三類最常用的機器學習演算法,包括被廣泛用於排序的決策樹模型(GBDT),用於點擊預測的稀疏線性模型(如Sparse Logistic Regression),以及目前的研究熱點深度學習。未來“深盟”將致力於將實現和測試更多常用的機器學習演算法,並通過更好的融合當前各類組件,最終將提供更為一致性的用戶體驗。
據透露,“深盟”目前的重點開發項目被命名為“蟲洞”,其將成為所有深盟項目的統一入口。蟲洞將自動構建深盟所有項目,為對所有組件提供一致的數據流支援,無論數據是以何種格式存在網路共用磁片,HDFS,還是Amazon S3, 此外,它還提供統一腳本來編譯和運作所有組件,使得用戶即可以在方便的本地集群運作任何一個分佈式組件,又可以將任務提交到任何一個包括Amazon EC2,Microsfot Azure, Google Compute Engine在內的雲計算平臺,並提供自動的容災管理。