近期,《晶報》探訪並對深圳計算科學研究院進行了特別報道。深算院YashanDB技術總監歐偉傑接受採訪,介紹了深算院的原創基礎研究成果和人才體系,以及全自研國産數據庫YashanDB在智慧城市數字孿生場景的應用推廣,以下為部分報道內容。
三款核心産品的名字,源自南宋三場戰事
但凡專業且抽象的事物,表述總會擔心太過於晦澀難懂,於是,先説一個大家都懂的詞:“卡脖子”。是的,相信這幾年,大家對這幾個字再熟悉不過了。
2019年4月13日,深算院在深圳大學揭牌成立,重點研究大數據領域方向的計算科學基礎理論,把原創理論落地轉化為實用系統,致力打造中國原創的基礎軟體民族品牌。截至目前,該院已開發並落地三款全自研的戰略性基礎軟體産品——崖山數據庫系統、採石磯數據品質系統、釣魚城數據分析系統,並在多個重點行業領域落地應用。
數據庫是什麼?通俗理解,它是“放數據的倉庫”。當資訊世界裏的數據處理量大了,就要對“倉庫”進行有序管理。此前,國內同行産品紛紛“站在巨人肩膀上”,在國外軟體企業提供的開源代碼上進行再開發,加快産品上市速度,而深算院堅持自主研發,一步一個腳印。
數據庫系統可以稱為軟體裏的“重工業”,自主研發門檻高、週期長。為什麼要堅持自主研發呢?基礎研究處於從研究到應用、再到生産的科研鏈條起始之端,是科技創新的源頭,更是整個科學體系的源頭。深算院深知關鍵核心技術,更是要不來、買不來、討不來的。加強基礎研究,從源頭解決關鍵技術問題,才能打好科技自立自強主動仗。
深算院崖山數據庫技術總監歐偉傑列舉了一個形象的例子:“如果我們將基礎軟體看做一棵‘樹’,那麼開源代碼就是一棵‘樹苗’,在開源基礎上開發相當於把它‘移栽’過來,它的品種是什麼以及未來生長的樹冠有多大、能覆蓋多大的面積,這是它基因裏自帶的,我們無法通過‘修剪’去改造它。但我們自己研發,就相當於自己去培育一個品種,我們可以決定它的基因,比如它的根扎多深、未來樹冠有多大,這都是我們自己可以控制的。”歐偉傑表示:“目前的一些具體應用走開源代碼的道路是沒問題的,但在基礎軟體上,我們堅持用‘笨辦法’,從自己開始做研發,希望它能夠走得更遠,哪怕它的時間長一點。”
深算院崖山數據庫技術總監歐偉傑接受記者採訪
正如印刻在深算院標誌中的口號——“‘VENI VIDI VICI’(我來,我見,我征服)”那樣,深算院的初衷是“征服數據,做改變世界的一些事情”。
深算院標誌中心圍繞著深算院口號——“VENI VIDI VICI”(我來,我見,我征服)
這樣的精神同樣體現在深算院的産品上。據介紹,“崖山”“採石磯”“釣魚城”均由深算院首席科學家根據南宋三場保家衛國之戰命名。其中,“崖山”以歷史上宋元海戰發生地為名,意在賡續崖山的民族氣節和風骨,“採石磯”之戰講的是以少勝多的歷史典故,希望繼承迎難而上的膽識豪情,“釣魚城”代表的是對抗外敵時的堅持頑強,是致敬不屈的先賢。通過三個典故,意在國産基礎軟體面臨強大挑戰的情況下實現全自研的技術和系統,在數據庫領域重鑄華夏輝煌,為數據管理世界性難題提供中國答案,憑藉數據分析領域領先的技術實力改變世界大數據的發展格局。
500人團隊,研發人員近八成
基礎研究既是一次科學家滿懷好奇心的探索之旅,也是一場“你有我無、我快你無”的激烈競爭。在這場全球參與的探索中,深算院的成績斐然。
引人注目的崖山數據庫系統,融入了原創的有界計算理論、近似計算理論、並行可擴展理論和跨模融合計算理論,實現國産高端數據庫“從0到1”的全自研突破,經權威機構檢測,內核代碼自主率100%,從核心理論到關鍵系統均為中國原創、性能指標國際領先,成為國內率先實現自主可控技術突破的數據庫系統之一。歐偉傑告訴記者,崖山數據庫系統實現了從底層理論到系統工程的全鏈條基礎軟體研發,真正掌握核心技術。
加強基礎研究,歸根到底要靠高水準人才。作為一個有産品能力的基礎研究機構,深算院利用多重渠道開展全球引才,在吸引人才時就注重吸收科學家和工程師。“最開始,崖山數據庫系統的團隊人員不到10人。隨著系統起步,我們不斷搭建團隊,通過社招找到一些志同道合且具有豐富經驗的業界專家,並通過校招吸納青年人才,邀請他們一起來做産品,更重要的是通過成型的培訓體系培養數據庫人才。利用我們的培訓體系對應屆生或沒有接觸過數據庫的人進行培訓,引導他們上崗後不斷學習,2至3年的時間,讓他們能夠承擔一些任務。我們希望深圳能培養和吸引更多有志從事基礎軟體的年輕人才,讓更多人了解到行業發展的前景和機遇。”歐偉傑説。
崖山數據庫團隊日常討論
目前,崖山數據庫系統已擁有300余人規模的老中青梯次結構的團隊,深算院已建立起500人規模團隊,其中研發人員佔比近八成,匯聚了一批優秀青年科學家和工程實力媲美矽谷的系統開發人才,包括英國皇家學會院士1人、中國科學院院士2人、深圳市傑出人才1人、海外高層次人才5人、長江學者1人。值得一提的是首席科學家樊文飛院士于2019年當選為中國科學院外籍院士,2023年當選英國皇家工程院院士,他也是英國皇家學會電腦領域的華裔科學家。
五年來,深算院在SIGMOD、VLDB、ICDE、TODS等國際期刊/會議發表/錄用論文100余篇(含CCF A類超90篇),申請專利/PCT共141項,理論研究成果産出比肩全球任何一支大數據學術團隊。
“數字孿生城市平臺”讓城市管理更精細化、智慧化
帶著刻板印象,記者還是忍不住問:為何研究院會選址在商圈的一隅?歐偉傑笑著説,大眾一般認為做研究的人喜歡“閉關修煉”,但其實深算院不僅要做研究,還要做産品。龍華科技創新中心位於配套設施完善的商圈內,這給予了深算院工作人員極大便利。例如,深圳北站的地理和交通優勢,為深算院提供了便捷的區域連接和人員流動條件。同時,深圳北站龍華科創佈局已經形成了強大的企業聚集效應,這有助於深算院在技術研發、項目合作以及人才培養等方面與周邊企業形成良性互動,推動科技創新成果的快速轉化。
一項重大原始創新背後離不開“板凳坐得十年冷”的堅持,而其背後穩定的支援機制和投入,正是“冷板凳”加溫的熱源。深圳市政府通過專項資金扶持,為深算院的科研項目提供了必要的資金保障,確保了研發工作的順利進行。龍華區政府則提供場地等資源支援,有效解決了深算院在硬體設施方面的後顧之憂。
“在團隊拓展初期,我們去學校校招,有的同學反饋沒有食堂,龍華區政府了解到這一資訊後,迅速在樓裏建立了一個共用食堂,非常及時地解決了員工餐食的現實問題。”
隨著區域數字化發展的基礎越來越紮實,計算能力越來越突出,龍華區立足數字經濟、數字城區、數字治理“三位一體”數字龍華建設實際,2023年11月,推出了全國首創“全域全信創”數字孿生城市平臺。該平臺基於鯤鵬處理器、銀河麒麟作業系統等國産軟硬體環境,採用全自研國産數據庫崖山數據庫提供事務一致性、複雜查詢以及空間數據支援等能力,對接國産數字孿生引擎(SS Engine),為政務、住建、教育、應急指揮等關鍵領域提供了強大的數字化、智慧化支撐,推動城市治理向智慧化、精細化、高效化等方面全面發展,助力打造決策更科學、管理更精細的先鋒城市。
歐偉傑進一步解釋:“將建築、道路、植被、水域、地下管廊等城市資訊進行數字化以後,我們就得到了一個數字孿生城市,也就是一個與真實世界一模一樣的數字虛擬城市,我們可以在這個虛擬城市中進行模擬、預判,以數字賦能助推城市精細化、智慧化管理。”他舉例説:“近期深圳降雨較多,且偶爾出現暫態降雨較大的極端情況,那麼我們可以在出現類似降雨情況後,在數字孿生城市平臺利用採集的數據和地理空間資訊,從而迅速判斷出哪個路口或涵洞可能出現積水,快速協調相應的政府部門前往現場進行處置,還可以通過導航提醒居民群眾經過那段路的時候,可能會出現積水。如果是傳統的方式,那麼就需要人工對每一個路段進行排查。”
龍華區服務人口已接近300萬,人口密度達到2.19萬人/平方公里,遠高於深圳全市8791人/平方公里的平均水準;龍華區數字孿生平臺的總數據量高達3.6+億條,還需支援1000併發訪問以及二三維數據的管理和融合查詢,這無疑對國産時空數據庫統一管理的能力提出了極高的要求。崖山數據庫團隊憑藉關鍵技術的突破與轉化,在解決數字孿生背景下如何在數據庫中實現高效查詢與分析計算的問題方面,取得了階段性的突破,為支撐龍華區數字孿生平臺提供強大底層數據管理能力。龍華區數字孿生平臺整合了全區的三維空間模型,匯集並融合了多源異構的城市運作全要素數據,為區內社會治理動態監測、預警、評估提供便捷高效、動態實時、精準可靠的資訊服務。
城市數據的使用是一項創新性工作,在按下“快進鍵”的同時,也要係好“安全帶”。面向智慧城市數字孿生,崖山數據庫提供安全強大的空間數據、半結構化數據管理和計算能力。當前國際形勢複雜多變,自主智慧財産權的核心技術可以避免對外部技術的依賴,完全把握技術方向,真正做到把資訊安全的“房子建在自家地基上”。
數字化轉型,更廣闊的應用場景
崖山數據庫始終致力於解決關鍵技術“卡脖子”難題,助力政府、國企央企的數字化轉型,在各行各業的應用遍地開花。
據介紹,目前,崖山數據庫系統已相容適配國內主流軟硬體生態環境,在金融、政企、能源、交通、大型央國企集團、線上零售等領域進行了深度的應用和推廣。以能源領域為例,深圳燃氣集團的客戶資訊管理系統原先採用某國外主流數據庫系統,面臨著數據量大、擴展困難,運維低效等問題,後選用崖山數據庫系統實現無縫遷移,性能和成本方面均取得了明顯收益。
值得一提的是,深算院與深智城、長亮科技、迪思傑DSG等應用廠商聯合,基於崖山數據庫系統打造智慧城市、金融核心、空間數據管理以及數據交互等行業數據管理解決方案,為重點行業不同核心場景提供數字化轉型保障。
數字經濟事關國家發展大局。在推動經濟高品質發展、建設現代化産業體系的實踐中,深圳市具有強大産業優勢,擁有眾多國際性數字經濟知名企業、一流的第三方專業服務機構,在大數據産業發展上擁有強大的産業優勢。大數據作為現代産業發展的關鍵要素,其在深圳這樣的先鋒高科技城市中的作用尤為顯著。
要激活大數據新質生産力,歐偉傑表示,首先需要解決數據孤島和碎片化問題。當前,各業務系統間的數據共用存在障礙,導致數據資源不能有效整合和利用,市民在辦理業務時,常常出現“由於單位之間的數據不互通,業務無法辦理”的情況。針對這個問題,崖山自主研發攻克異構數據有界加速技術,可以通過崖山數據庫直接訪問原有的大數據生態系統,並基於有界計算實現查詢加速,通過“融通、整合、協同、再造”打造“整體政府”,將“資訊孤島”聯結為“數據”,使數據共用更通暢、協同更高效。
數據品質問題也制約大數據潛能釋放。歐偉傑進一步介紹:“大數據作為新的生産要素,被稱為數字時代的‘石油’。當前數據有兩個方面的問題:一是品質比較差,因為大模型的訓練除了需要大量的算力以外,還需要品質相對較高的語料,而現在普遍是由人工打標簽、標注的方式來提升它的品質,成本高昂,效率低下,且數據品質參差不齊。在深算院,我們的採石磯系統就嘗試通過結合人工智慧和一些邏輯的方式,自動對語料打標簽,在降低成本的同時,還能提高標注的準確性和一致性,從而提升數據的整體品質。這就好比數據是‘原油’,系統對其‘提煉’,形成標號的‘汽油’,才能滿足特定需求。”
基礎研究與系統研發並駕齊驅
數據多樣性導致的融合計算挑戰也不容忽視。深算院在跨模態融合計算方面進行了深入研究,旨在解決不同類型數據的整合和分析問題。通過跨模融合計算,可以實現面向多模數據的統一融合查詢能力,以及實現更深層次的數據挖掘和知識發現,充分激活多源異構數據價值。
深算院正在朝著建設世界一流的計算科學基礎研究機構的目標,在以新模式和新速度高速穩健發展。與此同時,深算院也大力推動基礎軟體産業生態繁榮發展,助力科技強國和數字中國建設。2023年11月,崖山數據庫系統正式推出被稱為數據領域技術“制高點”的共用集群技術,在高可用性、高擴展性、高性能等方面取得了突破,為國産數據庫在金融、運營商等國計民生領域的應用奠定了基礎。
歐偉傑表示,未來,深算院將繼續堅持基礎研究與系統研發並駕齊驅的創新模式,踐行“四個面向”戰略方向,集聚力量進行原創性引領性科技攻關,致力於打造自主可控的國産基礎軟體産品,以“AI+”賦能培育新質生産力,以科技創新為驅動,積極與大數據産業鏈上下游公司開展深度合作,共同推動原創基礎研究成果的産業化落地,全力服務深圳市“基礎研究+技術攻關+成果産業化+科技金融”全過程創新生態鏈,助力數字中國建設戰略的實現,努力為國家高水準科技自立自強貢獻力量。
(推廣)
來源:東方網 | 撰稿:李毅 | 責編:谷晟 審核:張淵
新聞投稿:184042016@qq.com 新聞熱線:135 8189 2583