破除“存儲墻”,存內計算來助力
發佈時間:2022-08-24 10:46:29 | 來源:中國電子報 | 作者: | 責任編輯:林木近日,存算一體(存內計算)晶片設計公司蘋芯科技宣佈于數月前完成千萬級美元A輪融資。中國工程院院士鄔賀銓在2022中國算力大會上表示,對自動駕駛等場景産生的熱數據(實時性數據),存算分離會使數據在存儲和計算之間來回輸入,此時存內計算更適合熱數據的處理。
在馮·諾依曼架構中,計算和存儲功能分別由中央處理器和記憶體完成。而處理器在跟隨摩爾定律逐年提升性能的過程中,將對製程工藝不敏感的記憶體甩在了後面,兩者的性能差距形成了“存儲墻”。相比之下,存算一體能夠避免數據來回搬運所造成的功耗損失和時間延遲。在AI技術不斷釋放數據洪流和算力場景需求的大趨勢下,存算一體晶片越來越受到産業界和資本市場的關注。
繞過“存儲墻”是AI時代剛需
早在1969年,斯坦福研究所的William Kautz就提出了存算一體的概念。Kautz提出在晶片的存儲單元中加入邏輯電路,並將多個單元連接起來組成陣列,這樣能夠打造更加靈活、速度更快、耗能更低的數字電路,以更好地適應當時大型積體電路的需求。然而,早期的存算一體研究並沒有取得明顯的突破,以馮·諾依曼架構為藍本、按照摩爾定律的步伐提升晶片性能,逐漸成為産業界的共識。
但近幾年來,存算一體又回到了業界的視野,並被視為重要的技術方向。
知存科技創始人兼CEO王紹迪向《中國電子報》指出,過去幾十年是摩爾定律快速發展的時期,加上開發新的架構需要高昂的投入,因此在摩爾定律還能往下走的時候,産業界對存算一體這類架構創新的需求還不高。但近十年以來,算力需求的增長使存儲墻的問題越來越凸顯。
“到2010年以後進入後摩爾時代,行業內日益增長的算力需求和幾乎走到極限的摩爾定律之間越來越突出的矛盾已經成為人工智慧發展的巨大瓶頸。因此,能解決存儲墻問題的存算一體技術受到了越來越多的關注,近幾年在産業界得到了非常快速的發展。”王紹迪説。
尤其在2016年,人工智慧Alpha Go在圍棋對弈中戰勝世界冠軍李世石之後,以深度學習為代表的統計學習理論與方法促動了整個人工智慧行業的發展。OpenAI的分析顯示,自2012年以來,人工智慧訓練任務中使用的算力每3.5個月翻一倍。計算需求的突飛猛進,對算力晶片的效能提出了更高的要求和新的挑戰。
九天睿芯董事長兼CEO劉洪傑向《中國電子報》表示,在馮·諾依曼架構中,處理器從處理單元外的記憶體提取數據,搬運時間往往是運算時間的成百上千倍。
“深度學習加速的最大挑戰就是數據在計算單元和存儲單元之間頻繁的移動,市場急需可實現超高能效並且可以快速迭代的智慧計算晶片來滿足日新月異的市場變化。我們推出的新型類腦計算的存內計算體系架構就是面向AI發展的算力瓶頸,核心技術是解決AI算力能效比偏低的核心剛性需求。算力堆疊帶來能耗問題,存算一體就是很好的解決方案。”劉洪傑説。
衍生出不同架構和技術路線
面向智慧化時代的算力需求和計算服務業態變革,讓英特爾、三星等IDM廠商和新銳的算力晶片廠商都在探索存算一體晶片,並衍生出不同的架構和技術路線。
劉洪傑表示,目前全球存算一體仍處於蓬勃發展階段,沒有一種技術架構佔據絕對主導地位。2017年,第一批存內計算公司興起,目前存內計算中有一些技術已經可以落地,需要産業界加大投入,研發品質過關的産品。
“存內計算本身也有一個類似摩爾定律的發展過程,包括代工廠針對存內計算專用工藝的提升。其次是先進的材料,目前能夠量産的存內計算記憶體中,Flash和SRAM新型記憶體更適合做存內計算,需要在新型記憶體件上進行更多研究。另外,存內計算從演算法到供應鏈生態上也需要産學研結合,相互融合促進發展。”劉洪傑説。
作為多年來DRAM市場份額的冠軍,三星于2021年推出了結合DRAM的高頻寬記憶體-存內處理方案 (HBM-PIM),將AI計算能力引入記憶體。通過將經過DRAM優化的AI引擎置於每個存儲子單元內,將處理能力直接引入到數據的存儲位置,從而實現並行處理,並盡可能減少數據移動。相較三星此前的高頻寬記憶體方案,新架構能夠提供超過兩倍的系統性能,並降低70%以上的能耗。
英特爾的神經擬態計算晶片Loihi也採用了存算一體的架構,使之更加容易擴展。Loihi晶片的裸片包含128個小核,每個核裏面模擬1024個神經元的計算結構,每個神經元又有1000個突觸連接,這意味著768個晶片連接起來可以構建接近1億神經元的系統。
國內聚焦存算一體晶片的企業則大多采用SRAM(靜態隨機存取記憶體)和Flash路線。
九天睿芯基於“模擬特徵提取+模數混合電荷域SRAM”架構實現存內計算,第一顆感存算一體晶片ADA100于2021年回片。後摩智慧第一代晶片基於SRAM、第二代晶片基於PRAM。蘋芯科技的兩款産品也基於28nm SRAM。
知存科技主要採用嵌入式Flash工藝,于2020年發佈第一代存算一體晶片産品WTM1001,2022年實現存算一體SoC晶片WTM2101量産並落地應用。
“近年來,隨著新興非易失記憶體的發展,國內開始出現做存算一體大算力的公司,同時不斷有新玩家涌入。但距離大規模應用,還有約10年的時間,從工藝、材料、演算法、工具鏈到生態,都需要産業界和學術界的不斷投入與共同推進。”王紹迪説。
存算一體晶片尚未規模化量産
雖然存算一體晶片的技術前景和應用場景逐漸明晰,但現階段存算一體晶片還沒有實現規模化的量産和部署,産品性能和産業生態有待進一步提升和完善。
在性能方面,存算一體晶片還有較大的提升空間。劉洪傑表示,存算一體晶片還需要從三個方向提升性能。一是工藝迭代。隨著自動駕駛等應用場景算力需求的提高,後摩爾時代存算一體晶片需要緊跟工藝迭代的紅利,進一步提高能效比、面效比。二是提升精度,更多諸如飛行器航姿估計等對運算精度有較高要求的應用對存算一體架構的精度提出了一定的挑戰。三是演算法適配,在更廣闊的消費領域,AI應用呈現碎片化的趨勢,帶來了演算法模型的多樣化,為適應應用落地需求,存算一體仍需進一步擴充計算架構的適配能力。
以九天睿芯為例,接下來將從工藝、架構等維度繼續深化模數混合存算一體晶片的開發部署。據悉,九天睿芯規劃了從55nm到6nm的産品路線,55nm産品主要面向TinyML(採用資源受限低功耗微控制器實施機器學習)等低功耗喚醒場景,22nm産品面向AR/VR SLAM(即時定位與地圖創建)協處理、移動機器人、ADAS等場景,6nm主打面向聯邦學習(帶有安全加密技術的機器學習框架)、元宇宙、空間AI等應用。
此外,存算一體晶片需要強化上下游協同以加速産業化進程。王紹迪指出,存算一體晶片要實現大規模的量産、應用,涉及上下游産業鏈的共同配合。包括行業標準化,以更好地實現産品落地;生態的建立,以拓展更多的應用場景。
據王紹迪介紹,下一步知存科技會從産品和生態層面進行升級,在初步構建存算一體開發小生態的基礎上,隨著晶片算力、計算容量、計算速度的不斷增加,打造更豐富更便捷的開發工具鏈,穩定架構、打磨標準化産品、拓寬應用場景,逐漸從端側發展到邊緣測或雲端。