全文共6082字,預(yù)計閱讀時間15分鐘
作者 | 程韞韻(Emily)
編輯 | 譚舒雯(Poppy)
注:文中圖片均來源于網(wǎng)絡(luò)
前言
在人工智能高速發(fā)展的熱潮下,龐大的數(shù)據(jù)量和復(fù)雜的算法模型對算力及芯片提出了新的需求。類腦芯片成為近年來學(xué)術(shù)界和產(chǎn)業(yè)界都越來越關(guān)注的重點方向,甚至在Gartner的芯片產(chǎn)業(yè)預(yù)測圖中將類腦芯片判斷為第三代人工智能芯片。上海新氦類腦智能科技有限公司(以下簡稱“新氦類腦智能”)就在此背景下誕生,類腦芯片及片上智能系統(tǒng)是新氦類腦智能的研發(fā)及商業(yè)轉(zhuǎn)化的重點方向。近年來新氦類腦智能看到許多類腦芯片領(lǐng)域的創(chuàng)新突破和科研熱潮,因此新氦類腦智能總結(jié)了類腦芯片領(lǐng)域的現(xiàn)狀、問題和趨勢,希望在充滿信心的同時保持客觀冷靜分析,給行業(yè)的發(fā)展帶來一些啟發(fā)和推動作用。
近內(nèi)存運算與存內(nèi)運算
存算一體這一概念由來已久,最初被用在計算機系統(tǒng)結(jié)構(gòu)領(lǐng)域,例如以相聯(lián)存儲器為核心的相聯(lián)處理機(Associate Processor)。相連存儲器帶有信息處理功能,相聯(lián)處理機要求存儲單元能處理信息,一條指令可對多個數(shù)據(jù)同時執(zhí)行邏輯運算。后來,存算一體這一概念逐漸被類腦計算領(lǐng)域采用,時識科技(SynSense)研發(fā)的類腦計算芯片就具備這一特征。隨著神經(jīng)科學(xué)的發(fā)展和超大規(guī)模集成電路的興起,類腦計算芯片更加廣泛地模仿以脈沖編碼和存算一體為代表的交感神經(jīng)元-突觸結(jié)構(gòu)和大腦的工作機制。一些模擬非易失性存儲系統(tǒng)也被用來驗證脈沖神經(jīng)網(wǎng)絡(luò)算法和非監(jiān)督式學(xué)習(xí),從而體現(xiàn)了存算一體芯片的潛力。
數(shù)據(jù)的爆炸性增長為新發(fā)現(xiàn)創(chuàng)造了機會,但也對計算力提出了史無前例的要求,例如從通用聯(lián)網(wǎng)設(shè)備到倉儲規(guī)模計算機日益增長的數(shù)據(jù)量、速度、多樣性和準(zhǔn)確性。通過工藝等比例縮小來擴展計算機處理能力的方法優(yōu)勢逐漸減小,而傳統(tǒng)計算系統(tǒng)的限制,即“內(nèi)存墻”“能耗墻”,在大數(shù)據(jù)快速增長的趨勢下,使得對新范式的需求越發(fā)迫切。因此,Process in Memory(PIM)這個十多年前提出的概念重新在產(chǎn)業(yè)界和科研界獲得廣泛關(guān)注。PIM是指將計算單元如CPU和GPU放在離存儲足夠近的地方,從而降低數(shù)據(jù)傳輸?shù)臅r延和成本。減少數(shù)據(jù)處理和數(shù)據(jù)存儲間的距離可以更快地運行工作負載并得到結(jié)果。內(nèi)存方面新的設(shè)計,如高帶寬內(nèi)存(HBM, High-bandwidth Memory)和混合內(nèi)存立方體(HMC, Hybrid Memory Cube),以及處理單元陣列的廣泛應(yīng)用,如CPU和GPU,還包括FPGA和定制化的ASIC,都在PIM技術(shù)的發(fā)展和應(yīng)用過程中起到了解決實用性和成本問題的作用。根據(jù)內(nèi)存與邏輯元件的相對位置關(guān)系,現(xiàn)有的PIM可大致分為近內(nèi)存運算(Near-Memory Computing)和存內(nèi)運算(In-Memory Computing)。近內(nèi)存運算的基本思想是將數(shù)據(jù)靠近計算單元,實現(xiàn)邏輯芯片內(nèi)的存儲計算;而存內(nèi)運算是將處理任務(wù)帶至存儲內(nèi),在存儲單元里做計算。這兩種技術(shù)旨在加速系統(tǒng)的數(shù)據(jù)處理功能,或者搭建如神經(jīng)網(wǎng)絡(luò)等新的架構(gòu)。[1]
近內(nèi)存運算(Near Memory Computing)

圖5 內(nèi)存/存儲層次結(jié)構(gòu)
傳統(tǒng)的存儲層級如圖5所示。其中,SRAM被整合到可以快速接入常用程序的高速緩存處理器中。DRAM用作主存儲器單元,分離地存放在雙列直插存儲模塊(Dual in-Line Memory Module, DIMM)中。磁盤驅(qū)動器和與非門固態(tài)存儲驅(qū)動器(NAND-based SSDs)被用作存儲器件。
相較于計算性能的發(fā)展,數(shù)據(jù)量增長得更快。在反復(fù)將數(shù)據(jù)在SSDs和CPUs之間傳輸?shù)倪^程中,能耗和系統(tǒng)都面臨挑戰(zhàn)。解決方法之一是將處理器、內(nèi)存和其他器件整合到傳統(tǒng)的馮諾依曼結(jié)構(gòu)中,按比例縮小這些組件,提升其性能,但會導(dǎo)致成本的增加和方程式的復(fù)雜化。另一種方法是將邏輯單元盡量靠近存儲單元,從而實現(xiàn)芯片內(nèi)的存儲計算的近內(nèi)存架構(gòu)。
在內(nèi)存附近處理任務(wù)的想法可以追溯到十九世紀(jì)六十年代,而近內(nèi)存運算系統(tǒng)最早出現(xiàn)于十九世紀(jì)九十年代早期,如Vector IRAM (VIRAM)[2]。研究者設(shè)計了一種帶有片上嵌入式DRAM(eDRAM)的向量處理器來開發(fā)多媒體應(yīng)用數(shù)據(jù)的并行化處理。盡管研究頗有成效,但這些NMC系統(tǒng)并未滲透到市場。主要原因之一是當(dāng)時的技術(shù)限制,存儲器制造工藝和邏輯制造工藝不同,而且兩者不兼容,能夠與向量處理器整合的片上存儲數(shù)量有限。
NMC的相關(guān)研究在大約二十年后重新獲得廣泛關(guān)注,主要原因有三個。首先,2.5D和3D堆疊技術(shù)的進步使邏輯和內(nèi)存能夠堆疊合并到一個封裝里。先進的內(nèi)存模組有美光科技的混合存儲立方體(Hybrid Memory Cube,HMC)[3]、高帶寬內(nèi)存(High Bandwidth Memory,HBM)[4]和帶寬引擎(Bandwidth Engine 2,BE2)[5]。如圖6所示,美光科技的HMC通過硅通孔技術(shù)(through Silicon via,TSV)將數(shù)層DRAM放置在一層邏輯組件上。不僅提供了優(yōu)于傳統(tǒng)DDR DRAM的隨機存取性能,還支持近內(nèi)存操作,如讀取修正寫入和鎖定。原因之二是,將計算移動到靠近數(shù)據(jù)存放處能夠規(guī)避數(shù)據(jù)傳輸帶來的性能和能耗限制。最后,現(xiàn)代數(shù)據(jù)密集型應(yīng)用的蓬勃發(fā)展,如材料學(xué)、天文學(xué)、醫(yī)療健康等,亟需新的架構(gòu)出現(xiàn)。[6]

圖6 美光科技的混合存儲立方體
存內(nèi)運算(In Memory Computing)
得益于硅技術(shù)的發(fā)展,CMOS邏輯芯片可以用簡單的二元信號完成復(fù)雜數(shù)據(jù)的處理,高集成度和小尺寸的優(yōu)勢讓數(shù)字邏輯芯片占領(lǐng)了大量市場份額。然而,隨著以RRAM和PCM為代表的新設(shè)備技術(shù)的成熟,被忽視已久的模擬神經(jīng)計算在大規(guī)模應(yīng)用中逐漸有了用武之地。雖然模擬電路連續(xù)信號處理的抗干擾性和計算精度不如數(shù)字運算,但基于存儲的模擬運算在神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)中可以實現(xiàn)更高的效率。
通過疊加歐姆定律乘法和基爾霍夫電流定律加法,作為神經(jīng)網(wǎng)絡(luò)計算基礎(chǔ)的矩陣向量乘法(MVM)可以被映射到交叉陣列上,從而實現(xiàn)存內(nèi)模擬運算。與MAC(Multiplicative Accumulation)不同,交叉陣列MVM可以在一個步驟內(nèi)運行乘法和加法,與傳統(tǒng)馮諾依曼結(jié)構(gòu)相比節(jié)省了大量時間和能耗。憶阻器交叉陣列中存內(nèi)運算的出現(xiàn)讓模擬運算可以用于神經(jīng)網(wǎng)絡(luò),并讓類腦計算有了進一步發(fā)展。與傳統(tǒng)高能耗的CMOS電路相比,電阻轉(zhuǎn)換設(shè)備如同可以同時存儲權(quán)重和傳遞信號的電子突觸,更便于運行超低功耗的模擬存內(nèi)運算。這種兩端電阻設(shè)備可以同時實現(xiàn)數(shù)據(jù)存儲和數(shù)據(jù)處理,提供對大多數(shù)AI應(yīng)用至關(guān)重要的高數(shù)據(jù)吞吐量。目前,出于商業(yè)化的考量,電阻轉(zhuǎn)換設(shè)備仍結(jié)合了傳統(tǒng)硅計算組件。由于較低的熱負載,電阻轉(zhuǎn)換設(shè)備可以與CMOS基底兼容。芯片可以靈活地組成多種陣列,從而自動映射不同的神經(jīng)網(wǎng)絡(luò)算法來完成特定的計算任務(wù)。
脈沖神經(jīng)網(wǎng)絡(luò)(SNN)可以嚴(yán)格地模擬大腦信息處理機制,CMOS電路已被用于Intel Loihi、IBM TrueNorth等具有代表性的SNN芯片,但CMOS設(shè)備無法實現(xiàn)存儲與計算的融合,從而會導(dǎo)致資源浪費。因此,找到具備模擬突觸功能的人工突觸設(shè)備尤為重要。首先,簡單的兩端憶阻器可以在面積、復(fù)雜度和能耗顯著降低的情況下實現(xiàn)相似功能;FeFET中,鐵電層的晶格極化能夠模擬SNN的學(xué)習(xí)規(guī)則,例如STDP;還有一些創(chuàng)新低維材料也可用于SNN突觸設(shè)備,例如用于具備STDP規(guī)則的非監(jiān)督式學(xué)習(xí)的碳納米管突觸[7]?;诜聪騻鞑サ人惴?,DNN可以通過新型存儲技術(shù)部署在硬件設(shè)備中,而大多數(shù)專注于SNN設(shè)備拓展的研究還處于模擬階段。然而,已有實驗證明盡管類腦計算在技術(shù)成熟度上還處于早期階段,未得到大規(guī)模應(yīng)用,但它代表著AI芯片和存算一體的長期發(fā)展方向。
過去十年,新興的非易失性存儲(Nonvolatile Memory,NVM)技術(shù)取得了長足進展,例如轉(zhuǎn)移隨機存取存儲器(Spin Torque Transfer RAM,STT RAM)[8]、相變存儲器(Phase Change Memory,PCM)[9]和阻變隨機存取存儲器(Resistive RAM,RRAM)[10]。目前,主要廠商都具備了在關(guān)鍵技術(shù)節(jié)點上生產(chǎn)Gb量級設(shè)備的能力,包括美光45nm的1Gb PCM[11]、三星20nm的8Gb PCM[12]、東芝和閃迪聯(lián)合研發(fā)的24nm 32Gb RRAM[13]、美光和索尼聯(lián)合研發(fā)的27nm 16Gb導(dǎo)電橋式隨機存取存儲器(Conductive Bridge RAM,CBRAM)和由美光和英特爾聯(lián)合研發(fā)的128Gb 3D XPoint技術(shù)[14]。
雖然取得了一定程度上的商業(yè)成功,但直接將這些技術(shù)直嵌入現(xiàn)有的電腦系統(tǒng)中效果不明顯。從技術(shù)上看,這些技術(shù)的本質(zhì)與主存儲器或永久存儲器不匹配,如單位成本、時延、能耗、耐久性和留存性。從經(jīng)濟角度看,盡管現(xiàn)有的存儲器制造商獲得了更多的投資用于新技術(shù)的研發(fā)生產(chǎn),但很難說服終端用戶在能夠使用DRAM或閃存的情況下轉(zhuǎn)向新產(chǎn)品,除非新產(chǎn)品能帶來極大的好處。基于這種情況,一個可行的方法是開發(fā)非傳統(tǒng)的模型架構(gòu)。
目前學(xué)界對合并式邏輯存儲器件的興趣日益增強,旨在研發(fā)計算功能與存儲器一體的計算架構(gòu)。將數(shù)據(jù)從分離的存儲單元傳輸?shù)接嬎銌卧獜臅r延和能耗上看非常昂貴。例如,機器學(xué)習(xí)中的單整數(shù)乘積累加(Multiply-Accumulate,MAC)操作僅需要約3.2pJ的能量,而如果權(quán)重值儲存在片外的動態(tài)隨機存取存儲器(Dynamic Random Access Memory,DRAM)上,僅得到濾值就會耗費約640pJ能量,而且存儲的能量要求比計算更高。這個問題在機器學(xué)習(xí)算法的訓(xùn)練階段更為顯著,因為有數(shù)以億計的權(quán)重值需要學(xué)習(xí)并定期更新。為解決這個問題,Haensch提出電阻處理器(Resistive Processing Unit,RPU)的概念,模擬權(quán)重值被存放在交叉點設(shè)備中來最小化訓(xùn)練過程中的數(shù)據(jù)傳輸,合適的RPU能夠以超過四倍的速度加速訓(xùn)練過程。[15]
機器學(xué)習(xí)中將權(quán)重數(shù)據(jù)與邏輯單元存放在一起還能夠提升物聯(lián)網(wǎng)邊緣設(shè)備中復(fù)雜推斷算法的性能。許多邊緣系統(tǒng)中,出于隱私安全和時延的考量,推斷過程需要在邊緣端執(zhí)行,并且嚴(yán)格的區(qū)域和能耗限制阻礙了有過多參數(shù)的機器學(xué)習(xí)模型的部署。
因此,新的研究項目或以系統(tǒng)為導(dǎo)向,或嘗試?yán)贸玫膩嗛撝禂[幅外,與新興設(shè)備有關(guān)的特性。一些設(shè)備顯示出適用于新興計算架構(gòu)的特性,例如邏輯設(shè)備的非易失性、可重構(gòu)性和高計算密度。合并式邏輯與存儲組件是一種從架構(gòu)層面開發(fā)設(shè)備特性的方法,并且能夠滿足應(yīng)用層面的需要。
盡管存內(nèi)運算還沒有一個普遍認可的準(zhǔn)確定義,但已經(jīng)廣泛應(yīng)用到不同領(lǐng)域。例如,數(shù)據(jù)庫中存內(nèi)運算用于開發(fā)超高速緩存,芯片制造商正研發(fā)能夠在神經(jīng)網(wǎng)絡(luò)存儲內(nèi)處理任務(wù)的芯片,其他應(yīng)用還包括神經(jīng)形態(tài)計算。存內(nèi)運算架構(gòu)大致可分為四類,首先是利用交叉結(jié)構(gòu)的點積功能加速矩陣乘法。矩陣乘法是許多應(yīng)用的計算核心,如深度學(xué)習(xí)和優(yōu)化等,代表性成果是PRIME[16]、ISAAC[17]和憶阻玻爾茲曼機[18]。憶阻玻爾茲曼機是一類基于電阻隨機存取存儲器技術(shù),以內(nèi)存為中心,大規(guī)模平行的硬件加速器,用于大規(guī)模組合優(yōu)化和深度學(xué)習(xí)。通過利用RRAM的電氣性能實現(xiàn)內(nèi)存陣列內(nèi)就地、細粒度的平行計算,憶阻玻爾茲曼機能夠降低對內(nèi)存單元和計算單元間數(shù)據(jù)傳輸?shù)男枰?。兩類?jīng)典的優(yōu)化問題,圖劃分與布爾可滿足性,和深度信念網(wǎng)絡(luò)應(yīng)用可以映射在這類硬件上。相較于多核系統(tǒng),憶阻玻爾茲曼機能夠?qū)崿F(xiàn)57倍高的性能和二十五分之一的能耗,并且?guī)缀醪淮嬖趦?yōu)化問題答案質(zhì)量下降的問題。與基于PIM系統(tǒng)的電阻隨機存取存儲器相比,憶阻玻爾茲曼機分別有約七倍高的性能和五分之一的能耗[19]。其次是在神經(jīng)形態(tài)系統(tǒng)的突觸網(wǎng)絡(luò)中利用NVM陣列的模擬特性來模仿人腦模糊、容錯和隨機的計算過程,并伴隨著空間和能耗上的優(yōu)勢。第三種是相聯(lián)處理機(Associative Processor,AP),即非易失性內(nèi)容可尋址存儲器(Nonvolatile Content Addressable Memory,nv-CAM)或三態(tài)內(nèi)容可尋址存儲器(Ternary Content Addressable Memory, nv-TCAM),能夠支持相聯(lián)檢索并通過內(nèi)容而非地址定位數(shù)據(jù)記錄。代表性的研究成果包括基于RRAM的TCAM[20]、AC-DIMM[21],和基于RRAM的相聯(lián)處理機[22]。CAMs和TCAMs作為網(wǎng)絡(luò)路由器有明顯的優(yōu)勢,能夠支持新興的機器學(xué)習(xí)模型如多維計算(Hyperdimensional Computing, HDC)和用外部內(nèi)存增強的神經(jīng)網(wǎng)絡(luò)。在路由器內(nèi),CMAs/TCAMs元件被用來搜索媒體訪問控制(Media Access Control, MAC)的匹配。最后一類是可重構(gòu)架構(gòu)(Reconfigurable Architecture,RA),代表性研究有非易失性現(xiàn)場可編程門陣列(Nonvolatile Field Programmable Gate Array,nv-FPGA)[23],和結(jié)合了TCAM和FPGA二者優(yōu)點的可重構(gòu)存內(nèi)運算架構(gòu)[24]。FPGA是由通過可編程互聯(lián)連接的可配置邏輯塊矩陣構(gòu)成的半導(dǎo)體器件,在制造完成后能夠根據(jù)所需的應(yīng)用或功能要求進行重新編輯,支持對設(shè)備中大量電氣功能進行更改,這是FPGA區(qū)別于特定用途集成電路(ASIC)的關(guān)鍵。FPGA能以更低的價格實現(xiàn)邏輯密度增加和眾多其他特性,如嵌入式處理器、DSP模塊、時鐘技術(shù)和高速串行。AP和RA在存內(nèi)處理方面有巨大潛力,無需高成本。它們不像第一二類需要昂貴的混合信號電路(A/D,D/A),使用門檻也更低。盡管如此,這四種架構(gòu)都面臨著一個關(guān)于操作魯棒性的常見問題,即NVM技術(shù)有限的ON/OFF電阻比。這一問題能夠從材料工程、元件設(shè)計和編碼技術(shù)等方面得到一定程度的減輕。[25]
趨勢展望
PIM為克服數(shù)據(jù)密集型應(yīng)用帶來的挑戰(zhàn)提供了可行的辦法。與存內(nèi)運算相比,近內(nèi)存運算的使用門檻更低,因為無需改變原有的計算結(jié)構(gòu),而存內(nèi)運算將會最大程度上開發(fā)利用內(nèi)存帶寬來實現(xiàn)更多的平行計算。目前,PIM研究領(lǐng)域還存在一些開放性問題,關(guān)系到未來的研究方向。首先,哪一種新興內(nèi)存技術(shù)將會最大程度地支持近內(nèi)存運算架構(gòu)這一點還不清楚。例如,大量研究專注于三維堆疊DRAM和非易失性存儲如PCM、ReRAM和MRAM,這些新技術(shù)的未來依賴于耐久性、可靠性、成本和密度各個方面的提升。三維堆疊還需要獨特的能耗和熱量解決辦法,因為傳統(tǒng)的散熱器技術(shù)無法支撐更多的靠近內(nèi)存的計算。大多數(shù)架構(gòu)沒有考慮到三維堆疊內(nèi)存嚴(yán)格的能耗預(yù)算,這會限制架構(gòu)的實用性。DRAM和NVM有不同的存儲性質(zhì),混合設(shè)計能夠為現(xiàn)有的系統(tǒng)帶來變革。其中,整合了CPU、DRAM和基于閃存的NVM的三維異構(gòu)存儲結(jié)構(gòu)能夠滿足大數(shù)據(jù)應(yīng)用的存儲需求,如大容量、短時延和高帶寬。因此,異構(gòu)近內(nèi)存處理成為了具有高潛力的新研究領(lǐng)域。大多數(shù)架構(gòu)專注于計算層面,極少數(shù)具備一致性和虛擬內(nèi)存支持,而缺少一致性和虛擬內(nèi)存會增加編程的難度,阻礙這一范式的應(yīng)用。在應(yīng)用層面,出于能效的考慮,算法的代碼和數(shù)據(jù)需要位于同一個地方。例如,HMC算法需要避免數(shù)據(jù)在不同的內(nèi)存模組間過多的移動。當(dāng)室間數(shù)據(jù)傳輸不可避免時,應(yīng)采用輕量級的數(shù)據(jù)遷移機制。近內(nèi)存運算元件之間的互聯(lián)網(wǎng)絡(luò)需要更多地從定量的角度進行研究。近內(nèi)存元件與新興互聯(lián)標(biāo)準(zhǔn)的相互作用在提升運行在NMC服務(wù)器上的大數(shù)據(jù)的性能和能耗方面十分重要。存內(nèi)運算主要面臨高價、處理不同類型數(shù)據(jù)的能力和整合分離數(shù)據(jù)源的能力等問題,而未來存儲解決方案的主要特征有能量功耗、成本、上市時間、密度和性能等。NAND、3D NAND、PCRAM、STT-RAM和ReRAM可以作為DRAM的替代品,而使用DDP和TSV作為DRAM的替代方法存在價格上的爭議,TSV的預(yù)計成本比DDP還高22%[26]。非易失性內(nèi)存和能夠提供通用接口的混合存儲模型將會成為首選的存儲方法。
聲明:本文章發(fā)布目的在于傳遞更多信息,并不代表本公眾號贊同其觀點和對其真實性負責(zé)。如涉及作品內(nèi)容、版權(quán)和其它問題,請及時與我司聯(lián)系,我們將在第一時間處理!
/
程 韞 韻 Emily
/
新氦類腦智能戰(zhàn)略總監(jiān),復(fù)旦-麻省理工學(xué)院國際工商管理碩士,擁有多年跨區(qū)域、跨行業(yè)的企業(yè)戰(zhàn)略咨詢經(jīng)驗。在類腦智能、人工智能技術(shù)及應(yīng)用落地方向有深入的行業(yè)分析和市場洞察,為政府、企業(yè)提供數(shù)智化轉(zhuǎn)型咨詢服務(wù),為AI創(chuàng)業(yè)團隊提供商業(yè)落地建議。主導(dǎo)撰寫AI技術(shù)白皮書,類腦芯片白皮書。



滬公網(wǎng)安備 31011002003093號