全文共4990字,預(yù)計(jì)閱讀時(shí)間13分鐘
作者 | 程韞韻(Emily)
編輯 | 譚舒雯(Poppy)
注:文中圖片均來源于網(wǎng)絡(luò)
前言
在人工智能高速發(fā)展的熱潮下,龐大的數(shù)據(jù)量和復(fù)雜的算法模型對(duì)算力及芯片提出了新的需求。類腦芯片成為近年來學(xué)術(shù)界和產(chǎn)業(yè)界都越來越關(guān)注的重點(diǎn)方向,甚至在Gartner的芯片產(chǎn)業(yè)預(yù)測(cè)圖中將類腦芯片判斷為第三代人工智能芯片。上海新氦類腦智能科技有限公司(以下簡(jiǎn)稱“新氦類腦智能”)就在此背景下誕生,類腦芯片及片上智能系統(tǒng)是新氦類腦智能的研發(fā)及商業(yè)轉(zhuǎn)化的重點(diǎn)方向。近年來新氦類腦智能看到許多類腦芯片領(lǐng)域的創(chuàng)新突破和科研熱潮,因此新氦類腦智能總結(jié)了類腦芯片領(lǐng)域的現(xiàn)狀、問題和趨勢(shì),希望在充滿信心的同時(shí)保持客觀冷靜分析,給行業(yè)的發(fā)展帶來一些啟發(fā)和推動(dòng)作用。
數(shù)字運(yùn)算與模擬運(yùn)算
電子學(xué)史上第一批被發(fā)明出來并得到大規(guī)模生產(chǎn)的器件是模擬的,后來隨著微電子學(xué)的發(fā)展,數(shù)字技術(shù)的成本大大降低,加上計(jì)算機(jī)對(duì)于數(shù)字信號(hào)的要求,使得數(shù)字方法在人機(jī)交互等領(lǐng)域具有可行性和較高的性價(jià)比。但當(dāng)數(shù)字運(yùn)算芯片變得越來越小,發(fā)熱程度越來越嚴(yán)重時(shí),它卻限制了速度和性能的提升。此外,數(shù)字運(yùn)算離散逐步的方法不適合動(dòng)態(tài)或連續(xù)時(shí)間問題,例如等離子體建模和神經(jīng)網(wǎng)絡(luò)運(yùn)行,也不適用于其他需要對(duì)現(xiàn)實(shí)世界輸入做出實(shí)時(shí)反應(yīng)的系統(tǒng)。這種情況下模擬運(yùn)算將會(huì)是一個(gè)更好的替代品,它能夠直接在連續(xù)時(shí)間問題的核心解決常微分方程。深度學(xué)習(xí)訓(xùn)練階段的計(jì)算效率需要通過進(jìn)一步開發(fā)深度學(xué)習(xí)工作流程隨機(jī)和近似的特性來提升,這在數(shù)字運(yùn)算里意味著權(quán)衡計(jì)算效率與數(shù)值精確度,也為重新考慮模擬運(yùn)算在非易失內(nèi)存上執(zhí)行深度學(xué)習(xí)的矩陣操作帶來了可能。在數(shù)字電路中,晶體管有開和關(guān)兩種狀態(tài),用二進(jìn)制表達(dá)分別對(duì)應(yīng)1和0兩個(gè)邏輯電平。而在模擬電路中,晶體管會(huì)有無數(shù)種狀態(tài),理論上能表示連續(xù)變化的數(shù)值,涉及連續(xù)函數(shù)形式模擬信號(hào)的電路,模擬主要指電壓或電流對(duì)于真實(shí)信號(hào)成比例的再現(xiàn)。
數(shù)字運(yùn)算(Digital Computing)
數(shù)字運(yùn)算處理的是離散數(shù)據(jù)塊,雖然數(shù)字運(yùn)算設(shè)備能夠使用任何數(shù)字系統(tǒng)處理數(shù)據(jù),但目前應(yīng)用最廣泛的是由1和0構(gòu)成的二進(jìn)制數(shù)字系統(tǒng)。不同類型的信息,包括字符和十進(jìn)制數(shù),在被數(shù)字運(yùn)算設(shè)備處理前都會(huì)在二進(jìn)制數(shù)字系統(tǒng)內(nèi)進(jìn)行編碼。
世界上第一臺(tái)現(xiàn)代數(shù)字計(jì)算機(jī)是由英國數(shù)學(xué)家Charles Babbage設(shè)計(jì)的可編程計(jì)算器。這種計(jì)算器使用十進(jìn)制數(shù)字系統(tǒng),每個(gè)數(shù)字用齒輪齒表示。第一臺(tái)電子數(shù)字計(jì)算機(jī)同時(shí)使用二進(jìn)制和十進(jìn)制數(shù)字系統(tǒng)。由美國物理學(xué)家Vincent Atanasoff和他的研究生Clifford E. Berry在十九世紀(jì)三十年代后期搭建的計(jì)算機(jī)在數(shù)字電路中僅使用二進(jìn)制系統(tǒng),但只適用于有限的問題類型。由美國工程師J. Presper Eckert和John W. Mauchly設(shè)計(jì)的電子數(shù)字積分計(jì)算機(jī)(Electronic Numerical Integrator and Computer,ENIAC)被認(rèn)為是世界上第一臺(tái)通用電子數(shù)字計(jì)算機(jī)。而第一臺(tái)實(shí)際操作中可編程數(shù)字計(jì)算機(jī),電子儲(chǔ)存程序計(jì)算機(jī)(Electronic Delay Storage Automatic Calculator,EDSAC),由英國學(xué)者M(jìn)aurice V. Wilkes在1949年發(fā)明,采用二進(jìn)制編碼。自此,所有適用性數(shù)字運(yùn)算設(shè)備在機(jī)器水平均使用二進(jìn)制系統(tǒng),而在更高的抽象水平上使用八進(jìn)制或十六進(jìn)制系統(tǒng)。[1]
數(shù)字計(jì)算機(jī)速度上的優(yōu)勢(shì)讓使用者能夠接受其準(zhǔn)確度上的小缺陷。例如,如果用積分求解曲線下區(qū)域的面積,數(shù)字運(yùn)算的方法是“畫”出大量邊長(zhǎng)極短的長(zhǎng)方形進(jìn)行曲線擬合,這些長(zhǎng)方形面積的和就是積分運(yùn)算結(jié)果的近似值。機(jī)器速度越快,“畫”出的長(zhǎng)方形越多,計(jì)算結(jié)果就越精確。
當(dāng)處理器整合到單個(gè)芯片上時(shí),數(shù)據(jù)在組件間的傳輸速度因?yàn)榫嚯x的縮短而加快,數(shù)字運(yùn)算對(duì)速度的提升效果顯著。數(shù)字計(jì)算機(jī)由超過1000個(gè)并行處理器組成,這使它能夠完成一些人類無法完成的任務(wù)。首先,它能夠快速地完成計(jì)算;其次,相較于人類,它可以更好地控制其他數(shù)字或模擬運(yùn)算設(shè)備;最后,數(shù)字計(jì)算機(jī)的規(guī)模和速度能夠讓它模擬各種復(fù)雜場(chǎng)景,如機(jī)翼的風(fēng)場(chǎng)、熱核爆炸的第一微秒,或一個(gè)看似牢不可破的密碼。
數(shù)字設(shè)備與模擬設(shè)備的主要區(qū)別與準(zhǔn)確度和速度有關(guān)。因?yàn)閭鞲衅?、示波器或其他設(shè)備的數(shù)據(jù)無法直接在運(yùn)算中表示,所以編碼對(duì)于數(shù)字運(yùn)算系統(tǒng)至關(guān)重要。雖然信息是離散數(shù)值,但變化是連續(xù)的,所以傳輸?shù)綌?shù)字計(jì)算機(jī)的信息只是近似值。例如,在使用浮點(diǎn)運(yùn)算法處理數(shù)字設(shè)備中的多位數(shù)時(shí),將它們從完整結(jié)構(gòu)轉(zhuǎn)換為浮點(diǎn)數(shù)會(huì)降低其準(zhǔn)確度。當(dāng)浮點(diǎn)數(shù)參與計(jì)算,誤差會(huì)復(fù)合增長(zhǎng)。此外,數(shù)字設(shè)備處理的是編碼過的現(xiàn)實(shí)信息,由于轉(zhuǎn)換過程的存在和計(jì)算的非連續(xù)性,相較于模擬設(shè)備,數(shù)字設(shè)備的速度更慢。
模擬運(yùn)算(Analog Computing)
近幾年,模擬計(jì)算已被證明在模擬生物系統(tǒng)上比數(shù)字計(jì)算更高效。模擬運(yùn)算能夠在許多方面彌補(bǔ)數(shù)字運(yùn)算的不足,如生物、流體動(dòng)力學(xué)、天氣預(yù)測(cè)、量子化學(xué)、等離子物理等領(lǐng)域。與數(shù)字信號(hào)處理不同,由于模擬運(yùn)算使用電子、機(jī)械或液壓等物理現(xiàn)象連續(xù)變化的量來模擬所要解決的問題,模擬計(jì)算會(huì)受到模擬噪聲的限制,但不受量化噪聲的影響。傳統(tǒng)數(shù)字計(jì)算的限制在于每次數(shù)字電路的轉(zhuǎn)換都會(huì)消耗能量,單個(gè)芯片上數(shù)以億計(jì)的晶體管以千兆赫的速度轉(zhuǎn)換將會(huì)產(chǎn)生大量熱量。相比之下,模擬運(yùn)算適用于極低或極高頻率的場(chǎng)合,如果速度低至約10kHz至100kHz之間,數(shù)字運(yùn)算的性能遠(yuǎn)超過所需水平。而在數(shù)百M(fèi)Hz和數(shù)GHz的情況下,數(shù)字運(yùn)算需要昂貴且高能耗的高速A/D轉(zhuǎn)換器和高性能處理核。
以二元微分方程為例,模擬計(jì)算電路中流經(jīng)兩條線的電流由同一個(gè)方程式控制,電流值即原始方程式的解。這一過程涉及到模擬積分器、倍增器、扇出模塊和提供恒定電流的電源。在求解非線性微分方程時(shí),單芯片模擬計(jì)算機(jī)通過時(shí)間連續(xù)電路生成能夠建立任意函數(shù)的模塊。因此,通用模擬計(jì)算機(jī)能夠用包含多個(gè)數(shù)字控制下運(yùn)行的模擬電路的可編程芯片搭建,還可以將模擬計(jì)算機(jī)得到的結(jié)果輸入數(shù)字計(jì)算機(jī)中提升其精度。(圖1)[2]



圖1 模擬計(jì)算電路
反向傳播算法的核心包含三種不同的操作:矩陣乘法、權(quán)重修改和激活函數(shù)的應(yīng)用。矩陣乘法可以采用模擬運(yùn)算的方法,因?yàn)槎S矩陣可以映射到與抽象數(shù)學(xué)對(duì)象有相同行列數(shù)的物理陣列中(圖2)。在每行每列的交點(diǎn)處用電導(dǎo)G表示連接強(qiáng)度,如果施加電壓V到給定的行列,會(huì)產(chǎn)生電流j,公式如下


圖2 模擬存儲(chǔ)陣列



矩陣乘法中使用導(dǎo)電組件陣列的做法并不新穎,而是在許多年前就已被提出。隨著深度學(xué)習(xí)的興起,這種方法因?yàn)榭梢约铀龠\(yùn)算而得到關(guān)注(表1)[3]。因?yàn)闄?quán)重?cái)?shù)據(jù)儲(chǔ)存在物理陣列中,所以所有操作都需要就近進(jìn)行,不能在存儲(chǔ)中反復(fù)移出移入。因此,內(nèi)存要能夠存儲(chǔ)和保持權(quán)重,有非破壞性的讀取機(jī)制,還能夠在一次操作中讀取和寫入整個(gè)存儲(chǔ)陣列。盡管前兩個(gè)要求傳統(tǒng)存儲(chǔ)操作能夠滿足,但第三個(gè)要求與隨機(jī)順序存取截然相反,或至少會(huì)限制可存取地址空間。因此,可以使用傳統(tǒng)的存儲(chǔ)元件,但必須創(chuàng)造不同于傳統(tǒng)存儲(chǔ)架構(gòu)的新陣列架構(gòu)。 [5]
表1 重要計(jì)算模型的時(shí)空分類


應(yīng)用案例與趨勢(shì)展望
表2 主要Analog/Digital項(xiàng)目的特性比較

關(guān)于模擬運(yùn)算和數(shù)字運(yùn)算的實(shí)際應(yīng)用,國內(nèi)外已有多個(gè)相關(guān)研究項(xiàng)目和芯片產(chǎn)出結(jié)果(表2)。SpiNNaker芯片中,CPU與本地存儲(chǔ)器在單個(gè)芯片上緊密相連,它擁有幾種芯片中最高的可重構(gòu)性。然而它的能耗和速率不如其他芯片,尤其是當(dāng)模擬復(fù)雜的神經(jīng)元和突觸模型時(shí)。除SpiNNaker以外,大多數(shù)芯片是基于數(shù)字電路或AMS電路(Analog and Mixed Signal,模擬混合信號(hào)電路)的硬件實(shí)現(xiàn),而SpiNNaker是在多核ARM處理器上運(yùn)行。AMS電路實(shí)現(xiàn)的優(yōu)勢(shì)是模擬電路的物理特性,能夠直接模擬連續(xù)神經(jīng)動(dòng)力學(xué),擁有比數(shù)字實(shí)現(xiàn)更強(qiáng)的計(jì)算能力和功率效率,亞閾值的AMS電路還能夠?qū)崿F(xiàn)超低能耗。BrainScaleS芯片由幾個(gè)晶圓相連而成,每個(gè)晶圓含有數(shù)個(gè)HiCANN神經(jīng)內(nèi)核,這一項(xiàng)目旨在模擬出有精確生物神經(jīng)行為和人腦規(guī)模的神經(jīng)網(wǎng)絡(luò)。海德堡大學(xué)研發(fā)的HiCANN芯片比實(shí)時(shí)快10000倍,晶片規(guī)模集成電路能夠?qū)崿F(xiàn)大規(guī)模并行處理。HiCANN芯片旨在為神經(jīng)系統(tǒng)科學(xué)家提供超級(jí)電腦來加速大規(guī)模SNN模擬,而非開發(fā)需要實(shí)時(shí)操作的低能耗智能嵌入系統(tǒng)。Neurogrid是一種為閾下模擬電路設(shè)計(jì)的SNN鑒別器,能夠?qū)崟r(shí)運(yùn)行并對(duì)生物機(jī)制進(jìn)行仿真。TrueNorth是應(yīng)用在數(shù)字電路上的神經(jīng)形態(tài)芯片,能夠?qū)Φ凸拇笠?guī)模網(wǎng)絡(luò)進(jìn)行評(píng)估,但TrueNorth系統(tǒng)不支持片上學(xué)習(xí)。SNN的參數(shù),如SNN的拓?fù)浣Y(jié)構(gòu)和神經(jīng)元間的連接強(qiáng)度,在配置后保持不變。在線下CPU/GPU平臺(tái)上訓(xùn)練后,將訓(xùn)練過的SNN參數(shù)配置到芯片上。沒有了片上訓(xùn)練,芯片設(shè)計(jì)將大大簡(jiǎn)化。然而,這樣的芯片無法實(shí)現(xiàn)自適應(yīng),任何SNN參數(shù)上的變化都需要重新配置和啟動(dòng)。這四種芯片被認(rèn)為是脈沖神經(jīng)形態(tài)處理器領(lǐng)域的重要進(jìn)步與前沿探索,多數(shù)以生物學(xué)模擬為目標(biāo),而TrueNorth旨在實(shí)現(xiàn)擁有強(qiáng)化操作符的低功耗機(jī)器學(xué)習(xí)。Loihi芯片是一種數(shù)字處理器,能夠靈活地對(duì)大規(guī)模SNN進(jìn)行評(píng)估。就功能而言,Loihi芯片處于生物模擬和SNN機(jī)器學(xué)習(xí)的前沿領(lǐng)域,它將片上學(xué)習(xí)與不同學(xué)習(xí)規(guī)則、復(fù)雜神經(jīng)元模型、信息編碼協(xié)議整合到一起,因此能夠?qū)崿F(xiàn)對(duì)不同算法的模擬。
國內(nèi)主要的SNN研究項(xiàng)目包括清華大學(xué)的天機(jī)芯片和浙江大學(xué)的達(dá)爾文芯片。第一代天機(jī)芯片在2015年完成,2017年進(jìn)化為第二代,速度更快,性能更高,功耗更低,比IBM TrueNorth功能更全、更靈活、擴(kuò)展性更好,密度大20%,速度快至少10倍,帶寬高至少100倍。最新一代天機(jī)芯片采用28nm工藝制造,核心面積僅3.8x3.8毫米,含有156個(gè)FCores核心,大約40000個(gè)神經(jīng)元和1000萬個(gè)神經(jīng)突觸,既支持神經(jīng)科學(xué)模型和計(jì)算機(jī)科學(xué)模型,又支持神經(jīng)科學(xué)發(fā)現(xiàn)的眾多神經(jīng)回路網(wǎng)絡(luò)和異構(gòu)網(wǎng)絡(luò)的混合建模。芯片采用了存算一體技術(shù),無需外掛DDR(Double Data Rate, 雙倍數(shù)據(jù)速率)緩存,極大節(jié)省了空間、功耗和成本。為實(shí)現(xiàn)脈沖神經(jīng)網(wǎng)絡(luò)(SNN)和人工神經(jīng)網(wǎng)絡(luò)(ANN)的融合,研究團(tuán)隊(duì)構(gòu)建了一個(gè)跨范式的神經(jīng)元方案并設(shè)計(jì)了一個(gè)統(tǒng)一的功能核(FCore),包含了軸突、突觸、樹突、胞體和神經(jīng)路由器構(gòu)建單元。依靠可重構(gòu)功能核靈活的建模配置和拓?fù)溥B接,編碼方式可以在ANN和SNN模式之間轉(zhuǎn)換,從而實(shí)現(xiàn)異構(gòu)神經(jīng)網(wǎng)絡(luò)。

圖3 天機(jī)芯片
類腦芯片達(dá)爾文2于2019年8月在杭州發(fā)布,該芯片由浙江大學(xué)牽頭研發(fā),杭州電子科技大學(xué)和華為中央研究院分別參與了芯片研制與算法和應(yīng)用場(chǎng)景研究工作。單芯片支持多達(dá)15萬個(gè)神經(jīng)元,相當(dāng)于果蠅的神經(jīng)元數(shù)目,是目前國內(nèi)已知單芯片神經(jīng)元規(guī)模最大的脈沖神經(jīng)網(wǎng)絡(luò)類腦芯片。達(dá)爾文2采用55nm標(biāo)準(zhǔn)CMOS工藝制造,單芯片有576個(gè)內(nèi)核,每個(gè)內(nèi)核支持256個(gè)神經(jīng)元和超過一千萬的神經(jīng)突觸,可通過系統(tǒng)級(jí)擴(kuò)展構(gòu)建千萬級(jí)神經(jīng)元類腦計(jì)算系統(tǒng)。2020年9月,浙江大學(xué)聯(lián)合之江實(shí)驗(yàn)室共同研制成功包含792顆達(dá)爾文2代芯片的機(jī)架式類腦計(jì)算機(jī),數(shù)量規(guī)模相當(dāng)于小鼠大腦,能支持1.2億脈沖神經(jīng)元和近千億神經(jīng)突觸,但運(yùn)行功耗僅需要350-500瓦。[6]

圖4 達(dá)爾文芯片
現(xiàn)今深度學(xué)習(xí)已然成為人工智能的同義詞,雖然業(yè)界希望深度學(xué)習(xí)能夠像微電子元件一樣廣泛應(yīng)用到生活的各個(gè)方面,但它至今沒有相似的比例縮小規(guī)則,甚至沒有一個(gè)能作為引導(dǎo)的基本理論。雖然已經(jīng)開發(fā)出含數(shù)百萬參數(shù)的復(fù)雜神經(jīng)網(wǎng)絡(luò)、采集了大量標(biāo)記過的數(shù)據(jù)集,并找到了能夠執(zhí)行算法的硬件,但對(duì)于深度學(xué)習(xí)的廣泛應(yīng)用,成本是一個(gè)主要問題,包括建造模型花費(fèi)的時(shí)間和訓(xùn)練執(zhí)行所需的計(jì)算資源。GPU的出現(xiàn)讓這些任務(wù)能夠被處理,而為深度學(xué)習(xí)定制的硬件將會(huì)有優(yōu)于傳統(tǒng)CPU的性能。目前已經(jīng)出現(xiàn)了新一代的深度學(xué)習(xí)加速硬件,通過權(quán)衡通用性與計(jì)算效率來優(yōu)化成本。建造和訓(xùn)練模型的復(fù)雜程度迫使研究者從系統(tǒng)層面上尋找解決方法,同時(shí)使用數(shù)個(gè)深度學(xué)習(xí)加速器來解決問題。深度學(xué)習(xí)機(jī)器的系統(tǒng)最終會(huì)影響到新的人工智能硬件加速器的可行性。模擬加速器的基礎(chǔ)設(shè)計(jì)和材料性質(zhì)等問題亟待解決,以增強(qiáng)系統(tǒng)層面整合的可能性。雖然不期望深度學(xué)習(xí)模擬運(yùn)算能夠從根本上開創(chuàng)新的生態(tài)系統(tǒng),但它需要能夠增強(qiáng)現(xiàn)有的數(shù)字運(yùn)算。因此,我們將會(huì)看到對(duì)神經(jīng)網(wǎng)絡(luò)性能提升的持續(xù)性推動(dòng),而數(shù)字硬件的解決方法將會(huì)被開發(fā)利用到極限。如果情況樂觀,模擬運(yùn)算方案將會(huì)與這一改變無縫銜接。
聲明:本文章發(fā)布目的在于傳遞更多信息,并不代表本公眾號(hào)贊同其觀點(diǎn)和對(duì)其真實(shí)性負(fù)責(zé)。如涉及作品內(nèi)容、版權(quán)和其它問題,請(qǐng)及時(shí)與我司聯(lián)系,我們將在第一時(shí)間處理!
/
程 韞 韻 Emily
/
新氦類腦智能戰(zhàn)略總監(jiān),復(fù)旦-麻省理工學(xué)院國際工商管理碩士,擁有多年跨區(qū)域、跨行業(yè)的企業(yè)戰(zhàn)略咨詢經(jīng)驗(yàn)。在類腦智能、人工智能技術(shù)及應(yīng)用落地方向有深入的行業(yè)分析和市場(chǎng)洞察,為政府、企業(yè)提供數(shù)智化轉(zhuǎn)型咨詢服務(wù),為AI創(chuàng)業(yè)團(tuán)隊(duì)提供商業(yè)落地建議。主導(dǎo)撰寫AI技術(shù)白皮書,類腦芯片白皮書。



滬公網(wǎng)安備 31011002003093號(hào)