银川西夏万达的鸡,银川西夏区怎么找服务,银川晚上哪里有妞子,银川三道湾晚上还有没_裸体

<var id="a5oyx"><strong id="a5oyx"><source id="a5oyx"></source></strong></var>

    <thead id="a5oyx"></thead>

RISC-V與人工智能發展小史

2020-12-08 | 更新于2018-10-27 智能硬件 瀏覽量:1670 評論:1

最近人工智能芯片很火,華為發布了兩款AI芯片—升騰910和310,阿里成立的芯片公司“平頭哥”,首款AI芯片最快明年下半年面世,人工智能依然是風口。行業的另一個熱點是RISC-V,65家機構發起成立了中國RISC-V產業聯盟。那么,RISC-V的開源架構可以給人工智能芯片帶來什么機遇呢?


RISC-V的首席構架師Krste Asanovic告訴我們:“Mi-V生態系統和PolarFire可為功率受限的嵌入式系統提供深度學習解決方案?!?/span>

Mi-V RISC-V生態系統開發平臺是美高森美(Microsemi)加速生態系統計劃的一部分,聚集了許多參與RISC-V開發的行業領導者,為客戶充分利用其功能并簡化RISC-V設計。Mi-V生態系統為固件和硬件工程師提供了全面的生態系統,讓第三方能夠使用這個平臺推動RISC-V采用和創新。

在最近SiFive舉辦的RISC-V中國巡回研討會上,Krste Asanovic博士向我們講述了人工智能的進化史以及RISC-V給人工智能芯片所帶來的機遇。

一、人工智能的三波浪潮

人工智能(Artificial Intelligence)始于人工神經網絡。人工神經網絡經歷了三波浪潮:第一波是上世紀五十年代和六十年代,人類發明了感知器(模擬人類視神經控制系統的圖形識別機);第二波是上世紀八十年代和九十年代,稱為“反向傳播”的浪潮;第三波浪潮是自2010年以來的深度神經網絡。值得注意的是,所有開發出來的理念比實際最終流行都要早很多年。

在上世紀五十年代和六十年代,人們發明了單層感知器。這個感知器最早是為圖像處理開發的單層感知器(例如Rosenblatt),它只是一個“線性可分分類器”,不能捕獲有趣函數,例如XOR函數。到了七十和八十年代,AI逐漸從統計方法轉移到符號方法。

到了1986年,有影響力的PDP書籍出版,從單層感知器發展到了多層感知器與反向支撐。人們發現兩層方向支撐訓練網絡在實現許多艱巨任務時明顯好很多,但專家們一個廣泛的抱怨是結果不可解釋,而且用通用計算機訓練的過程太慢了,所以要趕快建立定制機器。
                 
這樣就有了定制神經計算機。大的定制神經網絡計算機的努力主要發生在九十年代。在上世紀九十年代逐漸有了DSP 陣列、矢量處理器、脈動陣列(Systolic arrays),以及其他更多的仿神經方法,例如:具有EEPROM權重的模擬、位系列技術、尖峰方法、異步處理器等等。

這里特別要提出的是1989年發明的環形陣列處理器(ICSI 1989),發明人是Nelson Morgan, Jim Beck, Phil Kohn, Jeff Bilmes。這是為快速訓練建立的號稱為“大轉儲”神經網絡的RAP機,開辟了語音識別領域;九十年代美國德州儀器公司的環形浮點DSPs TMS320C30問世,每個DSP提供32MFLOPS(32-bit FP),每個板子上有4個DSP,10個電路板連接在一起(大于1GFLOP/s峰值,640MB DRAM)。其神經網格訓練率大于100MCUPS(每秒百萬級的鏈接升級),全部加起來有10個電路板。FPGA環連接用來為所有脈動陣列-即在訓練和推理時的所有通訊,其快速、靈活的設計使其成為當時人工智能領域的一個“明星”,但是價格昂貴,每個電路板達10萬美金。

二、專用和通用計算機之爭

矢量微處理器(例如:Crays)在科學計算領域非常成功,它是一種全新的編程模型。給一個標準的MIPS RISC 標量處理器增加一個矢量協處理器,并全部集成在一個芯片,可用于神經網絡訓練。

第一臺矢量微處理器是SPERT-II/T0,它產生于1995年。其系統被9個國際網站采用,作為人工智能的研發平臺整整工作了9年,2004年它在最后一次“上班”后黯然下崗。

1997年出現了TetraSpert,它是一臺可快速訓練的矢量微處理器,使用SPARC工作站,通過Sbus總線連接若干臺(4臺)SRAM T0,進行神經網絡的快速訓練。西門子在1992年5月推出了SYNAPSE-1,這是一臺“脈動陣列-多重引擎(16b*16b)”的處理器,可實現四級程序控制(68000s+微碼)。

這個時代的人工智能處理器是“用簡化的矢量處理填充掩模版,添加高寬帶本地存儲器,并向服務器附加多個以加速神經網絡訓練?!?/span>

九十年代的人工智能市場特點一個是很小,一個是神經網絡開始“人氣消退”,只有一小部分人還在堅持做這個,因為摩爾定律的微縮理論更看好通用型處理器。

1996年,Intel發布了奔騰MMX(Pentium MMX),從多能奔騰開始,英特爾就對其生產的CPU開始鎖倍頻了,但是MMX的CPU超外頻能力特別強,而且還可以通過提高核心電壓來超倍頻,所以那個時候超頻是一個很時髦的行動。

MIT計算機科學實驗室的Krste Asanovic 發表了一篇論文“可編程神經計算方法”,文章說: “盡管迄今為止實現的多媒體擴展證實了基于定點矩陣碼的通用微處理器有一個有限的提升,他們預示著商業微處理器制造商的意圖是這種編碼工作的很好,由于商業設計團隊在新的微處理器設計中加入了多媒體內核的工作量,我們期待ANN算法的功能也能夠大大增加,連續大量的投資都瞄準了高容量微處理器,以確保這些器件能使用最先進的制造工藝和更激進能夠產生更高快速時鐘速率的電路設計風格。在這種趨勢下,勢必減少了對于未來專用的神經計算機的興趣?!?/span>

另外,隨著年代,微處理器的功能提高速率在減慢:
?1980~1985: 提升22%/年;
?1985~2003: 提升52%/年;
?2003~2011: 23%/年;
?2011~2015: 9.3%/年;
?2015年以后:2.3%/年。

“現在的微處理器功能已經相當于將近10萬個VAX-11/780工作站,進步驚人,但提升速率在下降,” Krste Asanovic博士說?!熬攀甏_始神經計算機已不能和微縮的通用計算機進行競爭了,但現在通用微處理器的工藝微縮停止了?!?/span>

三、圖像處理器(GPU)

GPU和CPU之所以大不相同,是由于其設計目標的不同,它們分別針對了兩種不同的應用場景。CPU需要很強的通用性來處理各種不同的數據類型,同時又要邏輯判斷又會引入大量的分支跳轉和中斷的處理。這些都使得CPU的內部結構異常復雜。而GPU面對的則是類型高度統一的、相互無依賴的大規模數據和不需要被打斷的純凈的計算環境。

圖像處理器是在90年代中后期出現的,GPU的主要功能是產生3D圖像,包括高端的浮點單元,提供工作站—像PC的圖形,配置圖形管道等,但在初期它并不能真正的進行編程。

進入21世紀以后,特別是2001年到2005年之間,隨著時間的推移圖像處理器加入了更多的可編程性能。例如,用來寫小程序的新語言Cg在每個格點或每個像素進行,也在Windows DirectX變體上進行。出現了大量并行的(每框約上百萬的格點或像素)但是非常嚴格的編程模型,某些用戶注意到它也可以做通用計算,將輸入輸出數據映射到圖像,計算格點和像素陰影。這些難以置信的編程模型,必須使用圖像管道模型進行通用計算。

通用圖像處理器(GP-GPU)的里程碑是2006年英偉達發布的GeForce 8800GPU,它可以支持一個新的可編程語言:CUDA,這是一個“統一計算設備架構”。接著,行業更廣泛地推動了一個有同樣想法的中立供應商版本OpenCL,其想法是,利用GPU的計算性能和存儲器帶寬來加速某些內核通用計算性能。這樣就產生了附加處理器模型:主機CPU將數據并行內核發布到GPU執行,時間久了,就演變成為了速度最快的執行神經網絡訓練的標準方式。

此時GPU已經不再局限于3D圖形處理了,GPU通用計算技術發展引起業界的關注,事實也證明在浮點運算、并行計算等部分計算方面,GPU可以提供數十倍乃至于上百倍于CPU的性能。

GPU采用了數量眾多的計算單元和超長的流水線,但只有非常簡單的控制邏輯并省去了Cache。而CPU不僅被Cache占據了大量空間,而且還有有復雜的控制邏輯和諸多優化電路,相比之下計算能力只是CPU很小的一部分。

所以與CPU擅長邏輯控制和通用類型數據運算不同,GPU擅長的是大規模并發計算(Concurrent computing),這也正是人工智能等所需要的。所以GPU除了圖像處理,也越來越多的參與到計算當中來。

四、定制AI芯片的廣泛努力

在圖像處理器GPU逐漸演變為通用計算處理器的時候,許多定制芯片廠商也在努力開發定制AI芯片。例如Google推出的TPU(張量處理器)、TPUv2、TPUv3等云計算系列芯片,也有人稱之為AI協同處理器。TPU的性能比現代CPU和GPU高15-30倍,每瓦性能提高30-80倍。

AI 加速器設計的原型是邊緣推理(Inference at edge),它最關切的因素是成本、性能和功耗,需要高壓縮的模塊來減少系統成本和功耗,以及成本性能績效。

云端推理最關切的是(交互)延遲、吞吐量和成本,響應用戶要求的快速性和可預見力,因為有許許多多的用戶,因此降低每個用戶的成本是關鍵。

云端訓練關切的是性能。價值是得出的數據模型,要為高的成本/功耗辯解。單次訓練可達數周,優化技能人才開發稀缺資源。這個更像傳統的HPC,而不像傳統的云,追求極限的工藝,最先進的工藝節點,互連、冷卻技術等等。

總的來說,云AI加速器的共性包括,專用矩陣引擎、壓縮的定點/浮點格式、多片片上暫存存儲器、先進節點中的全掩模板、最高帶寬的外部DRAM、最高帶寬的串行鏈路等。

假設以上條件全部成立,AI能夠成功嗎?Krste Asanovic博士給出了三點預測:第一、算法變化很快但模式經久;第二、摩爾定律死了但阿姆達爾定律(Amdahl’s Law)還活著;第三、軟件最重要,但你永遠無法完成它。阿姆達爾定律表明,即使到了多核時代,并發程序的開發或者說提升程序的并發度仍然具有十分重要的意義。

阿姆達爾定律是一個計算機科學界的經驗法則,可用于指導CPU的可擴展設計。阿姆達爾定律指出,CPU的發展有兩個方向,更快的CPU或者更多的核。目前看來發展的重心偏向了CPU的核數。但有時我們會發現雖然擁有更多的核,當我們同時運行幾個程序時,只有少數幾個線程處于工作中,其它的并未做什么工作,實踐當中,并行運行多個線程往往并不能顯著提升性能,程序往往并不能有效的利用多核,在多核處理器中加速比是衡量并行程序性能的一個重要參數。

AI的算法在流片和布局中一直在改變,按照伯克利的觀點:“Dwarfs侏儒”是任何計算問題的最基本因素。Krste Asanovic博士說,“我不知道AI算法的未來是什么樣子,但是他們將使用這些模式,設計永遠是這些模式的靈活組合?!?/span>

摩爾定律死了,阿姆達爾定律活著,而且是活蹦亂跳地活著。

五、應用于AI加速器的RISC-V

軟件被定義為通過優化算法訓練的神經網絡構架以解決特定的任務。今天,神經網絡是用來學習解決問題的實際工具,其中涉及通過大數據集進行分類學習。

做研發的人有深切的體會,“在流片前永遠結束不了軟件工作,在流片前不太可能完成1%的軟件工作,傾向于只編碼了內核(1%)還剩99%,但你要記著阿姆達爾定律!”Krste Asanovic博士強調,“如果系統很難編程,那么就不會有軟件了;如果你沒有軟件,你就不會有一個加速器!”

RISC-V是免費且開放的ISA,通過開放標準協作推動實現處理器創新的全新時代。RISC-V也可成為定制加速器的設計基礎。

應用一個簡單的基礎ISA對所有核可以大大簡化軟件。例如,在你需要一個高性能Unix兼容核去運行操作系統時,建立一個超標量體系結構OoO核;在你微代碼調度需要VLIW的時候,按順序構建超標體系結構;在你需要低精度SIMD的地方,使用標準矢量擴展;在你想需要利用2D優化的地方(例如:多路脈動陣列、卷積),使用2D擴展(正在進行中);在你需要中斷/響應I/O管理核的地方,建立嵌入式核;以及相同的存儲器模塊,同步基元,編程工具流程(C-結構包),查錯,跟蹤……等等。

RISC-V可定制化核有許多豐富的選擇,包括被連接到相干高寬帶結構的核和即將到來的矢量擴展、客戶自定義指令擴展、依附在相干構造上的AI加速器等。

一個好消息是開源的Nvidia NVDLA 在其SiFive流行芯片上已經得到演示,SiFive Design Sharer提供了簡潔全面的ASIC設計服務,以及提供應用于高寬帶存儲系統的HBM2 IP 和應用于柔性芯片連接的Interlaken IP等眾多人工智能RISC-V IP核。

本主題已被管理員于 2018/10/27 編輯過

評論(1條

  • 觀雨 - 703天前

    刪除 0

    騙子?。?!我要退款?。。。。?!

評論主題
登錄發表評論

paoao測試賬號

普通會員

個人中心
設計師其它作品
银川西夏万达的鸡 银川西夏区怎么找服务 银川晚上哪里有妞子疯狂的在美女完美的玉脸、洁白滑腻的玉颈,胸前的雪白肌肤上狂吻起来。美女的肌肤水嫩柔软幽香,差点让...