ACAP是什么AI芯片架構(gòu)

ACAP是什么AI芯片架構(gòu)

01 ACAP是全球芯片巨頭賽靈思所推出的一款全新AI芯片架構(gòu)系統(tǒng),只是一個架構(gòu)系統(tǒng),利用ACAP機構(gòu)所打造的Everest芯片預(yù)計在2019面向市場發(fā)售。 02 ACAP以現(xiàn)在全新的FPGA架構(gòu)來作為核心基礎(chǔ),并且基于ARM進行架構(gòu),這樣能夠?qū)崿F(xiàn)分布式存儲器與硬件設(shè)備之間能夠進行編程DSP模塊。

03 根據(jù)**的介紹,ACAP能夠?qū)Χ鄠€軟件系統(tǒng)進行編程,并且能夠同時對多個硬件設(shè)備進行靈活的應(yīng)變計算,還能夠與相應(yīng)的片上**進行互連操作。

04 簡單來說,ACAP就是賽靈思基于傳統(tǒng)FPGA芯片架構(gòu)制程,進行升級打造出來的一款高性能計算引擎,這也是賽靈思現(xiàn)在的反擊之舉。

基于架構(gòu)創(chuàng)新,業(yè)內(nèi)**存算一體大算力AI芯片點亮

5月23日,AI芯片公司后摩智能宣布,其自主研發(fā)的業(yè)內(nèi)**存算一體大算力AI芯片成功點亮,并成功跑通智能駕駛算法模型。芯片“點亮”指電流順利通過芯片,通常意味著芯片可用,后續(xù)測試修正后即可量產(chǎn)。

基于架構(gòu)創(chuàng)新,該款芯片采用SRAM(靜態(tài)隨機存取存儲器)作為存算一體介質(zhì),通過存儲單元和計算單元的深度融合,實現(xiàn)了高性能和低功耗,樣片算力達20TOPS(TOPS是處理器運算能力單位),可擴展至200TOPS,計算單元能效比高達20TOPS/W(TOPS/W是評價處理器運算能力的性能指標(biāo),用于度量在1W功耗的情況下處理器能進行多少萬億次操作)。

這是業(yè)內(nèi)**基于嚴(yán)格存內(nèi)計算架構(gòu)、AI算力達到數(shù)十TOPS或者更高、可支持大規(guī)模視覺計算模型的AI芯片(存內(nèi)計算,顧名思義就是把計算單元嵌入到內(nèi)存當(dāng)中,是一種跳出傳統(tǒng)計算機結(jié)構(gòu)體系的技術(shù))。與傳統(tǒng)架構(gòu)下的大算力芯片相比,該款芯片在算力、能效比等方面都具有顯著的優(yōu)勢。 據(jù)悉,該款芯片采用22nm成熟工藝制程,在提升能效比的同時,還能有效把控制造成本。此外,在靈活性方面,該款芯片不但支持市面上的主流算法,還可以支持不同客戶定制自己的算子,更加適配于算法的高速迭代。

在智能駕駛等邊緣端高并發(fā)計算場景中,除了對算力需求高外,對芯片的功耗和散熱也有很高的要求。目前,常規(guī)架構(gòu)芯片設(shè)計中內(nèi)存系統(tǒng)的性能提升速度大幅落后于處理器的性能提升速度,有限的內(nèi)存帶寬無法保證數(shù)據(jù)高速傳輸,無法滿足高級別智能駕駛的計算需求。其次,數(shù)據(jù)來回傳輸又會產(chǎn)生巨大的功耗。

后摩智能基于該款芯片,首次在存內(nèi)計算架構(gòu)上跑通了智能駕駛場景下多場景、多任務(wù)算法模型,為高級別智能駕駛提供了一條全新的技術(shù)路徑,未來有望更好地滿足高級別智能駕駛時代的需求。 后摩智能是國內(nèi)率先通過底層架構(gòu)創(chuàng)新,進行大算力AI芯片設(shè)計的初創(chuàng)企業(yè)。任何**式創(chuàng)新都會面對極高的技術(shù)挑戰(zhàn),研發(fā)人員需要根據(jù)傳統(tǒng)存儲器件重新設(shè)計電路、單元陣列、工具鏈等,同時必須突破各種物理和結(jié)構(gòu)上的技術(shù)難題。

此次芯片點亮成功,標(biāo)志著其在大算力存算一體技術(shù)的工程化落地取得了關(guān)鍵性的突破。 后摩智能創(chuàng)立于2020年底,總部位于南京,在北京、上海、深圳均擁有技術(shù)團隊。截至目前,后摩智能已完成3輪融資,投資方涵蓋紅杉**、經(jīng)緯創(chuàng)投、啟明創(chuàng)投、聯(lián)想創(chuàng)投等頭部機構(gòu),以及金浦悅達 汽車 、中關(guān)村啟航等國資基金。

阿里AI芯片“含光800”問世,性能相當(dāng)10顆GPU

序言 雖然世界上AI芯片品種不少,但性能特別出眾的卻是寥寥無幾,**阿里20來年發(fā)展史上自主研發(fā)的**國產(chǎn)芯片“含光800”在實測現(xiàn)場以出色的表現(xiàn)脫穎而出。它與傳統(tǒng)的GPU比,具有 “以1當(dāng)10” 的卓越優(yōu)勢。

這就是1顆“含光800”的性能堪比傳統(tǒng)的10顆GPU,具有突出的性價比。

1 何謂“含光”? “含光”是上古三大神劍之一,即該劍含而不露,光而不閃。此喻“含光800”所具有的隱其形強其里的算力。含光800是一款云端AI推理芯片,重點應(yīng)用于視覺場景。就其性能,含光800刷新了現(xiàn)有AI芯片記錄,性能及能效堪比全球**。

該AI架構(gòu)由兩部分組成:硬建系統(tǒng)的核心是“芯片”,好比人的驅(qū)體,軟件的核心就是“操作系統(tǒng)”,好比軀體的靈魂;靈魂即所謂的智能(AI)。所以,大凡世界上所有的高 科技 產(chǎn)品概莫能外,均由硬件與軟件構(gòu)成。 2 “含光800”的卓越表現(xiàn) 芯片被稱為工業(yè)之母,要想掌控世界的高 科技 ,首先必須擁有自己的芯片!含光800是阿里20來年發(fā)展史上自主研發(fā)的**國產(chǎn)芯片。

含光800將通過阿里云對外輸出AI算力。基于含光800的AI云服務(wù)當(dāng)前已正式上線,相比傳統(tǒng)GPU算力,性價比提升****。 在業(yè)界標(biāo)準(zhǔn)ResNet-50測試中,含光800推理性能達到78563 IPS,比目前業(yè)界**的AI芯片性能高出4倍;能效比是500 IPS/W參與測評第二名的3.3倍。

?3 “含光800”的作用 在杭州城市大腦業(yè)務(wù)測試結(jié)果表明,1顆“含光800”的算力功能朝過目前10顆常規(guī)功能GPU。 在云棲會現(xiàn)場演示其性能同樣出彩,比如城市大腦中的實時處理,對杭州主城區(qū)交通視頻,采用40顆傳統(tǒng)GPU,時延為300ms,而采用含“含光800”只需要4顆,其時延降至150ms。 在用于處理淘寶商品庫每天新增10億張商品圖片,使用傳統(tǒng)GPU算力識別需要至少1小時,而使用“含光800”后處理時間縮短至僅5分鐘。

寒武紀(jì)發(fā)布第三代云端AI芯片思元370 產(chǎn)品進入早期銷售階段

11月3日,寒武紀(jì)(688256)發(fā)布第三代云端AI芯片思元370、基于思元370的兩款加速卡MLU370-S4和MLU370-X4、全新升級的CambriconNeuware軟件棧。 基于7nm制程工藝,思元370是寒武紀(jì)**采用chiplet(芯粒)技術(shù)的AI芯片,集成了390億個晶體管,**算力高達256TOPS(INT8),是寒武紀(jì)第二代產(chǎn)品思元270算力的2倍。

思元370也是國內(nèi)**顆支持LPDDR5內(nèi)存的云端AI芯片,內(nèi)存帶寬是上一代產(chǎn)品的3倍,訪存能效達GDDR6的1.5倍。

同時,寒武紀(jì)全新升級了CambriconNeuware軟件棧,新增推理加速引擎MagicMind,實現(xiàn)訓(xùn)推一體,顯著提升了開發(fā)部署的效率,降低用戶的學(xué)習(xí)成本、開發(fā)成本和運營成本。 新一代智能處理器架構(gòu) 寒武紀(jì)智能處理器架構(gòu)MLUarch03,擁有新一代張量運算單元,內(nèi)置Supercharger模塊大幅提升各類卷積效率;采用全新的多算子硬件融合技術(shù),在軟件融合的基礎(chǔ)上大幅減少算子執(zhí)行時間;片上通訊帶寬是上一代MLUarch02的百科2倍、片上共享緩存容量**是MLUarch02的2.75倍;推出全新MLUv03指令集,更完備,更高效且向前兼容。 值得強調(diào)的是,寒武紀(jì)堅持自研智能芯片架構(gòu)、指令集,是全球范圍內(nèi)在該技術(shù)方向積累最為深厚的公司之一。MagicMind是寒武紀(jì)全新打造的推理加速引擎,也是業(yè)界**基于MLIR圖編譯技術(shù)達到商業(yè)化部署能力的推理引擎,用戶僅需投入極少的開發(fā)成本,即可將推理業(yè)務(wù)部署到寒武紀(jì)全系列產(chǎn)品上,并獲得頗具競爭力的性能。

思元370升級了視頻圖像編解碼單元,可提供更高效的視頻處理能力和更優(yōu)的編碼質(zhì)量,支持更復(fù)雜、更繁重、低延時要求的計算機視覺任務(wù)。 此次發(fā)布中,兩款基于思元370的加速卡正式亮相:高密度、半高半長、功耗75W的MLU370-S4智能加速卡和高性能、全高全長、功耗150W的MLU370-X4智能加速卡。與上一代產(chǎn)品相比,370系列加速卡在性能、能效方面都有更為卓越的表現(xiàn)。

例如,對標(biāo)準(zhǔn)ResNet-50v1進行軟件定制優(yōu)化后,MLU370-X4加速卡性能高達30204fps。 據(jù)了解,此次寒武紀(jì)發(fā)布了兩款加速卡,未來還將推出更多基于思元370的產(chǎn)品。 產(chǎn)品進入早期銷售階段 從云端推理思元270、邊緣推理思元220、云端訓(xùn)練思元290,到**發(fā)布的推訓(xùn)一體思元370,寒武紀(jì)為用戶提供了覆蓋不同場景、不同算力規(guī)模的全系列產(chǎn)品。

此次發(fā)布的256TOPS算力的思元370主要面向中高端推訓(xùn)場景,與主要面向訓(xùn)練的512TOPS高端產(chǎn)品思元290形成協(xié)同,共同為客戶提供全功能、全場景的智能算力。 思元370在2020年三季度流片,相關(guān)加速卡產(chǎn)品于2021年二季度陸續(xù)送測客戶。目前,部分客戶已完成測試、導(dǎo)入,產(chǎn)品進入早期銷售階段。

阿里云基礎(chǔ)設(shè)施異構(gòu)計算負(fù)責(zé)人張偉豐博士表示,阿里云基礎(chǔ)設(shè)施異構(gòu)計算團隊已經(jīng)完成了思元370的測試及導(dǎo)入,結(jié)合阿里云震旦異構(gòu)計算加速平**成了ODLA的接口適配,總體性能表現(xiàn)超出預(yù)期。百度異構(gòu)計算架構(gòu)師黎世勇表示,自2018年起,百度與寒武紀(jì)展開了多維度的軟硬件協(xié)作,思元100等產(chǎn)品服務(wù)百度語音合成等多種業(yè)務(wù)場景。 日前寒武紀(jì)發(fā)布了2021第三季度業(yè)績報告。2021年前三季度,寒武紀(jì)營業(yè)收入2.22億元,同比增長41.19%;研發(fā)投入合計7.04億元,同比增加62.62%,研發(fā)投入占營業(yè)收入的比例為316.72%,同比增加41.74%。

資料顯示,寒武紀(jì)自成立以來一直專注于人工智能芯片產(chǎn)品的研發(fā)與技術(shù)創(chuàng)新,致力于打造人工智能領(lǐng)域的核心處理器芯片。寒武紀(jì)的主營業(yè)務(wù)是應(yīng)用于各類云服務(wù)器、邊緣計算設(shè)備、終端設(shè)備中人工智能核心芯片的研發(fā)、設(shè)計和銷售,以及為客戶提供豐富的芯片產(chǎn)品與系統(tǒng)軟件解決方案。目前,寒武紀(jì)的主要產(chǎn)品線包括云端產(chǎn)品線、邊緣產(chǎn)品線、處理器IP授權(quán)及軟件。

智能芯片和類腦芯片的區(qū)別和聯(lián)系

芯片是半導(dǎo)體元件產(chǎn)品的統(tǒng)稱,而集成電路,縮寫是IC,就是將電路小型化,通過電子學(xué)和光學(xué),將電路制造在半導(dǎo)體晶圓上面。我們會分為4個小點進行介紹AI芯片前言解讀。

首先是AI芯片從CPU、GPU、到XPU的發(fā)展情況總體介紹,接著是AI芯片都有哪些系統(tǒng)架構(gòu),基于不同的系統(tǒng)架構(gòu),又引申出不同的AI芯片。

第三部分來整體看看,AI芯片的產(chǎn)業(yè)鏈情況,了解AI芯片從設(shè)計到應(yīng)用的一個分部。**自然是了解AI芯片未來的發(fā)展趨勢,展望未來。