久久久18,天天躁夜夜躁狠狠躁婷婷,国产成人三级一区二区在线观看一,最近的2019中文字幕视频 ,最新免费av在线观看

a&s專業(yè)的自動(dòng)化&安全生態(tài)服務(wù)平臺(tái)
公眾號(hào)
安全自動(dòng)化

安全自動(dòng)化

安防知識(shí)網(wǎng)

安防知識(shí)網(wǎng)

手機(jī)站
手機(jī)站

手機(jī)站

大安防供需平臺(tái)
大安防供需平臺(tái)

大安防供需平臺(tái)

資訊頻道橫幅A1
首頁 > 資訊 > 正文

適用于計(jì)算密集型系統(tǒng)的出色 FPGA 和 SoC平臺(tái)

通過嚴(yán)格的存儲(chǔ)器層級(jí)實(shí)現(xiàn)軟件定義數(shù)據(jù)路徑

  與 CPU 類似,GPU 中的數(shù)據(jù)流也由軟件定義,并取決于 GPU 的嚴(yán)格而復(fù)雜的存儲(chǔ)器層級(jí)。典型的 GPU 存儲(chǔ)器層級(jí)如圖 3 所示。

  每個(gè)線程在寄存器文件中都有自己的存儲(chǔ)器空間,用以存儲(chǔ)線程的本地變量。少量線程(相同的存儲(chǔ)塊中)可通過共享存儲(chǔ)器通信;所有線程都能通過全局或片外存儲(chǔ)器通信。

  如圖 3 所示,與存儲(chǔ)器訪問有關(guān)的能耗和時(shí)延分別增加 100 倍和 80 倍以上,因?yàn)閿?shù)據(jù)需要遍歷存儲(chǔ)器層級(jí)——從寄存器文件到全局存儲(chǔ)器。此外,存儲(chǔ)器沖突不可避免,會(huì)增大時(shí)延,導(dǎo)致 ALU 閑置,致使計(jì)算能力和效率降低。

                                       圖 3:典型的 GPU 存儲(chǔ)器層級(jí)

  因此,如果實(shí)現(xiàn) GPU 的計(jì)算和效率潛能,工作負(fù)載的數(shù)據(jù)流必須準(zhǔn)確映射到 GPU 存儲(chǔ)器層級(jí)。工作負(fù)載要具備足夠的數(shù)據(jù)局部性,才能高效地映射到 GPU,實(shí)際上這樣的工作負(fù)載很少。對(duì)大多數(shù)工作負(fù)載而言,當(dāng)在 GPU 上實(shí)現(xiàn)時(shí),實(shí)際的計(jì)算能力和效率會(huì)大打折扣,解決方案的時(shí)延也會(huì)增加。

  機(jī)器學(xué)習(xí)推斷作為量化實(shí)例,能清楚反應(yīng)出這種數(shù)據(jù)流局限性。GPU 必須批處理,例如 128,以實(shí)現(xiàn)高效但時(shí)延更長(zhǎng)的解決方案。最終,批處理使機(jī)器學(xué)習(xí)處理局部化,但代價(jià)是時(shí)延增加。GoogLeNet v1 Inference 的 NVidia P40 基準(zhǔn)測(cè)試結(jié)果可清楚地反映出該效應(yīng)。對(duì)于 GoogLeNet v1,網(wǎng)絡(luò)因 P40 存儲(chǔ)器帶寬而受計(jì)算束縛,因此與批處理有關(guān)的存儲(chǔ)器帶寬削減不會(huì)產(chǎn)生很大幫助。然而,P40 顯然需要 128 批處理以實(shí)現(xiàn) 50% 的 GPU 理論性能,會(huì)給系統(tǒng)帶來很大時(shí)延。

  有些情況下,可利用 CPU 對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,以便工作負(fù)載更好地映射到 GPU SIMT 架構(gòu)和存儲(chǔ)器層級(jí),但代價(jià)是產(chǎn)生更多 CPU 計(jì)算和功耗,抵消了 GPU 的優(yōu)勢(shì)。

  有限的 I/O 選項(xiàng)

  如“GPU 起源和目標(biāo)工作負(fù)載”部分所述,GPU 的角色是作為協(xié)處理器。為了便于與主機(jī)通信,GPU 以往只有一個(gè)硬 PCIe® 接口以及幾個(gè)片外 DRAM 接口(例如 GDDR5)。最近幾代產(chǎn)品中,有些 GPU 采用硬接口實(shí)現(xiàn) GPU 到 GPU 通信。仍然需要使用 CPU 來與網(wǎng)絡(luò)進(jìn)行連接以及向 GPU 分配任務(wù),這會(huì)增加系統(tǒng)功耗,同時(shí)會(huì)因 PCIe 的有限帶寬而帶來瓶頸問題。例如,英偉達(dá)的 Tesla P40 支持 PCIe 3.0 x16,只能實(shí)現(xiàn) 16GB/s 帶寬。

  GPU 廠商已經(jīng)開始構(gòu)建小型 SoC,例如 NVidia Tegra X1,能夠提供集成 GPU 計(jì)算、ARM® 處理器以及一些通用汽車外設(shè)(如 HDMI、MIPI、SIP、CAN 和基礎(chǔ)以太網(wǎng))。這些器件只具備少量計(jì)算能力,必須依靠額外的分立 GPU 實(shí)現(xiàn)必要的計(jì)算能力。然而,分立 GPU 的接口有很大局限性,例如 Tegra X1 僅支持 PCIe 2.0 x4,造成嚴(yán)重瓶頸。額外的 SoC 的功耗會(huì)進(jìn)一步降低平臺(tái)的效率。

  片上存儲(chǔ)器資源

  除了時(shí)延、效率和吞吐量方面的不利影響,片外存儲(chǔ)器的帶寬要顯著低于本地/片上存儲(chǔ)器。因此,如果工作負(fù)載需要依靠片外存儲(chǔ)器,不僅片外存儲(chǔ)器的帶寬會(huì)成為瓶頸,而且計(jì)算資源也會(huì)被閑置,從而降低 GPU 提供的計(jì)算功能和效率。

  因此,更有利的做法是采用大型低時(shí)遲、高帶寬片上存儲(chǔ)器。再次以機(jī)器學(xué)習(xí)推斷為例,GoogLeNet 共需要 27.2MB 的存儲(chǔ)器,假設(shè) FP32 方案,這樣沒能提供 GPU,這意味著需要片外存儲(chǔ)器。很多情況下需采用高昂的高帶寬存儲(chǔ)器 (HBM) 和批處理,以防止內(nèi)核閑置。如果選擇具有更大型片上存儲(chǔ)器的器件,就能避免 HBM 成本以及額外的時(shí)延和功耗問題。

  功耗范圍

  GPU 廠商在設(shè)計(jì)板卡和 GPU 時(shí)通常要適應(yīng) 250W 功耗上限,并依靠有效熱管理來調(diào)節(jié)溫度。針對(duì)機(jī)器學(xué)習(xí)推斷市場(chǎng),英偉達(dá)開發(fā)了滿足 75W 功耗范圍的器件,例如 Tesla M4 和 P4。即使 75W 也遠(yuǎn)超出所允許的系統(tǒng)級(jí)功耗和熱范圍。 GPU 的絕對(duì)功耗依然是阻礙 GPU 廣泛使用的一大因素。

  功能安全性

  GPU 源自消費(fèi)圖形處理和高性能計(jì)算領(lǐng)域,不存在功能安全性要求。隨著 GPU 廠商瞄準(zhǔn) ADAS 市場(chǎng),功能安全性就變成了優(yōu)先考慮和要求。器件需要全新設(shè)計(jì),以確保實(shí)現(xiàn)所需的功能安全性認(rèn)證等級(jí),以便用在 ADAS 系統(tǒng)中。對(duì) GPU 廠商來說這是一個(gè)長(zhǎng)期學(xué)習(xí)過程,涉及各個(gè)方面,需要新的工具和設(shè)備。

參與評(píng)論
回復(fù):
0/300
文明上網(wǎng)理性發(fā)言,評(píng)論區(qū)僅供其表達(dá)個(gè)人看法,并不表明a&s觀點(diǎn)。
0
關(guān)于我們

a&s傳媒是全球知名展覽公司法蘭克福展覽集團(tuán)旗下的專業(yè)媒體平臺(tái),自1994年品牌成立以來,一直專注于安全&自動(dòng)化產(chǎn)業(yè)前沿產(chǎn)品、技術(shù)及市場(chǎng)趨勢(shì)的專業(yè)媒體傳播和品牌服務(wù)。從安全管理到產(chǎn)業(yè)數(shù)字化,a&s傳媒擁有首屈一指的國(guó)際行業(yè)展覽會(huì)資源以及豐富的媒體經(jīng)驗(yàn),提供媒體、活動(dòng)、展會(huì)等整合營(yíng)銷服務(wù)。

免責(zé)聲明:本站所使用的字體和圖片文字等素材部分來源于互聯(lián)網(wǎng)共享平臺(tái)。如使用任何字體和圖片文字有冒犯其版權(quán)所有方的,皆為無意。如您是字體廠商、圖片文字廠商等版權(quán)方,且不允許本站使用您的字體和圖片文字等素材,請(qǐng)聯(lián)系我們,本站核實(shí)后將立即刪除!任何版權(quán)方從未通知聯(lián)系本站管理者停止使用,并索要賠償或上訴法院的,均視為新型網(wǎng)絡(luò)碰瓷及敲詐勒索,將不予任何的法律和經(jīng)濟(jì)賠償!敬請(qǐng)諒解!
? 2024 - 2030 Messe Frankfurt (Shenzhen) Co., Ltd, All rights reserved.
法蘭克福展覽(深圳)有限公司版權(quán)所有 粵ICP備12072668號(hào) 粵公網(wǎng)安備 44030402000264號(hào)
用戶
反饋