適用于計算密集型系統(tǒng)的出色 FPGA 和 SoC平臺

作者：Cathal Murphy 2017-07-24 15:09 閱讀 4049 來源：智能電子集成評論區(qū)

離散數(shù)據(jù)類型精度支持

　　系統(tǒng)設計人員正在探索簡化數(shù)據(jù)類型精度，以此實現(xiàn)計算性能的跳躍式提升，而且不會使精度明顯降低。

　　機器學習推斷在降低精度方面一馬當先，首先是 FP16，然后是 INT16 和 INT8。研究人員正在探索進一步降低精度，甚至降到二進制。

　　GPU ALU 通常原生支持單精度浮點類型 (FP32)，有些情況支持雙精度浮點 (FP64)。FP32 是圖形

　　工作負載的首選精度，而 FP64 經(jīng)常用于一些 HPC 用途。低于 FP32 的精度通常無法在 GPU 中得到有效支持。因此采用標準 GPU 上的更低精度，除了能減少所需存儲器帶寬以外，作用甚微。

　　GPU 通常提供一些二進制運算功能，但通常只能每 ALU 進行 32 位寬運算。32 位二進制運算存在很大的復雜性和面積需求。在二值化神經(jīng)網(wǎng)絡中，算法需要 XNOR 運算，緊接著進行種群 (population) 計數(shù)。NVidia GPU 只能每四個周期進行一次種群計數(shù)運算，這會極大影響二進制計算。

　　如圖 2 所示，為了與機器學習推斷空間的發(fā)展保持同步，GPU 廠商一直進行必要的芯片修改，以支持有限的幾種降精度數(shù)據(jù)類型，例如 FP16 和 INT8。例如，Tesla P4 和 P40 卡上的 NVidia GPU 支持 INT8，每 ALU/Cuda 內(nèi)核提供 4 個 INT8 運算。

　　圖 2：英偉達降精度支持

　　然而，英偉達面向 Tesla P40 上的 GoogLeNet v1 Inference 發(fā)布的機器學習推斷基準結果表明，INT8 方案與 FP32 方案相比效率只提升 3 倍，說明要在 GPU 架構中強行降低精度并取得高效結果存在較大難度。

　　隨著機器學習和其他工作負載轉(zhuǎn)向更低精度和定制精度，GPU 廠商需要向市場推出更多新產(chǎn)品，他們的現(xiàn)有用戶也需要升級平臺才能受益于這種改進。

1 2 3 4 5 6 7 8 9 下一頁

免責聲明：本站所使用的字體和圖片文字等素材部分來源于互聯(lián)網(wǎng)共享平臺。如使用任何字體和圖片文字有冒犯其版權所有方的，皆為無意。如您是字體廠商、圖片文字廠商等版權方，且不允許本站使用您的字體和圖片文字等素材，請聯(lián)系我們，本站核實后將立即刪除！任何版權方從未通知聯(lián)系本站管理者停止使用，并索要賠償或上訴法院的，均視為新型網(wǎng)絡碰瓷及敲詐勒索，將不予任何的法律和經(jīng)濟賠償！敬請諒解！

您可能也喜歡這些文章

參與評論

回復：

0/300

文明上網(wǎng)理性發(fā)言，評論區(qū)僅供其表達個人看法，并不表明a&s觀點。

0

推薦專題

熱門排行

關于我們

a&s傳媒是全球知名展覽公司法蘭克福展覽集團旗下的專業(yè)媒體平臺，自1994年品牌成立以來，一直專注于安全&自動化產(chǎn)業(yè)前沿產(chǎn)品、技術及市場趨勢的專業(yè)媒體傳播和品牌服務。從安全管理到產(chǎn)業(yè)數(shù)字化，a&s傳媒擁有首屈一指的國際行業(yè)展覽會資源以及豐富的媒體經(jīng)驗，提供媒體、活動、展會等整合營銷服務。

全球網(wǎng)站
法蘭克福
asmag.com
asmag.com.cn
中國臺灣智慧安防網(wǎng)

免責聲明：本站所使用的字體和圖片文字等素材部分來源于互聯(lián)網(wǎng)共享平臺。如使用任何字體和圖片文字有冒犯其版權所有方的，皆為無意。如您是字體廠商、圖片文字廠商等版權方，且不允許本站使用您的字體和圖片文字等素材，請聯(lián)系我們，本站核實后將立即刪除！任何版權方從未通知聯(lián)系本站管理者停止使用，并索要賠償或上訴法院的，均視為新型網(wǎng)絡碰瓷及敲詐勒索，將不予任何的法律和經(jīng)濟賠償！敬請諒解！

粵公網(wǎng)安備 44030402000264號

用戶
反饋

久久久18,天天躁夜夜躁狠狠躁婷婷,国产成人三级一区二区在线观看一,最近的2019中文字幕视频 ,最新免费av在线观看

適用于計算密集型系統(tǒng)的出色 FPGA 和 SoC平臺

離散數(shù)據(jù)類型精度支持