久久久18,天天躁夜夜躁狠狠躁婷婷,国产成人三级一区二区在线观看一,最近的2019中文字幕视频 ,最新免费av在线观看

a&s專業(yè)的自動(dòng)化&安全生態(tài)服務(wù)平臺(tái)
公眾號(hào)
安全自動(dòng)化

安全自動(dòng)化

安防知識(shí)網(wǎng)

安防知識(shí)網(wǎng)

手機(jī)站
手機(jī)站

手機(jī)站

大安防供需平臺(tái)
大安防供需平臺(tái)

大安防供需平臺(tái)

資訊頻道橫幅A1
首頁(yè) > 資訊 > 正文

微軟與Nvidia發(fā)布全球最大含5,300億個(gè)參數(shù)的AI語(yǔ)言模型

微軟和Nvidia合作研究語(yǔ)言模型,發(fā)布了目前最大的單體Transformer語(yǔ)言模型MT-NLG(Turing Natural Language Generation Model),具有5,300億個(gè)參數(shù),作為Turing NLG 17B和Megatron-LM的后繼者,MT-NLG的規(guī)模是目前這類最大模型的3倍,能在完成預(yù)測(cè)、閱讀理解、常識(shí)推理、自然語(yǔ)言推理和詞義消歧等自然語(yǔ)言任務(wù),提供極高的準(zhǔn)確性。

      微軟和Nvidia合作研究語(yǔ)言模型,發(fā)布了目前最大的單體Transformer語(yǔ)言模型MT-NLG(Turing Natural Language Generation Model),具有5,300億個(gè)參數(shù),作為Turing NLG 17B和Megatron-LM的后繼者,MT-NLG的規(guī)模是目前這類最大模型的3倍,能在完成預(yù)測(cè)、閱讀理解、常識(shí)推理、自然語(yǔ)言推理和詞義消歧等自然語(yǔ)言任務(wù),提供極高的準(zhǔn)確性。

  近年來(lái)自然語(yǔ)言處理領(lǐng)域,得利于Transformer語(yǔ)言模型的大規(guī)模運(yùn)算、大資料集,和高端的訓(xùn)練算法,使得語(yǔ)言模型能夠具有大量參數(shù),進(jìn)行更豐富、細(xì)致的語(yǔ)言理解,因此語(yǔ)言模型也能更有效地作為零樣本或是少樣本學(xué)習(xí)器,應(yīng)用在更廣泛的自然語(yǔ)言任務(wù)中。

  現(xiàn)在訓(xùn)練大型語(yǔ)言模型,仍具有不小的挑戰(zhàn)性,研究人員解釋,即便是最大的GPU內(nèi)存,也難以放下這么大量的參數(shù),而且如果不對(duì)算法、軟件和硬件堆棧進(jìn)行優(yōu)化,過(guò)長(zhǎng)的運(yùn)算時(shí)間將會(huì)使得訓(xùn)練模型變得不切實(shí)際。

  微軟和Nvidia密切合作,應(yīng)用GPU和分布式學(xué)習(xí)軟件堆棧,實(shí)現(xiàn)超高效率模型訓(xùn)練,并且使用數(shù)千億的令牌,構(gòu)建高品質(zhì)自然語(yǔ)言訓(xùn)練語(yǔ)料庫(kù),共同開(kāi)發(fā)訓(xùn)練配置,以優(yōu)化效率和穩(wěn)定性。

  模型訓(xùn)練使用基于NvidiaDGX SuperPOD的Selene超級(jí)計(jì)算機(jī),以混合精度訓(xùn)練完成,該超級(jí)計(jì)算機(jī)搭載560臺(tái)DGX A100服務(wù)器,這些服務(wù)器使用HDR InfiniBand以全胖樹拓?fù)溥B接,每臺(tái)DGX A100擁有8顆A100 80GB Tensor Core GPU,之間以NVLink和NVSwitch相互聯(lián)接。

  研究人員解釋,只有這種能夠在數(shù)千個(gè)GPU間實(shí)現(xiàn)平行性的架構(gòu),才能在合理的時(shí)間,訓(xùn)練具有數(shù)千億個(gè)參數(shù)的模型。但就現(xiàn)有的平行策略,包括資料、工作管線和張量切片,還是無(wú)法用于訓(xùn)練這種模型。

  因此研究人員結(jié)合Megatron-LM和PyTorch深度學(xué)習(xí)優(yōu)化函數(shù)庫(kù)DeepSpeed,創(chuàng)建了高效且可擴(kuò)展的3D平行系統(tǒng),將資料、工作管線和基于張量切片的平行性結(jié)合在一起,來(lái)克服訓(xùn)練大型語(yǔ)言模型所遭遇的困難。

  Megatron-LM的張量切片能夠擴(kuò)展節(jié)點(diǎn)內(nèi)的模型,并借由DeepSpeed工作管線的平行性,來(lái)跨節(jié)點(diǎn)擴(kuò)展模型。就5,300億個(gè)參數(shù)的MT-NLG來(lái)說(shuō),每個(gè)模型副本需橫跨280個(gè)A100 GPU,具有8路張量切片和跨節(jié)點(diǎn)的35路工作管線并行性,并且通過(guò)DeepSpeed的資料平行性,擴(kuò)展模型至數(shù)千個(gè)GPU。

  MT-NLG在多種類型的自然語(yǔ)言任務(wù),都達(dá)到了目前最佳的結(jié)果,以少樣本預(yù)測(cè)來(lái)說(shuō),比較或是尋找兩句子間的關(guān)系,通常是對(duì)語(yǔ)言模型較具有挑戰(zhàn)性的任務(wù),但是MT-NLG能夠使用更少的令牌訓(xùn)練,也就是說(shuō),更大型的模型訓(xùn)練速度更快。

  除了一般自然語(yǔ)言任務(wù)都已經(jīng)難不倒MT-NLG,MT-NLG還具有基本的數(shù)學(xué)運(yùn)算能力,研究人員提到,雖然離真正具有算術(shù)能力還有一段距離,但該模型展現(xiàn)了超過(guò)記憶算數(shù)的能力。

  另外,研究人員還在HANS資料集測(cè)試MT-NLG,借由向模型提供包含簡(jiǎn)單句法結(jié)構(gòu)的句子作為問(wèn)題,并且提示模型給予答案,過(guò)去這樣的用例,即便結(jié)構(gòu)相當(dāng)簡(jiǎn)單,但是自然語(yǔ)言推理模型仍會(huì)對(duì)于這類輸入感到苦手,但是MT-NLG在不需要微調(diào)的情況下,就能表現(xiàn)良好。


參與評(píng)論
回復(fù):
0/300
文明上網(wǎng)理性發(fā)言,評(píng)論區(qū)僅供其表達(dá)個(gè)人看法,并不表明a&s觀點(diǎn)。
0
關(guān)于我們

a&s傳媒是全球知名展覽公司法蘭克福展覽集團(tuán)旗下的專業(yè)媒體平臺(tái),自1994年品牌成立以來(lái),一直專注于安全&自動(dòng)化產(chǎn)業(yè)前沿產(chǎn)品、技術(shù)及市場(chǎng)趨勢(shì)的專業(yè)媒體傳播和品牌服務(wù)。從安全管理到產(chǎn)業(yè)數(shù)字化,a&s傳媒擁有首屈一指的國(guó)際行業(yè)展覽會(huì)資源以及豐富的媒體經(jīng)驗(yàn),提供媒體、活動(dòng)、展會(huì)等整合營(yíng)銷服務(wù)。

免責(zé)聲明:本站所使用的字體和圖片文字等素材部分來(lái)源于互聯(lián)網(wǎng)共享平臺(tái)。如使用任何字體和圖片文字有冒犯其版權(quán)所有方的,皆為無(wú)意。如您是字體廠商、圖片文字廠商等版權(quán)方,且不允許本站使用您的字體和圖片文字等素材,請(qǐng)聯(lián)系我們,本站核實(shí)后將立即刪除!任何版權(quán)方從未通知聯(lián)系本站管理者停止使用,并索要賠償或上訴法院的,均視為新型網(wǎng)絡(luò)碰瓷及敲詐勒索,將不予任何的法律和經(jīng)濟(jì)賠償!敬請(qǐng)諒解!
? 2024 - 2030 Messe Frankfurt (Shenzhen) Co., Ltd, All rights reserved.
法蘭克福展覽(深圳)有限公司版權(quán)所有 粵ICP備12072668號(hào) 粵公網(wǎng)安備 44030402000264號(hào)
用戶
反饋