2月1日,浙江省疾控中心上線自動化的全基因組檢測分析平臺。利用阿里達(dá)摩院研發(fā)的AI算法,可將原來數(shù)小時的疑似病例基因分析縮短至半小時,大幅縮短確診時間,并能精準(zhǔn)檢測出病毒的變異情況。
當(dāng)前,全國新型冠狀病毒肺炎疫情依然嚴(yán)峻,快速、精確診斷對于疫情控制尤其重要。公開信息顯示,該病毒是基因組序列最長的病毒之一,全基因組序列全長29847bp,臨床診斷需要將患者樣本與該病毒基因序列進(jìn)行比對才能確定診斷結(jié)果。
目前,醫(yī)院普遍采用核酸檢測方法,其只能檢測到病毒基因的局部。由于病毒存在變異的可能性,對于整個基因序列來說這種檢測方法猶如盲人摸象,一旦病毒發(fā)生變異,就可能出現(xiàn)漏檢的情況。
浙江的全基因組檢測分析平臺由浙江省疾病預(yù)防控制中心、阿里達(dá)摩院醫(yī)療AI團(tuán)隊(duì)和杰毅生物技術(shù)公司共同研發(fā)。該平臺采用全基因組檢測技術(shù),對疑似病例的病毒樣本進(jìn)行全基因組序列分析比對,它不同于核酸檢測方法,能夠有效防止病毒變異產(chǎn)生的漏檢,并將原需數(shù)小時的全基因分析流程減少到半小時,大幅提高疑似病例的確診速度和準(zhǔn)確率。
據(jù)阿里方面披露,此次研發(fā)的自動化全基因組檢測分析平臺屬于高通量測序。杰毅生物開發(fā)了全自動高通量測序建庫儀,把整體常規(guī)人工需要12小時的工作縮短到2個小時。每次測序過程會產(chǎn)生海量的數(shù)據(jù),達(dá)摩院采用分布式設(shè)計(jì)的分析算法,病毒檢測的整體速度由數(shù)小時縮短到半小時;同時,由于采用分布式算法,病毒拼接的速度由30分鐘至1小時縮短到15至30分鐘。
疫情發(fā)生后,達(dá)摩院算法專家顧斐博士立即奔赴浙江省疾控中心,第一時間針對新型冠狀病毒基因進(jìn)行特征分析,并推出多個算法模型。在序列比對過程中,達(dá)摩院對算法增加了分布式設(shè)計(jì),有效提升比對效率;在病毒序列拼接階段使用分布式設(shè)計(jì)的de Bruijn圖算法,變異病毒也能精準(zhǔn)檢測。
達(dá)摩院還針對新冠病毒基因的特征進(jìn)行了分析,基于pdb等公共數(shù)據(jù)集的數(shù)據(jù)進(jìn)行算法的優(yōu)化訓(xùn)練。本次分析病毒檢測和病毒變異部分主要基于開源算法,設(shè)計(jì)分布式算法以加速分析流程。病毒序列拼接完成后,通過設(shè)計(jì)BiLSTM+DNN的方式訓(xùn)練模型預(yù)測病毒蛋白二級結(jié)構(gòu)。同時,達(dá)摩院還在研究基于序列的蛋白質(zhì)三維結(jié)構(gòu)預(yù)測模型以及藥物篩選模型。
阿里方面表示:“檢測變異病毒就需要拼接出一個病毒的完整基因組,我們可以百分之百檢測到變異病毒。目前無變異病毒案例?!?/p>
目前,通過核酸檢測方法,新型冠狀病毒的檢測時間也已經(jīng)大大縮短。