語音識(shí)別技術(shù)已經(jīng)成為全球科技大鱷競(jìng)相追逐的黑科技,也是未來進(jìn)入智能家居、智慧家庭的重要切入點(diǎn),國際巨頭微軟、IBM、蘋果、谷歌一直在語音識(shí)別技術(shù)下足功夫,識(shí)別能力不相上下,IBM以誤碼率低的微小優(yōu)勢(shì)領(lǐng)先行業(yè)。
但近期出現(xiàn)反轉(zhuǎn),就在此前,近期微軟宣布了一項(xiàng)關(guān)于機(jī)器理解人類語言的重要測(cè)試結(jié)果,即研究人員獲得了迄今最低語音識(shí)別會(huì)話誤碼率(WER)——6.3%,讓其成功登頂語音識(shí)別最低誤碼率,引起了業(yè)界關(guān)注。
據(jù)了解,該測(cè)試是美國國家標(biāo)準(zhǔn)局(NIST)的2000總機(jī)語音識(shí)別進(jìn)行的任務(wù)。咨詢機(jī)構(gòu)Wall Street Pit評(píng)論認(rèn)為,微軟團(tuán)隊(duì)轉(zhuǎn)向“作為行業(yè)標(biāo)準(zhǔn)的電話語音識(shí)別測(cè)試”成績(jī)斐然,鞏固了其在語音識(shí)別領(lǐng)域的霸主地位。
分析認(rèn)為,微軟取得這一成績(jī)來自幾個(gè)方面的努力:研究人員在今年早些時(shí)候,應(yīng)用深度神經(jīng)網(wǎng)絡(luò)技術(shù)贏得了一項(xiàng)計(jì)算機(jī)視覺挑戰(zhàn);微軟最近在計(jì)算網(wǎng)絡(luò)工具包(CNTK)中的成熟案例,也是獲得本次好成績(jī)的關(guān)鍵組成部分。CNTK實(shí)現(xiàn)了“深度學(xué)習(xí)算法”的復(fù)雜優(yōu)化升級(jí),運(yùn)行速度比原來提升一個(gè)數(shù)量級(jí);另一個(gè)關(guān)鍵步驟是圖形處理單元的并行訓(xùn)練能力取得了突破。
業(yè)內(nèi)人士表示,近年來,大型軟件公司科研經(jīng)費(fèi)有被縮減的趨勢(shì),且更專注于深度神經(jīng)網(wǎng)絡(luò)的研究,但實(shí)際上,語音識(shí)別技術(shù)的應(yīng)用更早一些。有評(píng)論稱,過去20年中,研究顯示的計(jì)算機(jī)語音識(shí)別系統(tǒng)的最高誤碼率甚至達(dá)到過43%,而隨后最出色的單系統(tǒng)NIST2000總機(jī)誤碼率為6.9%。
在近日于舊金山舉行的“Interspeech語音通信和技術(shù)國際會(huì)議”上,IBM驕傲地宣布其誤碼率只有6.6%。但此次微軟宣布的6.3%的誤碼率,以微弱優(yōu)勢(shì)取勝。
目前,微軟已經(jīng)制定出了基于語音平臺(tái)的人機(jī)交互策略,成功構(gòu)建起人工智能的關(guān)鍵技術(shù),讓相關(guān)語音對(duì)話在可穿戴設(shè)備、智能手機(jī)、智慧家庭、智慧車輛及商業(yè)服務(wù)中發(fā)揮重要作用。