環(huán)顧現(xiàn)有的帶語音識(shí)別能力的系統(tǒng),無論是蘋果的 Siri、亞馬遜的 Alexa 還是微軟的 Cortana,用戶在使用起來多少還是經(jīng)常想砸手機(jī),因?yàn)樗鼈兘?jīng)常擅自“自動(dòng)糾正”用戶話,可見要簡(jiǎn)單地做個(gè)好的“聽寫員”實(shí)在是不容易。
然而,10月17日的時(shí)候,微軟發(fā)布了一份名為《達(dá)到與人類具備同等交流對(duì)話水平》(Achieving Human Parity in Conversational Speech)的論文。該論文宣稱,他們?cè)谡Z音識(shí)別上的技術(shù)已經(jīng)高于專業(yè)的人工速記員了。
為了能夠進(jìn)行比較,微軟的研究人員找來了一段它們具有正確腳本的音頻片段,并請(qǐng)來了一家第三方公司來進(jìn)行語音轉(zhuǎn)文本處理。這個(gè)第三方公司的操作方式分為兩部分:一名謄寫員邊聽音頻邊將內(nèi)容打出來,而另一名則一邊聽音頻一邊修正第一人提供的文本。隨后,根據(jù)和標(biāo)準(zhǔn)的正確文本對(duì)比,第三方公司的錯(cuò)誤率分別是 5.9% 和 11.3%。
而微軟的識(shí)別系統(tǒng),在經(jīng)過 2000 小時(shí)對(duì)人類交談素材的學(xué)習(xí)后,針對(duì)同一份音頻材料進(jìn)行了語音識(shí)別,錯(cuò)誤率分別為 5.9% 和 11.1%,數(shù)量上來看,比人類對(duì)照組少了十來個(gè)錯(cuò)誤。
雖然這次測(cè)試的成績(jī)不錯(cuò),但畢竟處理的音頻材料與真實(shí)生活場(chǎng)景的貼近性還是比較遙遠(yuǎn)。而微軟的研究人員也表明,下一步會(huì)將該系統(tǒng)放在帶有部分背景噪音的場(chǎng)景中,例如在派對(duì)或是在高速公路上行駛的汽車上。同時(shí),人類對(duì)照組的可參考性也還需要考究。但無論如何,希望這次的針對(duì)語音識(shí)別的研究突破不會(huì)成為那種被報(bào)道一次之后就消失的信息。