近日,在國際聲紋識別權威競賽VoxSRC上,依圖算法奪得第一,等錯誤率降到0.0098、大幅超越第二名。
并且,依圖團隊(參賽隊伍名為logicworld)在使用指定數據的情況下取得了優(yōu)于其他團隊使用不限數據得到的結果,表明依圖聲紋識別技術已達世界前沿水平。
(競賽的任務是判斷兩段音頻是出自同一個人還是兩個不同的人,算法的輸出結果用等錯誤率(Equal Error Rate,EER)來衡量,EER越小系統(tǒng)性能越好)
0.0098的等錯誤率意味著什么?
首先,日常生活應用基本能夠滿足,筆記本電腦和汽車的聲紋鎖功能越來越可靠,智能硬件上的虛擬助理將不會被他人用同樣的關鍵詞喚醒,成為真正屬于你的個人助理。
在社保遠程身份驗證、反電信詐騙等公共服務領域,精準的聲紋識別技術也將更好地降本增效、服務民生,不需要再“居住異地,千里奔波”,更避免“九旬老人社保年審,家人抬著爬上三樓”。
聲紋識別擁有廣闊的應用前景。不僅如此,將語音識別與聲紋識別、語義理解相結合,就能知道 “是誰因為什么說了什么”,將大幅增強智能語音個性化服務,實現(xiàn)真正意義上的交互。
VoxSRC是由英國牛津大學、韓國互聯(lián)網巨頭Naver、斯坦福國際研究院和麻省理工學院聯(lián)合發(fā)起的全球聲紋識別競賽,被譽為“聲紋識別界的ImageNet競賽”。
本次比賽采用的數據集基于開源數據集VoxCeleb,由牛津大學團隊于 2017 年發(fā)布,后來逐漸擴充,現(xiàn)在是聲紋識別領域規(guī)模最大、標注最完備的開源數據集之一。
VoxCeleb來自YouTube名人采訪視頻,包含了7000多個來自不同種族、口音、職業(yè)和年齡的說話人,超過100萬段的說話聲,2000多小時的音頻和視頻,且基本都含有背景噪音、笑聲、說話聲重疊及其他雜音,非??简炈惴ǖ膶崙?zhàn)水平。同時,本次比賽測試數據不含標注,無法用來訓練或調整系統(tǒng),確保了結果的公正與公平。
今年的VoxSRC吸引了來自海內外多支隊伍參與,包括約翰霍普金斯大學、法國國家信息與自動化研究所、清華大學、中山大學等知名高校和研究機構,以及平安科技、NEC等大型企業(yè)。
成立7年來,依圖在視覺感知、自然語言處理、語音識別、智能決策等多技術領域發(fā)展,這次參賽VoxSRC是依圖在語音領域的一次新嘗試。
未來,依圖將在多算法領域持續(xù)投入,推進多模態(tài)技術融合、軟硬件協(xié)同開發(fā),將世界前沿的人工智能算法與行業(yè)場景深度結合,推動人工智能應用落地。