從阿里云官方獲悉,近日,國(guó)際權(quán)威機(jī)器視覺(jué)問(wèn)答榜單VQA Leaderboard出現(xiàn)關(guān)鍵突破,阿里巴巴達(dá)摩院以81.26%的準(zhǔn)確率創(chuàng)造了新紀(jì)錄,讓AI在“讀圖會(huì)意”上首次超越人類基準(zhǔn)。
近10年來(lái),AI技術(shù)保持高速發(fā)展。然而在視覺(jué)問(wèn)答VQA(Visual Question Answering)這一涉及視覺(jué)-文本多模態(tài)理解的高階認(rèn)知任務(wù)上,AI始終未取得超越人類水平的突破。
自然語(yǔ)言技術(shù)與計(jì)算機(jī)視覺(jué)交融,是多模態(tài)領(lǐng)域重要的前沿研究方向。其中,VQA是AI領(lǐng)域難度最高的挑戰(zhàn)之一,對(duì)研發(fā)通用AI具有重要意義。
VQA的任務(wù)是根據(jù)給定圖片及自然語(yǔ)言問(wèn)題,生成正確的自然語(yǔ)言回答。
在首屆VQA挑戰(zhàn)賽上,AI的最高準(zhǔn)確率僅能達(dá)到55%。今年8月,達(dá)摩院以81.26%的準(zhǔn)確率創(chuàng)造VQA Leaderboard全球紀(jì)錄,首次超越人類基準(zhǔn)線80.83%。
這是VQA測(cè)試以來(lái),AI第一次超過(guò)人類水平,是標(biāo)志性的重大突破。