Facebook AI部門的研究員已經(jīng)創(chuàng)建了一個(gè)人工智能系統(tǒng),該系統(tǒng)可以直接讀取360度全景圖像中的自然語言、包含銀行、餐館等標(biāo)志性的地區(qū),然后就可以通過AI在紐約時(shí)的街道上導(dǎo)航。
據(jù)了解,這項(xiàng)名為Talk the Walk的研究項(xiàng)目以及數(shù)據(jù)集已經(jīng)開源。經(jīng)過培訓(xùn)后的系統(tǒng),可以完成兩項(xiàng)具體的任務(wù):1,旅游機(jī)器人向?qū)驒C(jī)器人描述周圍環(huán)境,然后根據(jù)周圍地圖的描述來向解析當(dāng)前位置。2,你只能在街區(qū)內(nèi)交叉路口走動(dòng),然后旅行社使用沒有街道指示牌的地圖來描繪所在位置。
Facebook AI研究科學(xué)家Douwe Kiela講到,這項(xiàng)任務(wù)匯集了多種不同的挑戰(zhàn),例如360度視覺感知、基于地圖的導(dǎo)航、視覺推理、通過對(duì)話進(jìn)行自然余元交流等,這些都是基于AI解決的問題,而該項(xiàng)目似乎是以上這些問題的集合,是一個(gè)全面的解決方案。
雖然360度視頻和地圖是訓(xùn)練系統(tǒng)的一部分,但任務(wù)和基準(zhǔn)數(shù)據(jù)主要集中在對(duì)話AI的推薦,他們目前采用多模式開發(fā)自然語言實(shí)踐理論。
為了達(dá)到理想中的溝通效果,無論是游客還是導(dǎo)游可能都能用到這套系統(tǒng)。
這是一項(xiàng)艱巨的挑戰(zhàn),也是我們將其開源的原因之一,并邀請(qǐng)大家共同來思考這類問題,Kiela說到。
{{item.content}}