從2001年開始,每年《麻省理工科技評論(MIT technology Review)》都會評選出十大突破技術(shù),并預計其對人類生活和社會的重大影響。這些技術(shù)代表了當前世界科技的發(fā)展前沿和未來發(fā)展方向,反映了近年來世界科技發(fā)展的新特點和新趨勢。
近日,2016年度最新榜單公布,除了SpaceX的可回收火箭和特斯拉的自動駕駛技術(shù),榜單中還特別提到了中國的語音技術(shù),這也是本次評選入選的唯一一家來自中國科技公司的科技成果。
《麻省理工評論》認為,中國是發(fā)展語音接口的理想市場,因為使用微型觸摸屏來進行漢字輸入十分麻煩。不過,隨著百度在語音技術(shù)方面的不斷進步,語音接口變得更為實用和有效,人們可以更為便利的與身邊的設(shè)備進行互動。百度的深度語音識別系統(tǒng)(Deep Speech 2)包含了一個非常大的、“深”的神經(jīng)網(wǎng)絡(luò),它引入了數(shù)以百萬計的轉(zhuǎn)錄語音。有時它在識別漢語語音片段方面,要比人為識別更加準確。
去年9月召開的2015年百度世界大會上,百度首席科學家吳恩達曾現(xiàn)場演示語音識別技術(shù)。他表示,語音有很大的潛力改變?nèi)伺c設(shè)備的交互方式,“現(xiàn)在語音識別可能已達到95%的準確度,但很多人沒意識到95%的準確度到99%的準確度帶來的不是量變是質(zhì)變,是從你偶爾使用語音變到常常使用做到更自然。做到99%準確,將徹底改變?nèi)伺c設(shè)備的交互。”
2014年年底,吳恩達及其團隊發(fā)布了第一代深度語音識別系統(tǒng)Deep Speech,該系統(tǒng)使用了端對端的深度學習技術(shù),主要專注于提高嘈雜環(huán)境下的英語語音識別的準確率,在噪音環(huán)境下,Deep Speech系統(tǒng)出錯率要比谷歌、微軟以及蘋果的語音系統(tǒng)低10%以上。不僅如此,研究人員還加入了漢語語音查詢功能,識別準確率高達94%。(整理|3sNews 葛宇)
{{item.content}}