觀點(diǎn)導(dǎo)讀:機(jī)器人是一個(gè)框,什么都能往里裝。但是我覺(jué)得真正意義上的機(jī)器人首先是能像人一樣具備智能,或者能完成一些原來(lái)必須要人才能完成的一些任務(wù)。有些服務(wù)機(jī)器人至少推出了有三年以上,但是為什么沒(méi)有火起來(lái)?最大的問(wèn)題就是它們沒(méi)有真正意義上解決目標(biāo)用戶核心的需求,沒(méi)有像智能手機(jī)一樣真正滿足了目標(biāo)人群。
整個(gè)機(jī)器人行業(yè)的發(fā)展目前還處于一個(gè)很初級(jí)的階段,機(jī)器人的功能和定位沒(méi)有一個(gè)標(biāo)準(zhǔn),業(yè)內(nèi)人士和用戶也有不同的期望值。我覺(jué)得短期之內(nèi)的突破點(diǎn)一個(gè)是細(xì)分市場(chǎng)痛點(diǎn)的需求,一個(gè)是在細(xì)分市場(chǎng)上做非常深度的定制優(yōu)化。
谷歌的AlphaGo,從人工智能角度來(lái)講還屬于弱人工智能。AlphaGo離我們真正的人工智能或者智能學(xué)習(xí)還是很遙遠(yuǎn)的,它只是一個(gè)非常初級(jí)的階段。
注:以下來(lái)自上海元趣創(chuàng)始人吳義堅(jiān)的分享。
機(jī)器人是一個(gè)筐,什么東西都可以往里裝。
1、人工智能和機(jī)器人行業(yè)的大背景
我先講一下大環(huán)境,人工智能和機(jī)器人相關(guān)的行業(yè)報(bào)告都說(shuō),從這兩年開始,(這個(gè)行業(yè))在接下來(lái)的五到十年都會(huì)高速增長(zhǎng)甚至市場(chǎng)爆發(fā)。
關(guān)于機(jī)器人的新聞很多,比如上個(gè)月谷歌發(fā)布了叫逆天的行走機(jī)器人。而關(guān)于機(jī)器人也有一些偏負(fù)面的新聞,比如你只要在網(wǎng)上搜索一下機(jī)器人殺人,排在前面的是一個(gè)德國(guó)機(jī)器人殺人事件;人工智能方面最近最火的就是AlphaGo和李世石的圍棋人機(jī)大戰(zhàn),在很多人看來(lái)這一天總會(huì)來(lái)臨,但是沒(méi)想到來(lái)臨得這么快。
人工智能也有負(fù)面新聞,霍金、馬斯克等人開始擔(dān)心人工智能將來(lái)有一天會(huì)威脅人類。其實(shí)我作為業(yè)內(nèi)人士看這些機(jī)器人、人工智能可能威脅人類的新聞時(shí)是有兩個(gè)心態(tài):
正面的就是,通過(guò)這些新聞吸引眼球有助于大家關(guān)注這個(gè)行業(yè)。另一方面也覺(jué)得這個(gè)炒作有點(diǎn)過(guò)了,其實(shí)從行業(yè)的角度來(lái)講人工智能或者機(jī)器人威脅人類這類聽起來(lái)危言聳聽的東西,理論上應(yīng)該是存在的,只是我們只能是無(wú)限地逼近它,其實(shí)是很難做到那一點(diǎn)的,至少在我的有生之年。
回到今天的主題機(jī)器人與人工智能。
2、機(jī)器人包含哪些?市場(chǎng)有多大?
機(jī)器人是一個(gè)筐,什么東西都可以往里裝。
只要是一個(gè)機(jī)器,加了一點(diǎn)點(diǎn)跟智能相關(guān)的東西之后,甚至說(shuō)只要加上wifi模塊,它就可以叫智能機(jī)器人了。比方說(shuō)有一種煮蛋機(jī)器人,其實(shí)本質(zhì)就是一個(gè)電飯煲。其實(shí)這地方有一些東西所謂的概念和真正意義上的機(jī)器人還是不一樣的。
第二個(gè)就是人工智能,人工智能字面意思看起來(lái)很簡(jiǎn)單,但是到底包含哪些東西?這里面還是有很多認(rèn)不是很清楚的,我后面也會(huì)稍微講一下,包括我們現(xiàn)在的技術(shù)水平。
機(jī)器人,在百度百科上的嚴(yán)格的定義是自動(dòng)執(zhí)行工作的機(jī)械裝置,也是可以受人類指揮,或者以人工智能的方式運(yùn)行,任務(wù)是協(xié)助和取代人類工作。
所以從這個(gè)定義上講,某些自動(dòng)執(zhí)行工作的確實(shí)也可以叫機(jī)器人,雖然它和我們期待的機(jī)器人不一樣,但從這個(gè)定義上講,或者從比較早期的寬泛定義上講確實(shí)可以。盡管如此,我覺(jué)得真正意義上的機(jī)器人首先是能像人一樣具備智能,或者能完成一些原來(lái)必須要人才能完成的一些任務(wù)。
機(jī)器人具體分為這幾大類:工業(yè)機(jī)器人,專業(yè)機(jī)器人,服務(wù)機(jī)器人。
工業(yè)機(jī)器人,理論上講是指所有在產(chǎn)線上可以自動(dòng)化執(zhí)行任務(wù),或者加一些感應(yīng)裝置,可以做一些隨機(jī)應(yīng)變的機(jī)器,這些寬泛地講都是工業(yè)機(jī)器人,我本人在這方面不擅長(zhǎng),今天就不講了。
第二大類是專業(yè)機(jī)器人,包括軍用、醫(yī)療、潛水等機(jī)器人。
第三大塊,也是我今天主要講的是服務(wù)機(jī)器人,包含商用和家庭用兩種。
3、服務(wù)機(jī)器人有哪些類別?
另外,我認(rèn)為的機(jī)器人一定涉及到人機(jī)交互,尤其是這種服務(wù)機(jī)器人類。人的交互方式很簡(jiǎn)單了,語(yǔ)音,觸摸,還有體感,所以涉及到聽覺(jué)、視覺(jué)、觸摸、按鍵,包括遙控,都屬于人機(jī)交互的模式。
第一大類就是商業(yè)用的服務(wù)機(jī)器人
看這張圖片,是銀行客服的機(jī)器人,第二個(gè)是餐廳的機(jī)器人,切菜,做刀削面的機(jī)器人。
刀削面機(jī)器人
這些機(jī)器人的特點(diǎn),一是外形擬人,在行業(yè)里提供一些特定功能或者信息服務(wù)。這地方其實(shí)有兩大類功能,一是替代人工,比如刀削面機(jī)器人;還有一個(gè)重要的功能是吸引眼球,這是一個(gè)商用機(jī)器人或者展覽用機(jī)器人最大的一個(gè)功能點(diǎn),因?yàn)槲矍蚓湍軐?dǎo)流,這一點(diǎn)從目前的商用服務(wù)機(jī)器人整個(gè)來(lái)說(shuō)還是比較初級(jí)的階段。
另外就是家用服務(wù)機(jī)器人
這里面我想先提一下掃地機(jī)和無(wú)人機(jī),其實(shí)以我個(gè)人的定義我不太傾向于把它們叫做機(jī)器人,它們更多是機(jī)器智能化,也就是機(jī)器加功能再加智能。我今天要講的機(jī)器人定位是擬人的,在機(jī)器人的基礎(chǔ)上加交互體驗(yàn),再體現(xiàn)它的功能。
家用服務(wù)機(jī)器人和商用服務(wù)機(jī)器人不一樣的呢?它更多屬于消費(fèi)類電子產(chǎn)品,不管是掃地機(jī)也好,無(wú)人機(jī)也好,一定要在某一方面滿足終端消費(fèi)者需求,甚至是個(gè)性化的需求。它不像B端,沒(méi)有實(shí)用功能或者實(shí)用功能不是那么強(qiáng)的時(shí)候還可以通過(guò)吸引眼球?qū)崿F(xiàn)導(dǎo)流功能。
我先給大家看一下國(guó)際上的一些比較知名的家庭機(jī)器人。
Pepper目前的定位是商用信息服務(wù)機(jī)器人,阿里巴巴也投資了,我還是把它放在家庭機(jī)器人范疇,因?yàn)樗奈磥?lái)發(fā)展目標(biāo)還是定位在家庭,它的交互性能做得還可以,形態(tài)、品質(zhì)在整個(gè)家庭機(jī)器人里面也是比較好的,尤其是已經(jīng)量產(chǎn)了,家庭機(jī)器人里面很多比如說(shuō)阿西莫機(jī)器人還只是概念產(chǎn)品。
另外一個(gè)是叫Nao的機(jī)器人,這個(gè)機(jī)器人四五年前就有了,是法國(guó)的一家公司做的,目前主要的應(yīng)用場(chǎng)景是在家庭里面比如說(shuō)小孩子的教育。
Nao
前面這兩個(gè)機(jī)器人長(zhǎng)遠(yuǎn)的目標(biāo)是想做成家庭機(jī)器人,但是它們的實(shí)用化功能還沒(méi)有達(dá)到終端消費(fèi)品的期望值,目前更多的應(yīng)用場(chǎng)景是在商用場(chǎng)所。
第三個(gè)是前年年底左右在國(guó)際上做眾籌的Jibo機(jī)器人,它一開始定位就是家用的,可以拍照,輔助人做一些事情(比如回復(fù)一些信息,跟小孩子互動(dòng)等)。但是大家都知道眾籌的很多產(chǎn)品都會(huì)跳票,Jibo到目前為止還沒(méi)有發(fā)送,國(guó)內(nèi)應(yīng)該在年內(nèi)上市。
還有一個(gè)機(jī)器人是Buddy,法國(guó)的一家公司做的,它更多的側(cè)重于家庭的監(jiān)控和安防,你可以遠(yuǎn)程控制這個(gè)機(jī)器人,也可以進(jìn)行遠(yuǎn)程溝通,目前應(yīng)該也還沒(méi)有正式量產(chǎn)。
Buddy
另外說(shuō)一下Amazon Echo,它其實(shí)不是機(jī)器人而是更像siri,你可以跟它語(yǔ)音互動(dòng),聽新聞之類,雖然外形跟機(jī)器人不一樣,但它提供了人機(jī)互動(dòng)和助手服務(wù)等家庭服務(wù)機(jī)器人的功能。
Amazon Echo
國(guó)內(nèi)現(xiàn)在家庭機(jī)器人很多,寬泛地講有上千種
小魚在家機(jī)器人主打的是遠(yuǎn)程陪伴,就是你可以像微信或者蘋果的facetime一樣跟家人進(jìn)行遠(yuǎn)程雙向視頻互動(dòng),它里面也有類似Siri一樣的語(yǔ)音助手功能。
公子小白的機(jī)器人主打是陪伴家人,或者年輕情侶的機(jī)器人,它分男孩版和女孩版,可以語(yǔ)音交互,聊天調(diào)侃,講講笑話什么的。
這里面我稍微提一下,現(xiàn)在國(guó)內(nèi)絕大部分,應(yīng)該是95%以上的機(jī)器人里面用的人工智能核心技術(shù)都是集成類似科大訊飛的第三方技術(shù)。大家也在問(wèn),我們機(jī)器人用的是哪一家的技術(shù)?我這里說(shuō)明一下,我們的語(yǔ)音交互技術(shù)也是自主研發(fā)的,在這點(diǎn)上Rokid機(jī)器人和我們是類似的,它的語(yǔ)音技術(shù)也是自己研發(fā)的,Rokid的外形其實(shí)是一個(gè)非常酷炫的音響,你可以跟它語(yǔ)音互動(dòng),它會(huì)有一些比較擬人的反應(yīng)。
為什么我要提自己研發(fā)語(yǔ)音技術(shù)這一點(diǎn)?因?yàn)槿斯ぶ悄苤姓Z(yǔ)音交互這個(gè)技術(shù)大家見到最多的就是Siri, Siri的體驗(yàn)離期望值的差距還是非常大的,這也是為什么需要持續(xù)對(duì)這些技術(shù)進(jìn)行性能迭代優(yōu)化。而第三方提供的技術(shù)是通用的,通用的技術(shù)很難達(dá)到客戶的實(shí)用化需求,更不要說(shuō)個(gè)性化需求。叮咚音響是科大訊飛推出的一個(gè)產(chǎn)品,訊飛做人工智能和語(yǔ)音交互是非常領(lǐng)先的,他們以前更多的是提供技術(shù)給第三方,現(xiàn)在也推出一個(gè)音響類的語(yǔ)音交互及個(gè)人助手類產(chǎn)品。
類似這樣的機(jī)器人還有很多:做一個(gè)機(jī)器人的外形,外加集成一些語(yǔ)音交互以及人臉,物體識(shí)別功能。
兒童機(jī)器人主要是兩大類產(chǎn)品:玩具和學(xué)習(xí)機(jī)
玩具類機(jī)器人有上春晚的這個(gè)跳舞機(jī)器人,你可以在很多展會(huì)上看到,小孩子可以跟它玩,就跟遙控車一樣。但是所有的玩具會(huì)涉及到一個(gè)問(wèn)題,小孩子基本上都是一陣子的新鮮感,家長(zhǎng)一般不太愿意花非常多的錢,因此單件的玩具價(jià)格很難上去。學(xué)習(xí)機(jī)是不一樣的,包括步步高點(diǎn)讀機(jī)、小天才學(xué)習(xí)機(jī),中國(guó)的家長(zhǎng)還是愿意在小孩子學(xué)習(xí)、早教上面花錢的,大家都知道各種各樣的早教班花費(fèi)是非常多的。
小優(yōu)機(jī)器人是學(xué)習(xí)類機(jī)器人里面比較有代表性的,已經(jīng)迭代了有三代了,外形一直沒(méi)有變過(guò):機(jī)器人的外形,胸前是一個(gè)PAD觸摸平板,相當(dāng)于既是一個(gè)機(jī)器人也是一個(gè)學(xué)習(xí)機(jī)。另外現(xiàn)在還有很多幼教機(jī)器人,就是把手機(jī)或者平板套一個(gè)殼,然后裝一個(gè)迅飛或者其他家的語(yǔ)音助手就可以作為一個(gè)機(jī)器人去賣了,這類機(jī)器人價(jià)格很便宜基本上就是山寨機(jī)的做法。
4、服務(wù)機(jī)器人之前怎么就火不起來(lái)?
這上面這些機(jī)器人,不管是小優(yōu)機(jī)器人、阿爾法機(jī)器人,至少推出了有三年以上,但是到目前來(lái)說(shuō)還沒(méi)有火起來(lái),最大的問(wèn)題就是它們沒(méi)有真正意義上解決一個(gè)目標(biāo)用戶核心的需求,沒(méi)有像我們的智能手機(jī)一樣真正滿足了目標(biāo)人群的核心需求。
我們需要思考這些家庭機(jī)器人到底解決了什么問(wèn)題?到底是一個(gè)痛點(diǎn)問(wèn)題還是一個(gè)癢點(diǎn),到底有沒(méi)有實(shí)用價(jià)值還是只是一個(gè)噱頭?家庭機(jī)器人也有要特別考慮的問(wèn)題,到底是服務(wù)這個(gè)家庭某一個(gè)特定人群,還是所有成員,就像家用冰箱一樣。
家庭機(jī)器人大多強(qiáng)調(diào)智能家居入口概念,但是現(xiàn)在基本上除了小孩子每個(gè)人都有智能手機(jī),現(xiàn)在很多智能硬件產(chǎn)品都要結(jié)合手機(jī),家庭機(jī)器人PK智能手機(jī)到底有什么突出優(yōu)勢(shì)?掃地機(jī)器人目前在家庭機(jī)器人里已經(jīng)算做得不錯(cuò)很普及了,滿足了用戶的剛需和痛點(diǎn),但還是有掃不干凈的問(wèn)題,就這么一個(gè)簡(jiǎn)單的事情都沒(méi)有完美解決,更別說(shuō)其他功能的家庭機(jī)器人。
比如說(shuō)主打陪伴功能的,真的能做到像科幻電影里面的那種效果是很難,因?yàn)橹皇亲鲆粋€(gè)語(yǔ)音互動(dòng)都難稱滿意,更別說(shuō)人機(jī)交互,大家都知道Siri那個(gè)聲音聽起來(lái)是怎么樣的,包括微軟的小冰,看看文字還可以,一聽聲音效果立馬大打折扣??蛻魧?duì)主打陪伴產(chǎn)品的人機(jī)交互情感效果期望值是很高的,這點(diǎn)目前技術(shù)還差得很遠(yuǎn)。
兒童機(jī)器人是有剛需的,看你是不是真的能很好地滿足用戶的剛需。做成多功能型的,還是主打一個(gè)功能?還有最大的問(wèn)題就是小孩子的新鮮感與長(zhǎng)期使用的黏性問(wèn)題,小孩子到底愿意使用它多長(zhǎng)時(shí)間?最后一點(diǎn)就是這個(gè)兒童機(jī)要同時(shí)做到小孩子喜歡和家長(zhǎng)放心,屏幕可能傷眼睛,游戲可能造成沉迷,就像平板電腦小孩子都喜歡玩但是家長(zhǎng)不放心,這個(gè)市場(chǎng)是家長(zhǎng)掏錢給小孩子使用,因此兩個(gè)方面都要滿足到。
關(guān)于屏幕傷眼睛這個(gè)問(wèn)題,我自己做這個(gè)產(chǎn)品的時(shí)候也會(huì)涉及到這個(gè)問(wèn)題,稍微澄清一下,理論上講所有的屏幕都會(huì)傷眼睛,不管是大還是小,甚至你長(zhǎng)時(shí)間看書也會(huì)傷眼睛。對(duì)于保護(hù)眼睛,其實(shí)主要是兩點(diǎn),一是距離多遠(yuǎn),二是看多長(zhǎng)時(shí)間,這才是最關(guān)鍵的。
整個(gè)機(jī)器人行業(yè)的發(fā)展目前還是很初級(jí)的一個(gè)階段,機(jī)器人的功能和定位沒(méi)有一個(gè)標(biāo)準(zhǔn),業(yè)內(nèi)人士和用戶也有不同的期望值。我覺(jué)得短期之內(nèi)的突破點(diǎn)一個(gè)是細(xì)分市場(chǎng)痛點(diǎn)的需求。一個(gè)是在細(xì)分市場(chǎng)上做非常深度的定制優(yōu)化。當(dāng)然長(zhǎng)期趨勢(shì)來(lái)看機(jī)器人行業(yè)還是非常清晰的,就像人手一個(gè)手機(jī)一樣,未來(lái)肯定是每個(gè)人都會(huì)有機(jī)器人,但是這個(gè)機(jī)器人是滿足單一的需求還是滿足多樣化的需求,滿足特定一個(gè)人的需求還是滿足一個(gè)家庭的需求,這個(gè)地方目前來(lái)說(shuō)還不是特別的清晰。
如何定義人工智能?
我講一下第二大塊的人工智能部分。
人工智能的基本定義就是研究、開發(fā)用于模擬、延伸和擴(kuò)展人的智能的理論、方法、技術(shù)的應(yīng)用?;旧暇褪悄M人的思考問(wèn)題和反應(yīng)方式。
我把人工智能分成三個(gè)階段:弱人工智能,強(qiáng)人工智能和超人工智能。
比如谷歌的AlphaGo,從人工智能角度來(lái)講屬于弱人工智能,它只是擅長(zhǎng)某一個(gè)方面,某一個(gè)特定領(lǐng)域的某一小點(diǎn),利用機(jī)器擅長(zhǎng)的運(yùn)算能力做到了極致甚至超過(guò)了人類,但是在某一個(gè)領(lǐng)域真正的理解方面,它的人工智能還是屬于非常弱的。
強(qiáng)人工智能是什么呢?它不是單一功能,而是能做很多像人一樣的智能水平的事情,就是人類能干的腦力活它應(yīng)該大部分能干,甚至跟人相當(dāng)于同一個(gè)水平。
最后是超人工智能,人工智能跨過(guò)強(qiáng)人工智能往超人工智能轉(zhuǎn)化,可能就是一瞬間的事情,從理論上講確實(shí)是有這種可能性的。因?yàn)槿祟愡M(jìn)化就是一個(gè)緩慢的過(guò)程,而機(jī)器的特點(diǎn)是運(yùn)算比人強(qiáng),存儲(chǔ)比人強(qiáng),進(jìn)化速度比人強(qiáng)。
AlphaGO可以在幾天之內(nèi)運(yùn)行幾千萬(wàn)盤棋譜,但人也有擅長(zhǎng)的地方,比如概念認(rèn)知是人類天生的,這個(gè)東西目前為止現(xiàn)在還沒(méi)有任何的基礎(chǔ)理論能讓機(jī)器自己認(rèn)知一個(gè)概念,更別說(shuō)一些自動(dòng)推理、規(guī)劃、決策,機(jī)器只能在人定義的范圍之內(nèi)做規(guī)劃和決策。
認(rèn)知上面比如說(shuō)語(yǔ)音識(shí)別,現(xiàn)在機(jī)器做得還不錯(cuò),通用的語(yǔ)言理解基本上現(xiàn)在都做不到?,F(xiàn)在真正的人工智能涉及的主要領(lǐng)域就是這些地方:類人智能感知、聽覺(jué)、視覺(jué)、嗅覺(jué)這些基本上都能做到了,當(dāng)然機(jī)器擅長(zhǎng)和不擅長(zhǎng)的地方跟人不一樣。比如說(shuō)觸覺(jué),現(xiàn)在機(jī)器還不能像人一樣感知那么細(xì)膩,但是在聽覺(jué)和視覺(jué)方面,機(jī)器在某些方面甚至比人還要強(qiáng),比如說(shuō)在基礎(chǔ)視覺(jué)方面機(jī)器在黑暗的環(huán)境下看的比人要清楚,但是涉及到一些抽象視覺(jué)感知現(xiàn)在機(jī)器還是接近于0。另外在信息反饋方面機(jī)器在性格、感情表達(dá)方面還做不到。
1、語(yǔ)音技術(shù)的發(fā)展
我本人做語(yǔ)音交互做了十幾年,接下來(lái)我會(huì)側(cè)重講這個(gè)方面,涉及一些基礎(chǔ)的東西包括深入學(xué)習(xí),也會(huì)順帶講一下計(jì)算機(jī)視覺(jué)。
語(yǔ)音技術(shù)研究從五十年代就開始了,一直到九十年代都是在做很多基礎(chǔ)的研發(fā),深度學(xué)習(xí)大概在距今10年左右得到了非常大的突破。整個(gè)語(yǔ)音技術(shù)的發(fā)展是這樣的:基礎(chǔ)研究從簡(jiǎn)單的任務(wù)開始,比如一開始是識(shí)別十個(gè)數(shù)字,到后面的孤立詞,然后到連續(xù)語(yǔ)流,從最早的特定說(shuō)話人到現(xiàn)在的所有的說(shuō)話人,從早期的安靜環(huán)境、受限環(huán)境到現(xiàn)在的復(fù)雜環(huán)境,這是整個(gè)語(yǔ)音技術(shù)發(fā)展的歷史?,F(xiàn)在很多場(chǎng)景下大家都能夠看到一些語(yǔ)音識(shí)別的成熟應(yīng)用了。
所有的語(yǔ)音識(shí)別和模式識(shí)別都是一樣的,首先要把一個(gè)語(yǔ)音信號(hào)做特征提取,然后再做一個(gè)模型匹配。我們這里有兩個(gè)模型,一個(gè)是聲學(xué)模型,還有一個(gè)語(yǔ)言模型,聲學(xué)模型就是人的聲音是怎么發(fā)出來(lái),語(yǔ)言模型有點(diǎn)像拼音輸入法,把聽出來(lái)的聲音對(duì)應(yīng)到某一個(gè)字。
2、深度學(xué)習(xí)如何應(yīng)用到語(yǔ)音中?
深度網(wǎng)絡(luò)學(xué)習(xí)算法DNN是怎么應(yīng)用到語(yǔ)音的?其實(shí)用的就是在聲學(xué)模型里面的。在過(guò)去的十年之內(nèi),任何一個(gè)語(yǔ)音的單項(xiàng)技術(shù)能做到10%準(zhǔn)確率的提升,都是很了不得的,但是DNN能做到30%以上提升,是非常大的一個(gè)突破。DNN是替代了以前的HMM或者GMM,大家稍微有點(diǎn)基礎(chǔ)的就知道概率分布, GMM就是高斯分布,就是你最有可能出現(xiàn)在什么地方可以算一個(gè)概率,這個(gè)是傳統(tǒng)的概率論。DNN不是這樣的,其實(shí)神經(jīng)網(wǎng)絡(luò)在七十年代就已經(jīng)出現(xiàn)了,但是它為什么一直沒(méi)有很大規(guī)模使用呢?就是因?yàn)橐郧皞鹘y(tǒng)的神經(jīng)網(wǎng)絡(luò)雖然理論都有很多層,但是實(shí)際上應(yīng)用只有一層,一個(gè)原因是那時(shí)候沒(méi)有很好的訓(xùn)練算法,第二個(gè)是運(yùn)算量巨大,當(dāng)時(shí)的計(jì)算機(jī)根本沒(méi)有辦法算。大家都知道AlphaGO的機(jī)器配了很多的GPU,這個(gè)也是近這幾年GPU運(yùn)算能力的擴(kuò)張才使得這個(gè)算法得以實(shí)現(xiàn)。
傳統(tǒng)單層的神經(jīng)網(wǎng)絡(luò)就很簡(jiǎn)單,左邊這個(gè)是輸入的信號(hào),比如語(yǔ)音信號(hào)提取的數(shù)據(jù)輸入到這個(gè)里面去,所有的連接都是一些參數(shù),需要提前訓(xùn)練好,然后輸入就是說(shuō)這個(gè)參數(shù)對(duì)應(yīng)到這個(gè)模型是什么?,F(xiàn)在DNN發(fā)展到十層甚至到十幾層,而且每一層有一千個(gè)甚至幾千個(gè)節(jié)點(diǎn),這里面參數(shù)有幾百萬(wàn)甚至上千萬(wàn),傳統(tǒng)的訓(xùn)練算法根本做不了這個(gè)事情。
我們現(xiàn)在用的聲學(xué)模型基本上有四五層以上,每一層都有1024×1024個(gè)節(jié)點(diǎn),輸出的音有幾千個(gè),甚至上萬(wàn)個(gè)。這么多的參數(shù)怎么在系統(tǒng)中做好,我通過(guò)這個(gè)圖講一下基本的原理:你看我輸了這個(gè)語(yǔ)音數(shù),輸入這些參數(shù)之后它自動(dòng)往后擴(kuò)張,所有的參數(shù)乘以這個(gè)系數(shù),然后在這里得出一個(gè)得分,然后這地方就算出一系列的值來(lái),這一系列的值再往后擴(kuò)張,一直到最后這個(gè)就是我們的聲音的得分。比如這個(gè)節(jié)點(diǎn)是a,你這一組節(jié)點(diǎn)進(jìn)去得到a的概率是多少。我們?cè)僬f(shuō)一下人臉識(shí)別,人臉圖像也是一組參數(shù)輸入進(jìn)來(lái),通過(guò)這個(gè)網(wǎng)絡(luò)往后走,在一千個(gè)或者一萬(wàn)個(gè)人臉庫(kù)中,每個(gè)人臉匹配的概率值中找一個(gè)最大的。DNN訓(xùn)練就是你已經(jīng)有大量的數(shù)據(jù),你已經(jīng)知道輸入是什么,輸出是什么,通過(guò)這里面所有的樣本去調(diào)這幾百萬(wàn)個(gè)參數(shù)。具體算法就不講了,是非常非常復(fù)雜、運(yùn)算量非常大的,這就是為什么要靠GPU來(lái)計(jì)算,如果要靠CPU,上萬(wàn)臺(tái)服務(wù)器可能都不夠。
3、谷歌的AlphaGO強(qiáng)在哪里?
下面我具體講一下谷歌的AlphaGO,比賽我相信大家都看了,相關(guān)的論文和報(bào)道在網(wǎng)上都有了。我再簡(jiǎn)單地講一下它的原理,里面涉及到兩塊,左邊這一塊就是傳統(tǒng)的機(jī)器學(xué)習(xí),已經(jīng)有大量高手對(duì)決棋譜樣本在那兒了,就像我們大量的語(yǔ)音和圖像數(shù)據(jù)。還有一個(gè)部分就是它學(xué)成模型后自己跟自己對(duì)弈,然后可以調(diào)一組參數(shù),對(duì)弈完之后如果發(fā)現(xiàn)這個(gè)更好,就去加強(qiáng),往這個(gè)方向去調(diào)整。就像你每天自己練,可以發(fā)現(xiàn)某一招更好。機(jī)器的學(xué)習(xí)速度是很快的,這個(gè)就是它比人類強(qiáng)的地方,因?yàn)槿祟惛呤制遄V幾萬(wàn)或者幾十萬(wàn)就不得了,但是他自己跟自己對(duì)弈可能有上億盤那么多。
大家知道為什么圍棋難下呢?中國(guó)象棋是比較容易用人工智能模擬的,因?yàn)樗哪繕?biāo)比較清晰吃掉帥就算贏了,而且象棋落子的可能性也少很多。但是在圍棋上面是不行的,圍棋的變化可能比地球上所有沙子的數(shù)目加起來(lái)還多。其實(shí)業(yè)界拿圍棋做一個(gè)實(shí)驗(yàn)場(chǎng)地優(yōu)化人工智能算法已經(jīng)有五到十年了,原理比較簡(jiǎn)單,就是局部分析和全局分析。局部分析就是下棋的時(shí)候可以算一個(gè)局部最優(yōu),因?yàn)榫植康目臻g比較小。另一方面下圍棋時(shí)全局觀非常重要,所以谷歌用DNN做了另外一個(gè)事情,可以評(píng)估出當(dāng)前做法在全局上的獲勝概率是多少。通過(guò)這兩種方式,就兼顧了局部最優(yōu)和全局最優(yōu)。
圍棋每一個(gè)點(diǎn)可能對(duì)應(yīng)的是兩百種可能,兩百種以內(nèi)選一種下法的意思是在輸入端相當(dāng)于下法,輸出點(diǎn)是每一種下法對(duì)應(yīng)來(lái)做一個(gè)最優(yōu)的選擇。在這個(gè)系統(tǒng)里面,每一個(gè)可能的落子點(diǎn)都算過(guò)得分。
AlphaGo的人工智能和別家有什么樣的區(qū)別?
我們的語(yǔ)音數(shù)據(jù)一般要幾千個(gè)小時(shí),甚至要上萬(wàn)個(gè)小時(shí)才能訓(xùn)練出一個(gè)性能還不錯(cuò)的神經(jīng)網(wǎng)絡(luò)。圍棋方面我覺(jué)得高手的棋局沒(méi)有那么多,AlphaGo應(yīng)該更多的是通過(guò)后面自學(xué)習(xí)的方式提高的。當(dāng)然前提是先通過(guò)已有棋局訓(xùn)練出一個(gè)不錯(cuò)的系統(tǒng)。
AlphaGo的訓(xùn)練具體是指什么?
訓(xùn)練的是所有神經(jīng)網(wǎng)絡(luò)的參數(shù)。
首先調(diào)參數(shù)并不是人在調(diào),人調(diào)整的只是策略,比如定義多少層網(wǎng)絡(luò),用什么樣的訓(xùn)練策略。但是具體神經(jīng)網(wǎng)絡(luò)里面的參數(shù),現(xiàn)在沒(méi)有人能解釋幾百萬(wàn)上千萬(wàn)個(gè)參數(shù)具體有什么意義,它有點(diǎn)像一個(gè)黑盒子。在傳統(tǒng)的統(tǒng)計(jì)模型里面,概率分布是很好解釋的,比如說(shuō)老人跟小孩子的聲音為什么不一樣,因?yàn)樗l譜這邊有一個(gè)共振峰,在那個(gè)位置有一個(gè)高低分布,都有一個(gè)物理解釋。
DNN里面的參數(shù)是沒(méi)辦法解釋的,但是它確實(shí)很強(qiáng)大,這就像我們無(wú)法解釋人腦一樣的。
宏博說(shuō)他一開始低估了AlphaGo,覺(jué)得它肯定下不過(guò)李世石,因?yàn)檠邪l(fā)團(tuán)隊(duì)里并沒(méi)有頂級(jí)圍棋高手給它做策略指導(dǎo),雖然可以借鑒大量的歷史棋局,但是單純地模仿高手下法或許可以達(dá)到職業(yè)初段選手的水平,真正面對(duì)頂尖職業(yè)高手時(shí)必然會(huì)出現(xiàn)應(yīng)變不足的情況,因?yàn)閲宓淖兓瘜?shí)在是天量的,運(yùn)算能力再?gòu)?qiáng)也無(wú)法窮盡,對(duì)目前依靠機(jī)器深度自我學(xué)習(xí)是否能達(dá)到頂尖職業(yè)棋手水平還抱懷疑態(tài)度。
實(shí)際從第一局棋看來(lái),AlphaGo有一些下法我們國(guó)內(nèi)的一些頂尖的高手都沒(méi)有想到,賽后谷歌的工程師也說(shuō)到AlphaGo現(xiàn)在已經(jīng)不再依賴棋譜,它已經(jīng)把圍棋游戲規(guī)則和基本套路完全吃透,實(shí)現(xiàn)了以獲勝為目標(biāo)嚴(yán)格按照策略和價(jià)值模型自我學(xué)習(xí)自我優(yōu)化,即人工智能的增強(qiáng)學(xué)習(xí)概念,這個(gè)是AlphaGo真正可怕的地方,后面隨著模型不斷優(yōu)化進(jìn)步人類選手將越來(lái)越難以戰(zhàn)勝它了。
谷歌強(qiáng)就強(qiáng)在使機(jī)器可以做基礎(chǔ)的學(xué)習(xí)。
AlphaGo可以自我對(duì)弈,然后找到更好的策略,而且它的進(jìn)化速度遠(yuǎn)比我們?nèi)丝?。但是這里我要稍微說(shuō)明一下,深度學(xué)習(xí)更多的是一種抽象的概念,就是不要學(xué)表面的,而是學(xué)深層的。深度神經(jīng)網(wǎng)絡(luò)也是深度學(xué)習(xí)的一種體現(xiàn),也是目前大家都在用的。其實(shí)反過(guò)來(lái)說(shuō),雖然AlphaGo在圍棋上面很可怕,但其實(shí)它離真正人類的學(xué)習(xí)還是差很遠(yuǎn)的,或者說(shuō)它還是在做模式識(shí)別或者模式訓(xùn)練,雖然它有一些自我學(xué)習(xí)的概念,但只是一個(gè)很小的單一目標(biāo)任務(wù)上的訓(xùn)練,或者說(shuō)參數(shù)的優(yōu)化。這個(gè)還不是真正意義上說(shuō)的概念認(rèn)知,甚至說(shuō)AlphaGo都不知道下棋這個(gè)概念,對(duì)它而言下棋只是一個(gè)任務(wù)、一個(gè)目標(biāo)。我覺(jué)得AlphaGo離我們真正的人工智能或者智能學(xué)習(xí)還是很遙遠(yuǎn)的,它只是一個(gè)非常初級(jí)的階段。
回到語(yǔ)音這一塊,大家可以看到整個(gè)語(yǔ)音的發(fā)展歷史是很慢的,前后差不多有30年都是徘徊在識(shí)別率突破不了90%的水平,而人類在各種環(huán)境的識(shí)別率達(dá)到98%或99%以上。目前的語(yǔ)音識(shí)別差不多在安靜環(huán)境下面識(shí)別率可以接近95%,其實(shí)更多的是在各種環(huán)境下面。在復(fù)雜的環(huán)境下面,現(xiàn)在的語(yǔ)音識(shí)別準(zhǔn)確率還不高,不管是噪聲環(huán)境,或者有口音,甚至語(yǔ)速過(guò)快的情況,在更復(fù)雜的環(huán)境更不要說(shuō)了。
另外說(shuō)一下語(yǔ)音合成,它是把輸入文字變成聲音,科大訊飛最早就是做語(yǔ)音合成出來(lái)的。語(yǔ)音合成大家感覺(jué)在某種場(chǎng)合下可以用,比如播天氣預(yù)報(bào)或者播語(yǔ)音導(dǎo)航,這些都是合成技術(shù),聽著沒(méi)有什么問(wèn)題。再往后,比如朗讀小說(shuō)等絕大部分也還可以接受。但是到對(duì)話聊天,比如陪伴機(jī)器人,聲音傳遞的信息除了文字以外還有情感、情緒、個(gè)性,目前來(lái)看語(yǔ)音合成還很難滿足需要。
語(yǔ)義分析就更難了,只是從技術(shù)層面上講,分析一些特定領(lǐng)域的東西是可以的,比如打電話給某某,不管原來(lái)傳統(tǒng)的基于規(guī)則的,還是基于統(tǒng)計(jì)的,基本上都可以做得很好。但是開放式的語(yǔ)義理解就會(huì)非常困難,尤其是一些新的概念。目前大家看到的語(yǔ)義分析也好,包括AlphaGo的理解,機(jī)器還是屬于非常初級(jí)的階段,都是人預(yù)先設(shè)定告訴它這是什么東西,而不是它自身能自我從這里面能學(xué)習(xí)到的,所以更多的是訓(xùn)練而不是叫學(xué)習(xí)。
目前的語(yǔ)義理解技術(shù)分為兩大塊,一個(gè)是在通用領(lǐng)域,它基于一個(gè)海量知識(shí)庫(kù)去匹配的回答出來(lái)。比如說(shuō)查今天的天氣,這種任務(wù)他是理解的,但是如果真的聊天調(diào)侃,表面上好像理解了,但是其實(shí)從技術(shù)層面上它并不存在理解,這只是一個(gè)知識(shí)庫(kù)的匹配,或者統(tǒng)計(jì)的分類。在特定領(lǐng)域這種語(yǔ)音技術(shù)雖然說(shuō)還不夠好,但是其實(shí)只要做到足夠多的深度定制,基本上是可以達(dá)到實(shí)用的。比如IBM的Watson,它對(duì)一般的醫(yī)療問(wèn)題甚至可以給出比普通醫(yī)生還要好的建議。
再簡(jiǎn)單介紹一下計(jì)算機(jī)視覺(jué)。
它從人工智能或者機(jī)器學(xué)習(xí)的角度上和語(yǔ)音識(shí)別原理是一樣的,因?yàn)檎Z(yǔ)音信號(hào)是一個(gè)一維的模型,圖像是一個(gè)二維的,而視頻相當(dāng)于一個(gè)二維圖像的時(shí)間序列。剛才已經(jīng)給大家看過(guò)了語(yǔ)音的識(shí)別過(guò)程,深度學(xué)習(xí)的框架是一樣的,唯獨(dú)不同的是特征提取,你要把特定領(lǐng)域的東西找到一定的信號(hào)輸入進(jìn)去。
現(xiàn)在計(jì)算機(jī)視覺(jué)在人臉識(shí)別,包括一些物體的檢測(cè)都可以號(hào)稱在國(guó)際上有一個(gè)專門的測(cè)試上面可以做到99%了,但是實(shí)驗(yàn)室的測(cè)試和實(shí)際環(huán)境是不一樣的,化妝、光線、角度等因素對(duì)人類識(shí)別能力影響不大,但是對(duì)機(jī)器而言就很難了,因?yàn)樗鼘W(xué)習(xí)的這套機(jī)制跟人腦的機(jī)制理解是完全不一樣的。
人工智能的產(chǎn)業(yè)格局跟機(jī)器人不一樣,因?yàn)闄C(jī)器人這個(gè)行業(yè)里面還沒(méi)有什么巨頭,市場(chǎng)還沒(méi)有起來(lái)。人工智能基本上都是國(guó)際、國(guó)內(nèi)的巨頭在做——
谷歌、facebook、蘋果、微軟、Amazon,可以看到全球互聯(lián)網(wǎng)、終端類大公司基本上都在做。
國(guó)內(nèi)最強(qiáng)的應(yīng)該是百度,也是以技術(shù)擅長(zhǎng)的一家公司,百度擁有語(yǔ)音圖像、深度學(xué)習(xí)實(shí)驗(yàn)室,在AI上面的投入水平確實(shí)在國(guó)際上是排得上的。阿里、騰訊相對(duì)弱一些。阿里做了一些語(yǔ)音技術(shù)和人工智能的布局,也投資了Pepper。騰訊這方面更多的是應(yīng)用,他們目前的技術(shù)儲(chǔ)備還是不夠的??拼笥嶏w本身是做人工智能出身,包括傳統(tǒng)的語(yǔ)音識(shí)別和合成,還有現(xiàn)在的超腦計(jì)劃,訊飛也聯(lián)合了很多國(guó)內(nèi)外的研發(fā)機(jī)構(gòu),我認(rèn)為現(xiàn)在國(guó)內(nèi)在整個(gè)人工智能行業(yè)布局上除了百度、科大訊飛是排在前面的,這包括技術(shù)水平還有整個(gè)未來(lái)的發(fā)展前景。
人工智能產(chǎn)業(yè)還可以大致分為三塊:
首先是通用平臺(tái),像谷歌、BAT,除了提供技術(shù)還提供產(chǎn)品和服務(wù)。
其次是技術(shù)平臺(tái),科大訊飛是國(guó)內(nèi)最全面的,facc++也是比較熱的技術(shù)平臺(tái)。
第三塊細(xì)分產(chǎn)品就比較多了,包括我前面提到的擬腦機(jī)器人,還有Jibo等。
人工智能的技術(shù)還是處在一個(gè)相對(duì)比較早期的階段,大規(guī)模的應(yīng)用或者達(dá)到或者接近用戶的期望值還有很長(zhǎng)的路要走,所以在短期之內(nèi)細(xì)分產(chǎn)品也是有蠻大的市場(chǎng)的。(文|小芹菜)
如果您對(duì)您所在行業(yè)有很深認(rèn)知,也想在我們的平臺(tái)上說(shuō)點(diǎn)什么,我們歡迎您來(lái)投稿!
{{item.content}}