觀點(diǎn)導(dǎo)讀：機(jī)器人是一個(gè)框，什么都能往里裝。但是我覺(jué)得真正意義上的機(jī)器人首先是能像人一樣具備智能，或者能完成一些原來(lái)必須要人才能完成的一些任務(wù)。有些服務(wù)機(jī)器人至少推出了有三年以上，但是為什么沒(méi)有火起來(lái)?最大的問(wèn)題就是它們沒(méi)有真正意義上解決目標(biāo)用戶核心的需求，沒(méi)有像智能手機(jī)一樣真正滿足了目標(biāo)人群。

　　整個(gè)機(jī)器人行業(yè)的發(fā)展目前還處于一個(gè)很初級(jí)的階段，機(jī)器人的功能和定位沒(méi)有一個(gè)標(biāo)準(zhǔn)，業(yè)內(nèi)人士和用戶也有不同的期望值。我覺(jué)得短期之內(nèi)的突破點(diǎn)一個(gè)是細(xì)分市場(chǎng)痛點(diǎn)的需求，一個(gè)是在細(xì)分市場(chǎng)上做非常深度的定制優(yōu)化。

　　谷歌的AlphaGo，從人工智能角度來(lái)講還屬于弱人工智能。AlphaGo離我們真正的人工智能或者智能學(xué)習(xí)還是很遙遠(yuǎn)的，它只是一個(gè)非常初級(jí)的階段。

　　注：以下來(lái)自上海元趣創(chuàng)始人吳義堅(jiān)的分享。

　　機(jī)器人是一個(gè)筐，什么東西都可以往里裝。

　　1、人工智能和機(jī)器人行業(yè)的大背景

　　我先講一下大環(huán)境，人工智能和機(jī)器人相關(guān)的行業(yè)報(bào)告都說(shuō)，從這兩年開始，(這個(gè)行業(yè))在接下來(lái)的五到十年都會(huì)高速增長(zhǎng)甚至市場(chǎng)爆發(fā)。

　　關(guān)于機(jī)器人的新聞很多，比如上個(gè)月谷歌發(fā)布了叫逆天的行走機(jī)器人。而關(guān)于機(jī)器人也有一些偏負(fù)面的新聞，比如你只要在網(wǎng)上搜索一下機(jī)器人殺人，排在前面的是一個(gè)德國(guó)機(jī)器人殺人事件;人工智能方面最近最火的就是AlphaGo和李世石的圍棋人機(jī)大戰(zhàn)，在很多人看來(lái)這一天總會(huì)來(lái)臨，但是沒(méi)想到來(lái)臨得這么快。

　　人工智能也有負(fù)面新聞，霍金、馬斯克等人開始擔(dān)心人工智能將來(lái)有一天會(huì)威脅人類。其實(shí)我作為業(yè)內(nèi)人士看這些機(jī)器人、人工智能可能威脅人類的新聞時(shí)是有兩個(gè)心態(tài)：

　　正面的就是，通過(guò)這些新聞吸引眼球有助于大家關(guān)注這個(gè)行業(yè)。另一方面也覺(jué)得這個(gè)炒作有點(diǎn)過(guò)了，其實(shí)從行業(yè)的角度來(lái)講人工智能或者機(jī)器人威脅人類這類聽起來(lái)危言聳聽的東西，理論上應(yīng)該是存在的，只是我們只能是無(wú)限地逼近它，其實(shí)是很難做到那一點(diǎn)的，至少在我的有生之年。

　　回到今天的主題機(jī)器人與人工智能。

　　2、機(jī)器人包含哪些?市場(chǎng)有多大?

　　機(jī)器人是一個(gè)筐，什么東西都可以往里裝。

　　只要是一個(gè)機(jī)器，加了一點(diǎn)點(diǎn)跟智能相關(guān)的東西之后，甚至說(shuō)只要加上wifi模塊，它就可以叫智能機(jī)器人了。比方說(shuō)有一種煮蛋機(jī)器人，其實(shí)本質(zhì)就是一個(gè)電飯煲。其實(shí)這地方有一些東西所謂的概念和真正意義上的機(jī)器人還是不一樣的。

　　第二個(gè)就是人工智能，人工智能字面意思看起來(lái)很簡(jiǎn)單，但是到底包含哪些東西?這里面還是有很多認(rèn)不是很清楚的，我后面也會(huì)稍微講一下，包括我們現(xiàn)在的技術(shù)水平。

　　機(jī)器人，在百度百科上的嚴(yán)格的定義是自動(dòng)執(zhí)行工作的機(jī)械裝置，也是可以受人類指揮，或者以人工智能的方式運(yùn)行，任務(wù)是協(xié)助和取代人類工作。

　　所以從這個(gè)定義上講，某些自動(dòng)執(zhí)行工作的確實(shí)也可以叫機(jī)器人，雖然它和我們期待的機(jī)器人不一樣，但從這個(gè)定義上講，或者從比較早期的寬泛定義上講確實(shí)可以。盡管如此，我覺(jué)得真正意義上的機(jī)器人首先是能像人一樣具備智能，或者能完成一些原來(lái)必須要人才能完成的一些任務(wù)。

　　機(jī)器人具體分為這幾大類：工業(yè)機(jī)器人，專業(yè)機(jī)器人，服務(wù)機(jī)器人。

　　工業(yè)機(jī)器人，理論上講是指所有在產(chǎn)線上可以自動(dòng)化執(zhí)行任務(wù)，或者加一些感應(yīng)裝置，可以做一些隨機(jī)應(yīng)變的機(jī)器，這些寬泛地講都是工業(yè)機(jī)器人，我本人在這方面不擅長(zhǎng)，今天就不講了。

　　第二大類是專業(yè)機(jī)器人，包括軍用、醫(yī)療、潛水等機(jī)器人。

　　第三大塊，也是我今天主要講的是服務(wù)機(jī)器人，包含商用和家庭用兩種。

　　3、服務(wù)機(jī)器人有哪些類別?

　　另外，我認(rèn)為的機(jī)器人一定涉及到人機(jī)交互，尤其是這種服務(wù)機(jī)器人類。人的交互方式很簡(jiǎn)單了，語(yǔ)音，觸摸，還有體感，所以涉及到聽覺(jué)、視覺(jué)、觸摸、按鍵，包括遙控，都屬于人機(jī)交互的模式。

　　第一大類就是商業(yè)用的服務(wù)機(jī)器人

　　看這張圖片，是銀行客服的機(jī)器人，第二個(gè)是餐廳的機(jī)器人，切菜，做刀削面的機(jī)器人。

　　刀削面機(jī)器人

　　這些機(jī)器人的特點(diǎn)，一是外形擬人，在行業(yè)里提供一些特定功能或者信息服務(wù)。這地方其實(shí)有兩大類功能，一是替代人工，比如刀削面機(jī)器人;還有一個(gè)重要的功能是吸引眼球，這是一個(gè)商用機(jī)器人或者展覽用機(jī)器人最大的一個(gè)功能點(diǎn)，因?yàn)槲矍蚓湍軐?dǎo)流，這一點(diǎn)從目前的商用服務(wù)機(jī)器人整個(gè)來(lái)說(shuō)還是比較初級(jí)的階段。

　　另外就是家用服務(wù)機(jī)器人

　　這里面我想先提一下掃地機(jī)和無(wú)人機(jī)，其實(shí)以我個(gè)人的定義我不太傾向于把它們叫做機(jī)器人，它們更多是機(jī)器智能化，也就是機(jī)器加功能再加智能。我今天要講的機(jī)器人定位是擬人的，在機(jī)器人的基礎(chǔ)上加交互體驗(yàn)，再體現(xiàn)它的功能。

　　家用服務(wù)機(jī)器人和商用服務(wù)機(jī)器人不一樣的呢?它更多屬于消費(fèi)類電子產(chǎn)品，不管是掃地機(jī)也好，無(wú)人機(jī)也好，一定要在某一方面滿足終端消費(fèi)者需求，甚至是個(gè)性化的需求。它不像B端，沒(méi)有實(shí)用功能或者實(shí)用功能不是那么強(qiáng)的時(shí)候還可以通過(guò)吸引眼球?qū)崿F(xiàn)導(dǎo)流功能。

　　我先給大家看一下國(guó)際上的一些比較知名的家庭機(jī)器人。

　　Pepper目前的定位是商用信息服務(wù)機(jī)器人，阿里巴巴也投資了，我還是把它放在家庭機(jī)器人范疇，因?yàn)樗奈磥?lái)發(fā)展目標(biāo)還是定位在家庭，它的交互性能做得還可以，形態(tài)、品質(zhì)在整個(gè)家庭機(jī)器人里面也是比較好的，尤其是已經(jīng)量產(chǎn)了，家庭機(jī)器人里面很多比如說(shuō)阿西莫機(jī)器人還只是概念產(chǎn)品。

　　另外一個(gè)是叫Nao的機(jī)器人，這個(gè)機(jī)器人四五年前就有了，是法國(guó)的一家公司做的，目前主要的應(yīng)用場(chǎng)景是在家庭里面比如說(shuō)小孩子的教育。

　　Nao

　　前面這兩個(gè)機(jī)器人長(zhǎng)遠(yuǎn)的目標(biāo)是想做成家庭機(jī)器人，但是它們的實(shí)用化功能還沒(méi)有達(dá)到終端消費(fèi)品的期望值，目前更多的應(yīng)用場(chǎng)景是在商用場(chǎng)所。

　　第三個(gè)是前年年底左右在國(guó)際上做眾籌的Jibo機(jī)器人，它一開始定位就是家用的，可以拍照，輔助人做一些事情(比如回復(fù)一些信息，跟小孩子互動(dòng)等)。但是大家都知道眾籌的很多產(chǎn)品都會(huì)跳票，Jibo到目前為止還沒(méi)有發(fā)送，國(guó)內(nèi)應(yīng)該在年內(nèi)上市。

　　還有一個(gè)機(jī)器人是Buddy，法國(guó)的一家公司做的，它更多的側(cè)重于家庭的監(jiān)控和安防，你可以遠(yuǎn)程控制這個(gè)機(jī)器人，也可以進(jìn)行遠(yuǎn)程溝通，目前應(yīng)該也還沒(méi)有正式量產(chǎn)。

　　Buddy

　　另外說(shuō)一下Amazon Echo，它其實(shí)不是機(jī)器人而是更像siri，你可以跟它語(yǔ)音互動(dòng)，聽新聞之類，雖然外形跟機(jī)器人不一樣，但它提供了人機(jī)互動(dòng)和助手服務(wù)等家庭服務(wù)機(jī)器人的功能。

　　Amazon Echo

　　國(guó)內(nèi)現(xiàn)在家庭機(jī)器人很多，寬泛地講有上千種

　　小魚在家機(jī)器人主打的是遠(yuǎn)程陪伴，就是你可以像微信或者蘋果的facetime一樣跟家人進(jìn)行遠(yuǎn)程雙向視頻互動(dòng)，它里面也有類似Siri一樣的語(yǔ)音助手功能。

　　公子小白的機(jī)器人主打是陪伴家人，或者年輕情侶的機(jī)器人，它分男孩版和女孩版，可以語(yǔ)音交互，聊天調(diào)侃，講講笑話什么的。

　　這里面我稍微提一下，現(xiàn)在國(guó)內(nèi)絕大部分，應(yīng)該是95%以上的機(jī)器人里面用的人工智能核心技術(shù)都是集成類似科大訊飛的第三方技術(shù)。大家也在問(wèn)，我們機(jī)器人用的是哪一家的技術(shù)?我這里說(shuō)明一下，我們的語(yǔ)音交互技術(shù)也是自主研發(fā)的，在這點(diǎn)上Rokid機(jī)器人和我們是類似的，它的語(yǔ)音技術(shù)也是自己研發(fā)的，Rokid的外形其實(shí)是一個(gè)非常酷炫的音響，你可以跟它語(yǔ)音互動(dòng)，它會(huì)有一些比較擬人的反應(yīng)。

　　為什么我要提自己研發(fā)語(yǔ)音技術(shù)這一點(diǎn)?因?yàn)槿斯ぶ悄苤姓Z(yǔ)音交互這個(gè)技術(shù)大家見到最多的就是Siri， Siri的體驗(yàn)離期望值的差距還是非常大的，這也是為什么需要持續(xù)對(duì)這些技術(shù)進(jìn)行性能迭代優(yōu)化。而第三方提供的技術(shù)是通用的，通用的技術(shù)很難達(dá)到客戶的實(shí)用化需求，更不要說(shuō)個(gè)性化需求。叮咚音響是科大訊飛推出的一個(gè)產(chǎn)品，訊飛做人工智能和語(yǔ)音交互是非常領(lǐng)先的，他們以前更多的是提供技術(shù)給第三方，現(xiàn)在也推出一個(gè)音響類的語(yǔ)音交互及個(gè)人助手類產(chǎn)品。

　　類似這樣的機(jī)器人還有很多：做一個(gè)機(jī)器人的外形，外加集成一些語(yǔ)音交互以及人臉，物體識(shí)別功能。

　　兒童機(jī)器人主要是兩大類產(chǎn)品：玩具和學(xué)習(xí)機(jī)

　　玩具類機(jī)器人有上春晚的這個(gè)跳舞機(jī)器人，你可以在很多展會(huì)上看到，小孩子可以跟它玩，就跟遙控車一樣。但是所有的玩具會(huì)涉及到一個(gè)問(wèn)題，小孩子基本上都是一陣子的新鮮感，家長(zhǎng)一般不太愿意花非常多的錢，因此單件的玩具價(jià)格很難上去。學(xué)習(xí)機(jī)是不一樣的，包括步步高點(diǎn)讀機(jī)、小天才學(xué)習(xí)機(jī)，中國(guó)的家長(zhǎng)還是愿意在小孩子學(xué)習(xí)、早教上面花錢的，大家都知道各種各樣的早教班花費(fèi)是非常多的。

　　小優(yōu)機(jī)器人是學(xué)習(xí)類機(jī)器人里面比較有代表性的，已經(jīng)迭代了有三代了，外形一直沒(méi)有變過(guò)：機(jī)器人的外形，胸前是一個(gè)PAD觸摸平板，相當(dāng)于既是一個(gè)機(jī)器人也是一個(gè)學(xué)習(xí)機(jī)。另外現(xiàn)在還有很多幼教機(jī)器人，就是把手機(jī)或者平板套一個(gè)殼，然后裝一個(gè)迅飛或者其他家的語(yǔ)音助手就可以作為一個(gè)機(jī)器人去賣了，這類機(jī)器人價(jià)格很便宜基本上就是山寨機(jī)的做法。

　　4、服務(wù)機(jī)器人之前怎么就火不起來(lái)?

　　這上面這些機(jī)器人，不管是小優(yōu)機(jī)器人、阿爾法機(jī)器人，至少推出了有三年以上，但是到目前來(lái)說(shuō)還沒(méi)有火起來(lái)，最大的問(wèn)題就是它們沒(méi)有真正意義上解決一個(gè)目標(biāo)用戶核心的需求，沒(méi)有像我們的智能手機(jī)一樣真正滿足了目標(biāo)人群的核心需求。

　　我們需要思考這些家庭機(jī)器人到底解決了什么問(wèn)題?到底是一個(gè)痛點(diǎn)問(wèn)題還是一個(gè)癢點(diǎn)，到底有沒(méi)有實(shí)用價(jià)值還是只是一個(gè)噱頭?家庭機(jī)器人也有要特別考慮的問(wèn)題，到底是服務(wù)這個(gè)家庭某一個(gè)特定人群，還是所有成員，就像家用冰箱一樣。

　　家庭機(jī)器人大多強(qiáng)調(diào)智能家居入口概念，但是現(xiàn)在基本上除了小孩子每個(gè)人都有智能手機(jī)，現(xiàn)在很多智能硬件產(chǎn)品都要結(jié)合手機(jī)，家庭機(jī)器人PK智能手機(jī)到底有什么突出優(yōu)勢(shì)?掃地機(jī)器人目前在家庭機(jī)器人里已經(jīng)算做得不錯(cuò)很普及了，滿足了用戶的剛需和痛點(diǎn)，但還是有掃不干凈的問(wèn)題，就這么一個(gè)簡(jiǎn)單的事情都沒(méi)有完美解決，更別說(shuō)其他功能的家庭機(jī)器人。

　　比如說(shuō)主打陪伴功能的，真的能做到像科幻電影里面的那種效果是很難，因?yàn)橹皇亲鲆粋€(gè)語(yǔ)音互動(dòng)都難稱滿意，更別說(shuō)人機(jī)交互，大家都知道Siri那個(gè)聲音聽起來(lái)是怎么樣的，包括微軟的小冰，看看文字還可以，一聽聲音效果立馬大打折扣?？蛻魧?duì)主打陪伴產(chǎn)品的人機(jī)交互情感效果期望值是很高的，這點(diǎn)目前技術(shù)還差得很遠(yuǎn)。

　　兒童機(jī)器人是有剛需的，看你是不是真的能很好地滿足用戶的剛需。做成多功能型的，還是主打一個(gè)功能?還有最大的問(wèn)題就是小孩子的新鮮感與長(zhǎng)期使用的黏性問(wèn)題，小孩子到底愿意使用它多長(zhǎng)時(shí)間?最后一點(diǎn)就是這個(gè)兒童機(jī)要同時(shí)做到小孩子喜歡和家長(zhǎng)放心，屏幕可能傷眼睛，游戲可能造成沉迷，就像平板電腦小孩子都喜歡玩但是家長(zhǎng)不放心，這個(gè)市場(chǎng)是家長(zhǎng)掏錢給小孩子使用，因此兩個(gè)方面都要滿足到。

　　關(guān)于屏幕傷眼睛這個(gè)問(wèn)題，我自己做這個(gè)產(chǎn)品的時(shí)候也會(huì)涉及到這個(gè)問(wèn)題，稍微澄清一下，理論上講所有的屏幕都會(huì)傷眼睛，不管是大還是小，甚至你長(zhǎng)時(shí)間看書也會(huì)傷眼睛。對(duì)于保護(hù)眼睛，其實(shí)主要是兩點(diǎn)，一是距離多遠(yuǎn)，二是看多長(zhǎng)時(shí)間，這才是最關(guān)鍵的。

　　整個(gè)機(jī)器人行業(yè)的發(fā)展目前還是很初級(jí)的一個(gè)階段，機(jī)器人的功能和定位沒(méi)有一個(gè)標(biāo)準(zhǔn)，業(yè)內(nèi)人士和用戶也有不同的期望值。我覺(jué)得短期之內(nèi)的突破點(diǎn)一個(gè)是細(xì)分市場(chǎng)痛點(diǎn)的需求。一個(gè)是在細(xì)分市場(chǎng)上做非常深度的定制優(yōu)化。當(dāng)然長(zhǎng)期趨勢(shì)來(lái)看機(jī)器人行業(yè)還是非常清晰的，就像人手一個(gè)手機(jī)一樣，未來(lái)肯定是每個(gè)人都會(huì)有機(jī)器人，但是這個(gè)機(jī)器人是滿足單一的需求還是滿足多樣化的需求，滿足特定一個(gè)人的需求還是滿足一個(gè)家庭的需求，這個(gè)地方目前來(lái)說(shuō)還不是特別的清晰。

　　如何定義人工智能?

　　我講一下第二大塊的人工智能部分。

　　人工智能的基本定義就是研究、開發(fā)用于模擬、延伸和擴(kuò)展人的智能的理論、方法、技術(shù)的應(yīng)用?；旧暇褪悄M人的思考問(wèn)題和反應(yīng)方式。

　　我把人工智能分成三個(gè)階段：弱人工智能，強(qiáng)人工智能和超人工智能。

　　比如谷歌的AlphaGo，從人工智能角度來(lái)講屬于弱人工智能，它只是擅長(zhǎng)某一個(gè)方面，某一個(gè)特定領(lǐng)域的某一小點(diǎn)，利用機(jī)器擅長(zhǎng)的運(yùn)算能力做到了極致甚至超過(guò)了人類，但是在某一個(gè)領(lǐng)域真正的理解方面，它的人工智能還是屬于非常弱的。

　　強(qiáng)人工智能是什么呢?它不是單一功能，而是能做很多像人一樣的智能水平的事情，就是人類能干的腦力活它應(yīng)該大部分能干，甚至跟人相當(dāng)于同一個(gè)水平。

　　最后是超人工智能，人工智能跨過(guò)強(qiáng)人工智能往超人工智能轉(zhuǎn)化，可能就是一瞬間的事情，從理論上講確實(shí)是有這種可能性的。因?yàn)槿祟愡M(jìn)化就是一個(gè)緩慢的過(guò)程，而機(jī)器的特點(diǎn)是運(yùn)算比人強(qiáng)，存儲(chǔ)比人強(qiáng)，進(jìn)化速度比人強(qiáng)。

　　AlphaGO可以在幾天之內(nèi)運(yùn)行幾千萬(wàn)盤棋譜，但人也有擅長(zhǎng)的地方，比如概念認(rèn)知是人類天生的，這個(gè)東西目前為止現(xiàn)在還沒(méi)有任何的基礎(chǔ)理論能讓機(jī)器自己認(rèn)知一個(gè)概念，更別說(shuō)一些自動(dòng)推理、規(guī)劃、決策，機(jī)器只能在人定義的范圍之內(nèi)做規(guī)劃和決策。

　　認(rèn)知上面比如說(shuō)語(yǔ)音識(shí)別，現(xiàn)在機(jī)器做得還不錯(cuò)，通用的語(yǔ)言理解基本上現(xiàn)在都做不到?，F(xiàn)在真正的人工智能涉及的主要領(lǐng)域就是這些地方：類人智能感知、聽覺(jué)、視覺(jué)、嗅覺(jué)這些基本上都能做到了，當(dāng)然機(jī)器擅長(zhǎng)和不擅長(zhǎng)的地方跟人不一樣。比如說(shuō)觸覺(jué)，現(xiàn)在機(jī)器還不能像人一樣感知那么細(xì)膩，但是在聽覺(jué)和視覺(jué)方面，機(jī)器在某些方面甚至比人還要強(qiáng)，比如說(shuō)在基礎(chǔ)視覺(jué)方面機(jī)器在黑暗的環(huán)境下看的比人要清楚，但是涉及到一些抽象視覺(jué)感知現(xiàn)在機(jī)器還是接近于0。另外在信息反饋方面機(jī)器在性格、感情表達(dá)方面還做不到。

　　1、語(yǔ)音技術(shù)的發(fā)展

　　我本人做語(yǔ)音交互做了十幾年，接下來(lái)我會(huì)側(cè)重講這個(gè)方面，涉及一些基礎(chǔ)的東西包括深入學(xué)習(xí)，也會(huì)順帶講一下計(jì)算機(jī)視覺(jué)。

　　語(yǔ)音技術(shù)研究從五十年代就開始了，一直到九十年代都是在做很多基礎(chǔ)的研發(fā)，深度學(xué)習(xí)大概在距今10年左右得到了非常大的突破。整個(gè)語(yǔ)音技術(shù)的發(fā)展是這樣的：基礎(chǔ)研究從簡(jiǎn)單的任務(wù)開始，比如一開始是識(shí)別十個(gè)數(shù)字，到后面的孤立詞，然后到連續(xù)語(yǔ)流，從最早的特定說(shuō)話人到現(xiàn)在的所有的說(shuō)話人，從早期的安靜環(huán)境、受限環(huán)境到現(xiàn)在的復(fù)雜環(huán)境，這是整個(gè)語(yǔ)音技術(shù)發(fā)展的歷史?，F(xiàn)在很多場(chǎng)景下大家都能夠看到一些語(yǔ)音識(shí)別的成熟應(yīng)用了。

　　所有的語(yǔ)音識(shí)別和模式識(shí)別都是一樣的，首先要把一個(gè)語(yǔ)音信號(hào)做特征提取，然后再做一個(gè)模型匹配。我們這里有兩個(gè)模型，一個(gè)是聲學(xué)模型，還有一個(gè)語(yǔ)言模型，聲學(xué)模型就是人的聲音是怎么發(fā)出來(lái)，語(yǔ)言模型有點(diǎn)像拼音輸入法，把聽出來(lái)的聲音對(duì)應(yīng)到某一個(gè)字。

　　2、深度學(xué)習(xí)如何應(yīng)用到語(yǔ)音中?

　　深度網(wǎng)絡(luò)學(xué)習(xí)算法DNN是怎么應(yīng)用到語(yǔ)音的?其實(shí)用的就是在聲學(xué)模型里面的。在過(guò)去的十年之內(nèi)，任何一個(gè)語(yǔ)音的單項(xiàng)技術(shù)能做到10%準(zhǔn)確率的提升，都是很了不得的，但是DNN能做到30%以上提升，是非常大的一個(gè)突破。DNN是替代了以前的HMM或者GMM，大家稍微有點(diǎn)基礎(chǔ)的就知道概率分布， GMM就是高斯分布，就是你最有可能出現(xiàn)在什么地方可以算一個(gè)概率，這個(gè)是傳統(tǒng)的概率論。DNN不是這樣的，其實(shí)神經(jīng)網(wǎng)絡(luò)在七十年代就已經(jīng)出現(xiàn)了，但是它為什么一直沒(méi)有很大規(guī)模使用呢?就是因?yàn)橐郧皞鹘y(tǒng)的神經(jīng)網(wǎng)絡(luò)雖然理論都有很多層，但是實(shí)際上應(yīng)用只有一層，一個(gè)原因是那時(shí)候沒(méi)有很好的訓(xùn)練算法，第二個(gè)是運(yùn)算量巨大，當(dāng)時(shí)的計(jì)算機(jī)根本沒(méi)有辦法算。大家都知道AlphaGO的機(jī)器配了很多的GPU，這個(gè)也是近這幾年GPU運(yùn)算能力的擴(kuò)張才使得這個(gè)算法得以實(shí)現(xiàn)。

　　傳統(tǒng)單層的神經(jīng)網(wǎng)絡(luò)就很簡(jiǎn)單，左邊這個(gè)是輸入的信號(hào)，比如語(yǔ)音信號(hào)提取的數(shù)據(jù)輸入到這個(gè)里面去，所有的連接都是一些參數(shù)，需要提前訓(xùn)練好，然后輸入就是說(shuō)這個(gè)參數(shù)對(duì)應(yīng)到這個(gè)模型是什么?，F(xiàn)在DNN發(fā)展到十層甚至到十幾層，而且每一層有一千個(gè)甚至幾千個(gè)節(jié)點(diǎn)，這里面參數(shù)有幾百萬(wàn)甚至上千萬(wàn)，傳統(tǒng)的訓(xùn)練算法根本做不了這個(gè)事情。

　　我們現(xiàn)在用的聲學(xué)模型基本上有四五層以上，每一層都有1024×1024個(gè)節(jié)點(diǎn)，輸出的音有幾千個(gè)，甚至上萬(wàn)個(gè)。這么多的參數(shù)怎么在系統(tǒng)中做好，我通過(guò)這個(gè)圖講一下基本的原理：你看我輸了這個(gè)語(yǔ)音數(shù)，輸入這些參數(shù)之后它自動(dòng)往后擴(kuò)張，所有的參數(shù)乘以這個(gè)系數(shù)，然后在這里得出一個(gè)得分，然后這地方就算出一系列的值來(lái)，這一系列的值再往后擴(kuò)張，一直到最后這個(gè)就是我們的聲音的得分。比如這個(gè)節(jié)點(diǎn)是a，你這一組節(jié)點(diǎn)進(jìn)去得到a的概率是多少。我們?cè)僬f(shuō)一下人臉識(shí)別，人臉圖像也是一組參數(shù)輸入進(jìn)來(lái)，通過(guò)這個(gè)網(wǎng)絡(luò)往后走，在一千個(gè)或者一萬(wàn)個(gè)人臉庫(kù)中，每個(gè)人臉匹配的概率值中找一個(gè)最大的。DNN訓(xùn)練就是你已經(jīng)有大量的數(shù)據(jù)，你已經(jīng)知道輸入是什么，輸出是什么，通過(guò)這里面所有的樣本去調(diào)這幾百萬(wàn)個(gè)參數(shù)。具體算法就不講了，是非常非常復(fù)雜、運(yùn)算量非常大的，這就是為什么要靠GPU來(lái)計(jì)算，如果要靠CPU，上萬(wàn)臺(tái)服務(wù)器可能都不夠。

　　3、谷歌的AlphaGO強(qiáng)在哪里?

　　下面我具體講一下谷歌的AlphaGO，比賽我相信大家都看了，相關(guān)的論文和報(bào)道在網(wǎng)上都有了。我再簡(jiǎn)單地講一下它的原理，里面涉及到兩塊，左邊這一塊就是傳統(tǒng)的機(jī)器學(xué)習(xí)，已經(jīng)有大量高手對(duì)決棋譜樣本在那兒了，就像我們大量的語(yǔ)音和圖像數(shù)據(jù)。還有一個(gè)部分就是它學(xué)成模型后自己跟自己對(duì)弈，然后可以調(diào)一組參數(shù)，對(duì)弈完之后如果發(fā)現(xiàn)這個(gè)更好，就去加強(qiáng)，往這個(gè)方向去調(diào)整。就像你每天自己練，可以發(fā)現(xiàn)某一招更好。機(jī)器的學(xué)習(xí)速度是很快的，這個(gè)就是它比人類強(qiáng)的地方，因?yàn)槿祟惛呤制遄V幾萬(wàn)或者幾十萬(wàn)就不得了，但是他自己跟自己對(duì)弈可能有上億盤那么多。

　　大家知道為什么圍棋難下呢?中國(guó)象棋是比較容易用人工智能模擬的，因?yàn)樗哪繕?biāo)比較清晰吃掉帥就算贏了，而且象棋落子的可能性也少很多。但是在圍棋上面是不行的，圍棋的變化可能比地球上所有沙子的數(shù)目加起來(lái)還多。其實(shí)業(yè)界拿圍棋做一個(gè)實(shí)驗(yàn)場(chǎng)地優(yōu)化人工智能算法已經(jīng)有五到十年了，原理比較簡(jiǎn)單，就是局部分析和全局分析。局部分析就是下棋的時(shí)候可以算一個(gè)局部最優(yōu)，因?yàn)榫植康目臻g比較小。另一方面下圍棋時(shí)全局觀非常重要，所以谷歌用DNN做了另外一個(gè)事情，可以評(píng)估出當(dāng)前做法在全局上的獲勝概率是多少。通過(guò)這兩種方式，就兼顧了局部最優(yōu)和全局最優(yōu)。

　　圍棋每一個(gè)點(diǎn)可能對(duì)應(yīng)的是兩百種可能，兩百種以內(nèi)選一種下法的意思是在輸入端相當(dāng)于下法，輸出點(diǎn)是每一種下法對(duì)應(yīng)來(lái)做一個(gè)最優(yōu)的選擇。在這個(gè)系統(tǒng)里面，每一個(gè)可能的落子點(diǎn)都算過(guò)得分。

　　AlphaGo的人工智能和別家有什么樣的區(qū)別?

　　我們的語(yǔ)音數(shù)據(jù)一般要幾千個(gè)小時(shí)，甚至要上萬(wàn)個(gè)小時(shí)才能訓(xùn)練出一個(gè)性能還不錯(cuò)的神經(jīng)網(wǎng)絡(luò)。圍棋方面我覺(jué)得高手的棋局沒(méi)有那么多，AlphaGo應(yīng)該更多的是通過(guò)后面自學(xué)習(xí)的方式提高的。當(dāng)然前提是先通過(guò)已有棋局訓(xùn)練出一個(gè)不錯(cuò)的系統(tǒng)。

　　AlphaGo的訓(xùn)練具體是指什么?

　　訓(xùn)練的是所有神經(jīng)網(wǎng)絡(luò)的參數(shù)。

　　首先調(diào)參數(shù)并不是人在調(diào)，人調(diào)整的只是策略，比如定義多少層網(wǎng)絡(luò)，用什么樣的訓(xùn)練策略。但是具體神經(jīng)網(wǎng)絡(luò)里面的參數(shù)，現(xiàn)在沒(méi)有人能解釋幾百萬(wàn)上千萬(wàn)個(gè)參數(shù)具體有什么意義，它有點(diǎn)像一個(gè)黑盒子。在傳統(tǒng)的統(tǒng)計(jì)模型里面，概率分布是很好解釋的，比如說(shuō)老人跟小孩子的聲音為什么不一樣，因?yàn)樗l譜這邊有一個(gè)共振峰，在那個(gè)位置有一個(gè)高低分布，都有一個(gè)物理解釋。

　　DNN里面的參數(shù)是沒(méi)辦法解釋的，但是它確實(shí)很強(qiáng)大，這就像我們無(wú)法解釋人腦一樣的。

　　宏博說(shuō)他一開始低估了AlphaGo，覺(jué)得它肯定下不過(guò)李世石，因?yàn)檠邪l(fā)團(tuán)隊(duì)里并沒(méi)有頂級(jí)圍棋高手給它做策略指導(dǎo)，雖然可以借鑒大量的歷史棋局，但是單純地模仿高手下法或許可以達(dá)到職業(yè)初段選手的水平，真正面對(duì)頂尖職業(yè)高手時(shí)必然會(huì)出現(xiàn)應(yīng)變不足的情況，因?yàn)閲宓淖兓瘜?shí)在是天量的，運(yùn)算能力再?gòu)?qiáng)也無(wú)法窮盡，對(duì)目前依靠機(jī)器深度自我學(xué)習(xí)是否能達(dá)到頂尖職業(yè)棋手水平還抱懷疑態(tài)度。

　　實(shí)際從第一局棋看來(lái)，AlphaGo有一些下法我們國(guó)內(nèi)的一些頂尖的高手都沒(méi)有想到，賽后谷歌的工程師也說(shuō)到AlphaGo現(xiàn)在已經(jīng)不再依賴棋譜，它已經(jīng)把圍棋游戲規(guī)則和基本套路完全吃透，實(shí)現(xiàn)了以獲勝為目標(biāo)嚴(yán)格按照策略和價(jià)值模型自我學(xué)習(xí)自我優(yōu)化，即人工智能的增強(qiáng)學(xué)習(xí)概念，這個(gè)是AlphaGo真正可怕的地方，后面隨著模型不斷優(yōu)化進(jìn)步人類選手將越來(lái)越難以戰(zhàn)勝它了。

　　谷歌強(qiáng)就強(qiáng)在使機(jī)器可以做基礎(chǔ)的學(xué)習(xí)。

　　AlphaGo可以自我對(duì)弈，然后找到更好的策略，而且它的進(jìn)化速度遠(yuǎn)比我們?nèi)丝?。但是這里我要稍微說(shuō)明一下，深度學(xué)習(xí)更多的是一種抽象的概念，就是不要學(xué)表面的，而是學(xué)深層的。深度神經(jīng)網(wǎng)絡(luò)也是深度學(xué)習(xí)的一種體現(xiàn)，也是目前大家都在用的。其實(shí)反過(guò)來(lái)說(shuō)，雖然AlphaGo在圍棋上面很可怕，但其實(shí)它離真正人類的學(xué)習(xí)還是差很遠(yuǎn)的，或者說(shuō)它還是在做模式識(shí)別或者模式訓(xùn)練，雖然它有一些自我學(xué)習(xí)的概念，但只是一個(gè)很小的單一目標(biāo)任務(wù)上的訓(xùn)練，或者說(shuō)參數(shù)的優(yōu)化。這個(gè)還不是真正意義上說(shuō)的概念認(rèn)知，甚至說(shuō)AlphaGo都不知道下棋這個(gè)概念，對(duì)它而言下棋只是一個(gè)任務(wù)、一個(gè)目標(biāo)。我覺(jué)得AlphaGo離我們真正的人工智能或者智能學(xué)習(xí)還是很遙遠(yuǎn)的，它只是一個(gè)非常初級(jí)的階段。

　　回到語(yǔ)音這一塊，大家可以看到整個(gè)語(yǔ)音的發(fā)展歷史是很慢的，前后差不多有30年都是徘徊在識(shí)別率突破不了90%的水平，而人類在各種環(huán)境的識(shí)別率達(dá)到98%或99%以上。目前的語(yǔ)音識(shí)別差不多在安靜環(huán)境下面識(shí)別率可以接近95%，其實(shí)更多的是在各種環(huán)境下面。在復(fù)雜的環(huán)境下面，現(xiàn)在的語(yǔ)音識(shí)別準(zhǔn)確率還不高，不管是噪聲環(huán)境，或者有口音，甚至語(yǔ)速過(guò)快的情況，在更復(fù)雜的環(huán)境更不要說(shuō)了。

　　另外說(shuō)一下語(yǔ)音合成，它是把輸入文字變成聲音，科大訊飛最早就是做語(yǔ)音合成出來(lái)的。語(yǔ)音合成大家感覺(jué)在某種場(chǎng)合下可以用，比如播天氣預(yù)報(bào)或者播語(yǔ)音導(dǎo)航，這些都是合成技術(shù)，聽著沒(méi)有什么問(wèn)題。再往后，比如朗讀小說(shuō)等絕大部分也還可以接受。但是到對(duì)話聊天，比如陪伴機(jī)器人，聲音傳遞的信息除了文字以外還有情感、情緒、個(gè)性，目前來(lái)看語(yǔ)音合成還很難滿足需要。

　　語(yǔ)義分析就更難了，只是從技術(shù)層面上講，分析一些特定領(lǐng)域的東西是可以的，比如打電話給某某，不管原來(lái)傳統(tǒng)的基于規(guī)則的，還是基于統(tǒng)計(jì)的，基本上都可以做得很好。但是開放式的語(yǔ)義理解就會(huì)非常困難，尤其是一些新的概念。目前大家看到的語(yǔ)義分析也好，包括AlphaGo的理解，機(jī)器還是屬于非常初級(jí)的階段，都是人預(yù)先設(shè)定告訴它這是什么東西，而不是它自身能自我從這里面能學(xué)習(xí)到的，所以更多的是訓(xùn)練而不是叫學(xué)習(xí)。

　　目前的語(yǔ)義理解技術(shù)分為兩大塊，一個(gè)是在通用領(lǐng)域，它基于一個(gè)海量知識(shí)庫(kù)去匹配的回答出來(lái)。比如說(shuō)查今天的天氣，這種任務(wù)他是理解的，但是如果真的聊天調(diào)侃，表面上好像理解了，但是其實(shí)從技術(shù)層面上它并不存在理解，這只是一個(gè)知識(shí)庫(kù)的匹配，或者統(tǒng)計(jì)的分類。在特定領(lǐng)域這種語(yǔ)音技術(shù)雖然說(shuō)還不夠好，但是其實(shí)只要做到足夠多的深度定制，基本上是可以達(dá)到實(shí)用的。比如IBM的Watson，它對(duì)一般的醫(yī)療問(wèn)題甚至可以給出比普通醫(yī)生還要好的建議。

　　再簡(jiǎn)單介紹一下計(jì)算機(jī)視覺(jué)。

　　它從人工智能或者機(jī)器學(xué)習(xí)的角度上和語(yǔ)音識(shí)別原理是一樣的，因?yàn)檎Z(yǔ)音信號(hào)是一個(gè)一維的模型，圖像是一個(gè)二維的，而視頻相當(dāng)于一個(gè)二維圖像的時(shí)間序列。剛才已經(jīng)給大家看過(guò)了語(yǔ)音的識(shí)別過(guò)程，深度學(xué)習(xí)的框架是一樣的，唯獨(dú)不同的是特征提取，你要把特定領(lǐng)域的東西找到一定的信號(hào)輸入進(jìn)去。

　　現(xiàn)在計(jì)算機(jī)視覺(jué)在人臉識(shí)別，包括一些物體的檢測(cè)都可以號(hào)稱在國(guó)際上有一個(gè)專門的測(cè)試上面可以做到99%了，但是實(shí)驗(yàn)室的測(cè)試和實(shí)際環(huán)境是不一樣的，化妝、光線、角度等因素對(duì)人類識(shí)別能力影響不大，但是對(duì)機(jī)器而言就很難了，因?yàn)樗鼘W(xué)習(xí)的這套機(jī)制跟人腦的機(jī)制理解是完全不一樣的。

　　人工智能的產(chǎn)業(yè)格局跟機(jī)器人不一樣，因?yàn)闄C(jī)器人這個(gè)行業(yè)里面還沒(méi)有什么巨頭，市場(chǎng)還沒(méi)有起來(lái)。人工智能基本上都是國(guó)際、國(guó)內(nèi)的巨頭在做——

　　谷歌、facebook、蘋果、微軟、Amazon，可以看到全球互聯(lián)網(wǎng)、終端類大公司基本上都在做。

　　國(guó)內(nèi)最強(qiáng)的應(yīng)該是百度，也是以技術(shù)擅長(zhǎng)的一家公司，百度擁有語(yǔ)音圖像、深度學(xué)習(xí)實(shí)驗(yàn)室，在AI上面的投入水平確實(shí)在國(guó)際上是排得上的。阿里、騰訊相對(duì)弱一些。阿里做了一些語(yǔ)音技術(shù)和人工智能的布局，也投資了Pepper。騰訊這方面更多的是應(yīng)用，他們目前的技術(shù)儲(chǔ)備還是不夠的?？拼笥嶏w本身是做人工智能出身，包括傳統(tǒng)的語(yǔ)音識(shí)別和合成，還有現(xiàn)在的超腦計(jì)劃，訊飛也聯(lián)合了很多國(guó)內(nèi)外的研發(fā)機(jī)構(gòu)，我認(rèn)為現(xiàn)在國(guó)內(nèi)在整個(gè)人工智能行業(yè)布局上除了百度、科大訊飛是排在前面的，這包括技術(shù)水平還有整個(gè)未來(lái)的發(fā)展前景。

　　人工智能產(chǎn)業(yè)還可以大致分為三塊：

　　首先是通用平臺(tái)，像谷歌、BAT，除了提供技術(shù)還提供產(chǎn)品和服務(wù)。

　　其次是技術(shù)平臺(tái)，科大訊飛是國(guó)內(nèi)最全面的，facc++也是比較熱的技術(shù)平臺(tái)。

　　第三塊細(xì)分產(chǎn)品就比較多了，包括我前面提到的擬腦機(jī)器人，還有Jibo等。

　　人工智能的技術(shù)還是處在一個(gè)相對(duì)比較早期的階段，大規(guī)模的應(yīng)用或者達(dá)到或者接近用戶的期望值還有很長(zhǎng)的路要走，所以在短期之內(nèi)細(xì)分產(chǎn)品也是有蠻大的市場(chǎng)的。(文|小芹菜)

如果您對(duì)您所在行業(yè)有很深認(rèn)知，也想在我們的平臺(tái)上說(shuō)點(diǎn)什么，我們歡迎您來(lái)投稿!