亚洲熟妇av一区二区三区,亚洲av中文无码乱人伦在线视色,亚洲人成网站色www,亚洲欧美日韩国产综合在线一区 ,亚洲av之男人的天堂网站

分享
Scan me 分享到微信

Facebook機(jī)器學(xué)習(xí)應(yīng)用負(fù)責(zé)人J.Candela:如何將人工智能技術(shù)應(yīng)用于產(chǎn)品

如何看待機(jī)器學(xué)習(xí)發(fā)展的現(xiàn)狀、機(jī)器學(xué)習(xí)如何在Facebook變得如此流行以及該如何學(xué)習(xí)機(jī)器學(xué)習(xí),這些問題都將在本文中得到解答。

  Joaquin Quiñonero Candela是Facebook 機(jī)器學(xué)習(xí)應(yīng)用團(tuán)隊(duì)的負(fù)責(zé)人。他曾在微軟劍橋研究院工作,還是微軟Bing團(tuán)隊(duì)的一員。Joaquin Quiñonero Candela 在Facebook的主要工作是與Facebook 的人工智能實(shí)驗(yàn)室、各產(chǎn)品部門緊密合作,將機(jī)器學(xué)習(xí)、語言技術(shù),計算機(jī)視覺等技術(shù)運(yùn)用到Facebook的各個產(chǎn)品中,并將產(chǎn)品反饋納入接下來的研究中??梢哉f,Joaquin Quiñonero Candela的團(tuán)隊(duì)Facebook人工智能從實(shí)驗(yàn)室到產(chǎn)品的關(guān)鍵。作為橫跨學(xué)術(shù)界和產(chǎn)業(yè)界的機(jī)器學(xué)習(xí)大拿,Candela 在Quora上回答了諸多問題,如何看待機(jī)器學(xué)習(xí)發(fā)展的現(xiàn)狀、機(jī)器學(xué)習(xí)如何在Facebook變得如此流行以及該如何學(xué)習(xí)機(jī)器學(xué)習(xí),這些問題都將在本文中得到解答。

  Facebook的機(jī)器學(xué)習(xí)團(tuán)隊(duì)都在做什么?

  機(jī)器學(xué)習(xí)應(yīng)用團(tuán)隊(duì)是Facebook應(yīng)用研究團(tuán)隊(duì)的一員。我們的核心工作是機(jī)器學(xué)習(xí)、計算機(jī)視覺、計算圖像以及語言技術(shù)。我們和公司的人工智能研究團(tuán)隊(duì)緊密合作,不過相對來說我們的工作更關(guān)注應(yīng)用層面。接下來,我將簡單介紹一些我們團(tuán)隊(duì)所做的有趣事情,當(dāng)然,這并非一個完整名單,也并非只是我們一個團(tuán)隊(duì)能完成的事情,我們也需要和人工智能團(tuán)隊(duì)、核心數(shù)據(jù)科學(xué)團(tuán)隊(duì)以及眾多產(chǎn)品團(tuán)隊(duì)并肩作戰(zhàn)。

  在計算機(jī)視覺方面,我們有一套能夠處理用戶上傳的每張照片和每個視頻的系統(tǒng),每天的處理總量超過100萬張(個)。利用這套系統(tǒng),我們可以預(yù)測出這張照片的內(nèi)容,這個用處非常大。比如幫助盲人「看到」圖片、自動偵測圖片上的敏感信息、提升用戶搜索多媒體信息時的準(zhǔn)確性等等。我們采用包含數(shù)十億節(jié)點(diǎn)的深度卷積網(wǎng)絡(luò)。這個模型最有趣的地方就是可普遍適用的特性。最近,F(xiàn)acebook的Connectivity實(shí)驗(yàn)室和核心數(shù)據(jù)科學(xué)團(tuán)隊(duì)通過這些特性,分析了海量的衛(wèi)星圖片,創(chuàng)造了一張高分辨率的世界人口密度地圖。

  這個團(tuán)隊(duì)還有很多有趣的研究,也發(fā)布了一些論文:多任務(wù)學(xué)習(xí)、強(qiáng)化學(xué)習(xí)形成的通用視覺模型(論文)、采用Elastic SGD與時空卷積網(wǎng)絡(luò)訓(xùn)練的大規(guī)模分布式系統(tǒng)對視頻的分析(論文)、級連算法在視覺模型的應(yīng)用(論文)。

  在語言技術(shù)方面,我們正在努力做的一件事情是消除Facebook上的語言壁壘。為了實(shí)現(xiàn)這個目標(biāo),我們每天處理超過20億個帖子的翻譯需求,超過40個語言的翻譯,翻譯方向(比如英翻中、中翻英)超過1800個。過去我們采用微軟bing的翻譯產(chǎn)品,后來我們自己開發(fā)或部署相關(guān)產(chǎn)品。現(xiàn)在,我們正在講深度學(xué)習(xí)納入到翻譯產(chǎn)品中,希望通過神經(jīng)網(wǎng)絡(luò),達(dá)到人類翻譯的水準(zhǔn)。

  在機(jī)器學(xué)習(xí)和新領(lǐng)域,我們主要聚焦研發(fā)和使用一些大規(guī)模、實(shí)時的機(jī)器學(xué)習(xí)或人工智能算法,用到一些大型機(jī)器學(xué)習(xí)應(yīng)用程序中。無論用戶何時登陸Facebook,這些系統(tǒng)都會用來評估用戶時間線上的狀態(tài)更新(目前的數(shù)字為:平均每天超過10億用戶,每個用戶1500個狀態(tài))、廣告和搜索結(jié)果(每天的搜索請求超過10億)、熱門趨勢信息、拍朋友推薦信息甚至也會評估用戶收到的各種提醒以及別人的評論信息。機(jī)器學(xué)習(xí)團(tuán)隊(duì)同樣利用深度學(xué)習(xí)打造了一系列「優(yōu)雅」理解文本的算法。這些算法整合到我們打造的機(jī)器學(xué)習(xí)平臺里,用于加快推進(jìn)和大規(guī)模實(shí)現(xiàn)從訓(xùn)練到部署的過程。Facebook所有采用機(jī)器學(xué)習(xí)的產(chǎn)品都會使用這個機(jī)器學(xué)習(xí)平臺。如果你想理解機(jī)器學(xué)習(xí)在Facebook有多流行,我舉個簡單例子吧,超過20%Facebook工程師(甚至非工程師)都是這個平臺的活躍使用者。我們現(xiàn)在研究的方向包括用于預(yù)測事件的深度學(xué)習(xí)模型、用于稀疏模型、深度學(xué)習(xí)的分布式復(fù)習(xí)系統(tǒng)、通過卷積和遞歸網(wǎng)絡(luò)進(jìn)行文本理解的表征學(xué)習(xí)以及通過多任務(wù)學(xué)習(xí)的模型壓縮。

  關(guān)于學(xué)習(xí):你學(xué)習(xí)機(jī)器學(xué)習(xí)的途徑是什么?在學(xué)習(xí)機(jī)器學(xué)習(xí)時,你最喜歡哪一本書?

  我最初接觸機(jī)器學(xué)習(xí),是在我作為一位電信工程本科生學(xué)習(xí)高等非線性信號處理的時候。那是在1995至2000年。我非常幸運(yùn)地?fù)碛幸晃缓苜澋膶?dǎo)師,他在個人信息在 Prof. Anibal Figueiras-Vidal這網(wǎng)站上。他解釋到你可以怎樣使用神經(jīng)網(wǎng)絡(luò)構(gòu)建自適應(yīng)的、受訓(xùn)于觀察到的數(shù)據(jù)的非線性過濾器。于是,我就入坑了!

  我寫的碩士論文是關(guān)于稀疏的徑向基函數(shù)分類器。在那時,支持向量機(jī)風(fēng)行一時,它似乎就像稀疏性是模型為了提高廣泛性而應(yīng)該具備的合乎要求的性質(zhì)。我還記得你總是會評估你根據(jù)UCI repository的數(shù)據(jù)集創(chuàng)造出的算法。有趣的是在我們后來的學(xué)術(shù)生涯里,我警告過不謹(jǐn)慎使用稀疏模型的缺點(diǎn)(見the dangerous uses of sparse Gaussian Process priors),并且我曾在行業(yè)里尋求一份gogn zuo,以能生成由機(jī)器學(xué)習(xí)應(yīng)用程序產(chǎn)生的新的有趣數(shù)據(jù)。

  如果我不得不指出一本非常有影響力的書,那就是 Chris Bishop’的第一本書: Neural Networks for Pattern Recognition (1995)。其中第十章「貝葉斯技術(shù)」真的很對我的胃口,也是我至今仍對貝葉斯傾注熱情的產(chǎn)物。然而正如我經(jīng)常所說的,「一位真正的貝葉斯派不可能徹底是貝葉斯派:你需要優(yōu)先保留一些余地,因?yàn)橛锌赡茇惾~斯方法不是正確的。」

  在我花了6個月時間拜訪丹麥科技大學(xué)時,我非常幸運(yùn)地在2000年偶然碰上Prof. Carl E. Rasmussen 。Carl是一位貝葉斯派,向我介紹了神經(jīng)網(wǎng)絡(luò)的貝葉斯處理方法和針對近似推理的蒙特卡洛馬爾科夫鏈抽樣方法。他也向我介紹了高斯過程,我寫的論文就是關(guān)于這個。我最后回到了丹麥,在Carl的指導(dǎo)下攻讀博士。

  這些天,我會猶豫要不要給人們指出特定的書(有太多杰出的書了)。我堅(jiān)持建議人們觀看視頻演講。如果你在YouTube上搜索你想了解的任何主題,你將發(fā)現(xiàn)由頂尖學(xué)校的一流教授提供的豐富的視頻演講。給你一個具體的例子:我最近需要掌握更多計算圖像學(xué)知識,找到了Bill Freeman的很贊的入門介紹。我最近還想綜述自然語言處理的簡介,就找到了Dan Jurafsky 和 Chris Manning的很贊的入門級講座。

  如果你堅(jiān)持讀下去,這里是一本極大地激勵了我的書,是Jaynes的《概率論:科學(xué)的邏輯》(這里是供你閱讀的pdf版本: pdf version)那本書提倡使用概率論作為科學(xué)推理的語言,在我們?nèi)绾翁接懜怕释评矸矫娼o人很大的啟發(fā),也對機(jī)器學(xué)習(xí)非常重要,而且近來這些天當(dāng)我們思考人工智能的未來時,也會從這本書獲得相關(guān)聯(lián)的哲學(xué)啟發(fā)。

  我也會鼓勵人們立刻動手。如果你是Matlab用戶(我以前是!)或者使用Python(當(dāng)然你會用的),有許多應(yīng)用程序包基本上是實(shí)現(xiàn)所有事情。然而對于很多算法而言,你可以編寫你自己的程序工具,那是你真正要學(xué)的。

  團(tuán)隊(duì)招人時,你看中的是什么?

  我看中的是技術(shù)實(shí)力和性格。尋找的人是這樣的:

  任務(wù)驅(qū)動型的。人們需要完全投入最終目標(biāo)。

  適應(yīng)不確定性。

  無私與合作。

  ML黑客。

  強(qiáng)大的背景條件。

  在應(yīng)用機(jī)器學(xué)習(xí)中,什么是更重要的:數(shù)據(jù),基礎(chǔ)架構(gòu)還是算法?

  首先讓我們確定目標(biāo):在應(yīng)用機(jī)器學(xué)習(xí)中,成功意味著將機(jī)器學(xué)習(xí)系統(tǒng)對實(shí)際應(yīng)用的影響最大化。例如,通過我們的廣告排名系統(tǒng)將拍賣的總額最大化,廣告排名系統(tǒng)是由機(jī)器學(xué)習(xí)系統(tǒng)驅(qū)動的,能預(yù)測廣告與受眾的關(guān)聯(lián)程度。拍賣價值將被兩件事積極影響:

  預(yù)測的準(zhǔn)確性。

  候選廣告的數(shù)量。候選廣告能通過大多數(shù)精確的預(yù)測器(經(jīng)典的是嚴(yán)格的延遲約束器,能更快的激活級聯(lián)途徑,是通過更不精確的預(yù)測器精選候選廣告)來估價。

  我們需要將精確度最大化,同時將在服務(wù)時間進(jìn)行預(yù)測的計算工作量最小化。讓我們現(xiàn)在聚焦于最大化預(yù)測精確度。機(jī)器學(xué)習(xí)系統(tǒng)典型地有一個實(shí)驗(yàn)組件,旨在設(shè)計和訓(xùn)練模型。我們已經(jīng)發(fā)現(xiàn)最重要的屬性是實(shí)驗(yàn)速度。一個團(tuán)隊(duì)能在單位時間內(nèi)完成的實(shí)驗(yàn)越多,他們就能取得更大的進(jìn)步,建立更好的模型。我們努力應(yīng)用機(jī)器學(xué)習(xí),一直以來遵循「每周揚(yáng)帆前行」的口號,做出了偉大的成果。為了每周至少能給特定應(yīng)用輸送一個生產(chǎn)模型,你需要管理幾十個現(xiàn)場實(shí)驗(yàn),每周執(zhí)行成百上千的線下試驗(yàn)。極佳的基礎(chǔ)架構(gòu)、平臺和工具對應(yīng)用機(jī)器學(xué)習(xí)是必不可少的,既要最大化實(shí)驗(yàn)速度,又要最小化在服務(wù)時間的預(yù)測成本。

  現(xiàn)在,讓我們轉(zhuǎn)向數(shù)據(jù)和算法問題。我們的哲學(xué)理念將問題分出了輕重緩急,下面是按重要性從高到低排列:

  數(shù)據(jù):盡你所能地得到大量數(shù)據(jù),確保這些數(shù)據(jù)是最高質(zhì)量的。就我們的經(jīng)驗(yàn)而言,數(shù)據(jù)會以出乎意料的、不同尋常的方式變得雜亂。我最喜歡的一個故事是,快速重復(fù)點(diǎn)擊以增加impression(譯者注:impression是網(wǎng)站分析的最基本度量之一),這偶然不會起作用,因?yàn)榇嬖谝粋€假設(shè)是點(diǎn)擊被報告給處理impressions的同樣的數(shù)據(jù)中心。

  特征工程:做大量的和它有關(guān)的事。提取你的數(shù)據(jù),濃縮為有最大化預(yù)測力的信號。構(gòu)建盡可能自動化的工具(自動化特征選擇時常在后臺運(yùn)作,保持CPU的效用最大化)。我必須強(qiáng)調(diào)深度學(xué)習(xí)的來臨正改變者游戲:當(dāng)使用更簡單的算法特征工程是關(guān)鍵的時,深度學(xué)習(xí)的承諾是它允許自動化地學(xué)習(xí)表征(例如特征)和你能饋送給它原始數(shù)據(jù)。一些明顯的例子是DeepMind的令人驚訝的工作,也就是純粹基于屏幕上的像素學(xué)習(xí)玩耍經(jīng)典的街機(jī)游戲,而沒有做任何特征工程。深度學(xué)習(xí)通過自動學(xué)習(xí)表征也已經(jīng)引發(fā)了計算時間和語言技術(shù)的革命。還是那樣,在實(shí)際應(yīng)用中,依賴機(jī)器學(xué)習(xí)的產(chǎn)品團(tuán)隊(duì)定期通過特征工程仍有重大收獲

  算法:一旦你擁有了針對特征工程的最棒的數(shù)據(jù)和工具,就要保持提升你的算法能力(同時要保證這些算法是廣泛推廣的)。在Facebook,我們定期輸送新的具備更大生產(chǎn)能力的模型,但是值得注意的是,只有當(dāng)訓(xùn)練數(shù)據(jù)的數(shù)量一路增長,而且表現(xiàn)力(包括訓(xùn)練和在服務(wù)時間的預(yù)測)沒有退化得太多以致于抵消了增長的精確度帶來的益處時,這才有意義。我們總是將來自更復(fù)雜模型的精度收益與在做預(yù)測時增加的CPU成本相比較。這意味著我們經(jīng)常使用最簡單的可以完成工作的模型(從計算效率角度來說)。

  總結(jié):在應(yīng)用機(jī)器學(xué)習(xí)中基礎(chǔ)加工是至關(guān)重要的。然后,你應(yīng)該聚焦于擁有盡可能是最好的數(shù)據(jù),做大量的特征工程和使用最簡單的能完成工作的算法。

  深度學(xué)習(xí)如何影響 Facebook 今天的產(chǎn)品?

  2012年基于深度神經(jīng)網(wǎng)絡(luò)的方法在 ImageNet 分類比賽中獲勝之后,深度學(xué)習(xí)引起了很大的反響。神經(jīng)網(wǎng)絡(luò)已經(jīng)在機(jī)器學(xué)習(xí)中應(yīng)用了相當(dāng)一段時間,但具備更大容量和遠(yuǎn)遠(yuǎn)更多數(shù)據(jù)的深度神經(jīng)網(wǎng)絡(luò)帶來了變革并顯著擊敗了其它較淺的模型。這一運(yùn)動開始于計算機(jī)視覺,并快速擴(kuò)張到了文本理解、機(jī)器翻譯和語音識別領(lǐng)域。

  Facebook 擁有一個單一的使命:創(chuàng)造一個更加開放和互聯(lián)的世界。隨著我們開發(fā)出讓人們可以分享更多的工具和產(chǎn)品,理解用戶的內(nèi)容并向他們提供最大的價值就變得越來越重要。這意味著,高準(zhǔn)確度(精度和回調(diào))、低延遲和更快速的創(chuàng)新。深度學(xué)習(xí)在所有這些方面影響我們的產(chǎn)品。它被用于文本、音頻、照片、視頻甚至交互的內(nèi)容理解中。嵌入式的深度學(xué)習(xí)被無縫整合到許多產(chǎn)品組中,這使得他們能更專注于核心產(chǎn)品,同時又指望我們團(tuán)隊(duì)(機(jī)器學(xué)習(xí)應(yīng)用產(chǎn)品組)提供可用于多種任務(wù)的可能最好的嵌入產(chǎn)品。

  除了提供嵌入產(chǎn)品,深度學(xué)習(xí)也在被應(yīng)用在一些端到端產(chǎn)品中,如用于視頻字幕的自動語音識別、為盲人配音的核心視覺識別引擎、讓你可以將數(shù)百種語言翻譯成英語的機(jī)器翻譯。

  為什么 Facebook 要投資(大量)人工智能/機(jī)器學(xué)習(xí)?

  沒有人工智能/機(jī)器學(xué)習(xí),F(xiàn)acebook 就不能存在。

  人工智能是 Facebook 已有的工程工作的自然延伸,這是向我們的社區(qū)提供好體驗(yàn)的關(guān)鍵部分。每天,這個世界都在產(chǎn)生越來越多的數(shù)據(jù)——文本、圖片、視頻等等。為了做到有用,我們需要幫助你梳理所有這些信息,這樣你就可以看到你想看到的內(nèi)容,并更高效地和他人交流。

  回答這一問題以及有關(guān)人工智能和機(jī)器學(xué)習(xí)領(lǐng)域更多具體應(yīng)用研究工作,請見:What are the most interesting things Facebook is doing in ML research?

  你怎么看待當(dāng)前深度學(xué)習(xí)上的炒作?

  我不認(rèn)為這是炒作。

  人們已經(jīng)在它上面進(jìn)行了幾十年堅(jiān)持不懈的努力,但有有意義的先驗(yàn)的非常龐大而復(fù)雜的神經(jīng)網(wǎng)絡(luò)釋放了表征學(xué)習(xí)(RL:representation learning)的力量,得到的結(jié)果極其優(yōu)于那些通過手動輸入特征和傳統(tǒng)算法的結(jié)果。正如Yoshua Bengio 和 Yann LeCun 在他們最近的 NIPS 2015 教程中解釋的那樣,算力與訓(xùn)練數(shù)據(jù)的數(shù)量和質(zhì)量的急劇增長是表征學(xué)習(xí)和深度學(xué)習(xí)成功的關(guān)鍵。

  回到表征學(xué)習(xí)上,它是真實(shí)的。過去幾年這方面已有許多最新的突破性進(jìn)展可以歸功于表征學(xué)習(xí)。這些都已經(jīng)在計算機(jī)視覺、語音識別、自然語言處理等領(lǐng)域?qū)崿F(xiàn)。所有這些領(lǐng)域都擁有一個特征:輸入信號是傳感器信號。表征學(xué)習(xí)使用深度神經(jīng)網(wǎng)絡(luò)(DNN)架構(gòu)學(xué)習(xí)這些傳感信號的分層特征表征。這些表征最后表現(xiàn)得比人類施工的和高度精制的功能好非常多。那并不是關(guān)鍵,但這樣的架構(gòu)遠(yuǎn)遠(yuǎn)地近似于人類大腦中學(xué)習(xí)和執(zhí)行認(rèn)知任務(wù)的方式。

  比如在Facebook,我的朋友和同事 Ahmad Abdulkader 與我們的廣告團(tuán)隊(duì)合作開發(fā)了能夠自動檢測出違反我們政策(例如包含暴力、酒精或武器)的有圖片廣告。在這一任務(wù)上使用深度學(xué)習(xí)在精度上帶來了顯著的提高,并最終保護(hù)了Facebook 社區(qū)免受潛在的不良內(nèi)容的影響。我們的計算機(jī)視覺團(tuán)隊(duì)已經(jīng)開發(fā)了一個供幾十個團(tuán)隊(duì)使用的自助服務(wù)平臺,以幫助他們在通過使用深度學(xué)習(xí)學(xué)到的圖像和視頻的表征的基礎(chǔ)上訓(xùn)練專門的預(yù)測模型。Manohar Paluri 可以告訴你更多有關(guān) Facebook 用于計算機(jī)視覺的深度學(xué)習(xí)應(yīng)用。

  表征學(xué)習(xí)也還有一些尚未取得突破的領(lǐng)域,尤其是那些輸入不是傳感信號的領(lǐng)域。它是否還能取得那樣的突破,尚有待觀察。

  說到這么多,學(xué)術(shù)界、業(yè)界和媒體需要謹(jǐn)慎對待夸大的結(jié)果、對可能帶給機(jī)器的「智能」式未來的過度解讀、以及機(jī)器是否以某種方式取代人類的嚴(yán)重后果的警告。這更接近科幻而不是現(xiàn)實(shí) :)

  為大型公司制作可通用機(jī)器學(xué)習(xí)框架所帶來的重要經(jīng)驗(yàn)有哪些?

  打造通用機(jī)器學(xué)習(xí)框架很艱難。機(jī)器學(xué)習(xí)與人工智能如今進(jìn)展層出不窮。這讓任何通用機(jī)器學(xué)習(xí)框架不停地處在測試之下,甚至許多都已經(jīng)廢棄。另外,靈活性與規(guī)模以及靈活性和可用性與之間一直有著強(qiáng)烈的壓力。這些都是一個總體框架所有需要考慮的重要權(quán)衡。

  在下面我會分享一些我們在制作Flow的時候的學(xué)習(xí)經(jīng)驗(yàn)——也就是我們的通用的機(jī)器學(xué)習(xí)系統(tǒng)。工程師利用Flow去制作機(jī)器學(xué)習(xí)通道,以訓(xùn)練深度學(xué)習(xí)模型、大規(guī)模邏輯回歸、決策樹等等。Facebook的所有這些模型每周都會從實(shí)驗(yàn)環(huán)境部署到生產(chǎn)環(huán)境進(jìn)行數(shù)次,并且被Facebook的很多團(tuán)隊(duì)調(diào)用。

  深入理解你的應(yīng)用場景:許多通用機(jī)器學(xué)習(xí)框架經(jīng)常會突出強(qiáng)調(diào)某一個場景。在Flow,我們理解我們有兩個主要的觀眾。其中一個寫出新的通道,另一個通過添加新數(shù)據(jù)來消耗它們。我們確定了我們?yōu)檫@些場景中的每一個都提供了良好的體驗(yàn)。

  打造多層平臺:良好的平臺會從「use it all」和「lose it all」等場景中保護(hù)它們的用戶,好的假期會提供很多抽象層。最外層提供最好的經(jīng)驗(yàn),但是如果用戶不知道他們到底想要什么,他們應(yīng)該降低級別去達(dá)到想要的。

  速度,速度,速度!:對于企業(yè)中的機(jī)器學(xué)習(xí)研究,讓你設(shè)計的想法得到支持和許可都必須在保證速度的前提下。數(shù)據(jù)經(jīng)常會很巨大,并帶來降低創(chuàng)新的瓶頸。

  默認(rèn)可重用:無論何時工程師在Flow寫了新的東西,都可以被公司里的其他人所重新利用。這意味著工程師有著超越以前的指數(shù)式增長的創(chuàng)新力。

  準(zhǔn)備寫第二個版本吧:如果這是你的平臺第一個版本,準(zhǔn)備好去重新寫一個吧,因?yàn)檫@里面隱藏著許多錯誤和壞的概念。不停地探索直至你認(rèn)為這是個正確的時機(jī)去進(jìn)行重寫,但是在這之前要確保你進(jìn)行了足夠的討論和探索,比如要達(dá)到更好的架構(gòu)。

  避免過早推廣:在你嘗試將產(chǎn)品通用化之前,確保你有2到3個具體的重度使用場景。如果你在未成熟的時候就通用化,你也許會失去一些重要的價值,減慢發(fā)展速度。記住,如果這是你的第一個版本,你總會需要重寫的,因此千萬不要提前通用化。

  做一個算法不可知論者:機(jī)器學(xué)習(xí)經(jīng)常會著眼于一個或另一個機(jī)器學(xué)習(xí)算法。在Flow,我們決定在這個平臺上「歡迎所有的算法」。我們支持并創(chuàng)造了幾個可用于Facebook的算法。但是平臺是對所有算法公開的,因此可幫助Flow通用于任何出現(xiàn)的新算法。

  統(tǒng)一帶來的好處:算法的多樣性是極度有利的。也就是說,一個統(tǒng)一連接這些算法的系統(tǒng)會非常強(qiáng)大。比如你研發(fā)了一個算法,且這個算法對于廣告和搜索結(jié)果展示具有神奇的效果,

  接著你可以執(zhí)行一個Flow的有著標(biāo)準(zhǔn)化界面的算法算子(廣告和搜索排行通道都調(diào)用了這個算子),結(jié)果是它會變得更好。再比如你已經(jīng)研發(fā)了這個算法更強(qiáng)力的版本,不需做太多改變,你就可以用所有通道上的新算法進(jìn)行實(shí)驗(yàn),調(diào)用算子并方便地使用它。由此,我們的應(yīng)用研究員可以將它們的影響力迅速擴(kuò)大至整個公司。

  如果你的余生只能夠用一個機(jī)器學(xué)習(xí)算法,你會選擇哪一個?

  我真希望我身在能夠回答這個問題的時候!解決機(jī)器學(xué)習(xí)的問題仍然需要人類在整個進(jìn)程中絕對的參與:制定機(jī)器學(xué)習(xí)任務(wù)、定義度量以進(jìn)行優(yōu)化、預(yù)測數(shù)量、評估可用數(shù)據(jù)和收集附加數(shù)據(jù),選擇適合于手頭的預(yù)測任務(wù)的模型池中的模型。當(dāng)然,然后還會有計算有效性的考慮。如果模型需要作為機(jī)器學(xué)習(xí)的一部分在生產(chǎn)中運(yùn)行,邊際計算復(fù)雜度所附加的任何精確性都必須超過附加成本的消耗。換句話說,精確度不僅僅是唯一的標(biāo)準(zhǔn):計算成本也是重要的一個。

  我在劍橋大學(xué)的朋友與前同事所做出的一個令人振奮的努力正是我希望機(jī)器學(xué)習(xí)所前進(jìn)的方向。他們的想法是自動化數(shù)據(jù)分析。另一個激動人心的方向則是ICML2015工作室所激發(fā)的「Auto ML」趨勢,后者旨在盡可能自動化人類在機(jī)器學(xué)習(xí)中的參與。

  沒有任何理由能夠說明,我們不能創(chuàng)造一個基于模型和預(yù)測任務(wù)的自動化數(shù)據(jù)分析和機(jī)器學(xué)習(xí)的人工智能。

  在一個更有趣的發(fā)現(xiàn)中,我逐漸開始使用許多模型中的高斯法和貝葉斯法,如果后期和預(yù)測分布難以實(shí)現(xiàn)時,這些方法可以利用MCMC以獲得近似推理。我的興趣仍然在于利用這些模型以及推理方法。盡管這并沒有讓它們成為我會在余生中唯一使用的算法,但是它們一定是很有趣的算法,并且回饋以大量的智力樂趣。

  產(chǎn)業(yè)領(lǐng)域里的機(jī)器學(xué)習(xí)研究和學(xué)術(shù)領(lǐng)域的機(jī)器學(xué)習(xí)研究,有什么不同?

  產(chǎn)業(yè)和學(xué)術(shù)領(lǐng)域的機(jī)器學(xué)習(xí)研究,很多相同點(diǎn)和不同點(diǎn)。我近十年來都在產(chǎn)業(yè)領(lǐng)域工作,因此,接下來的觀點(diǎn)將更多地受到產(chǎn)業(yè)觀點(diǎn)影響(多過學(xué)術(shù)領(lǐng)域)。不過,需要注意的是,我和學(xué)術(shù)領(lǐng)域保持著密切聯(lián)系,也欣賞我們團(tuán)隊(duì)發(fā)表的論文,熱衷組織和參與研討會和會議。

  現(xiàn)在談觀點(diǎn):

  數(shù)據(jù):產(chǎn)業(yè)領(lǐng)域接觸到的數(shù)據(jù)通常比學(xué)術(shù)領(lǐng)域多得多。不過,隨著互聯(lián)網(wǎng)的發(fā)展,這種差異在日益減少,但還是有一定差距。這也意味著學(xué)術(shù)機(jī)構(gòu)的研究側(cè)重于小規(guī)模的數(shù)據(jù)集,無法反映產(chǎn)業(yè)需要的解決問題。不過硬幣的另一面則是,這些小數(shù)據(jù)集可以更方便迭代,從而幫助學(xué)術(shù)機(jī)構(gòu)更快地獲取研究靈感。

  工具和基礎(chǔ)設(shè)施:企業(yè)能夠投入更多資源構(gòu)建工具,能夠保證在應(yīng)對大規(guī)模需求時還能快速進(jìn)行原型設(shè)計。在企業(yè)里,你可以更方便低于工程師和機(jī)基礎(chǔ)設(shè)施專家合作,他們將幫助你搭建一個更堅(jiān)固的研究基礎(chǔ)平臺。大量穩(wěn)定的工具也可以保證你的研究可以快速移植。

  速度:對產(chǎn)業(yè)領(lǐng)域來說,時間就是金錢,因此速度非常重要。這里的工程師和研究人員通常會優(yōu)先考慮速度和產(chǎn)品部署的頻率,因?yàn)橐粋€產(chǎn)品的目標(biāo)就是一段時間內(nèi),在總體上最大化產(chǎn)品的影響。更快的迭代可以讓你探索更多新的可能性并忽略一些沒有承諾的開發(fā)方向。

  目標(biāo)驅(qū)動力:產(chǎn)業(yè)研究有著非常明確的目標(biāo)驅(qū)動力。這就是通過實(shí)現(xiàn)研究的商業(yè)化,來進(jìn)一步推動產(chǎn)業(yè)對于研究的投入。在可落地實(shí)施的范圍而后,綜合考慮成本以及如何與現(xiàn)有產(chǎn)品體驗(yàn)的融合,是產(chǎn)業(yè)對于創(chuàng)新和研究投入的重要考量點(diǎn)。這里必須要提到一點(diǎn),研究機(jī)構(gòu)在創(chuàng)新方面的重要作用,由于產(chǎn)業(yè)傾向于一些短期技術(shù)的研究,研究機(jī)構(gòu)承擔(dān)了大量顛覆性技術(shù)的研發(fā)和創(chuàng)新。

  簡單:在學(xué)術(shù)界,發(fā)表論文是主要的衡量成功的方式。論文作為一種強(qiáng)制作用,以一種結(jié)構(gòu)化方式幫助新觀點(diǎn)產(chǎn)生效果,也鼓勵了那些在實(shí)踐中運(yùn)行良好的新奇事物。產(chǎn)業(yè)界往往在簡單的一面犯錯,因?yàn)榇笠?guī)模操控復(fù)雜系統(tǒng)是花費(fèi)不菲的。

  對上述事情持非黑即白的觀點(diǎn)總是錯誤的,因?yàn)樵诋a(chǎn)業(yè)領(lǐng)域有一些讓人驚羨的研究者,在學(xué)術(shù)界也有令人佩服的工程師,這使得不同領(lǐng)域的重大突破成為可能。理想的化學(xué)組合是產(chǎn)業(yè)和學(xué)術(shù)共同合作,取其所長,推進(jìn)領(lǐng)域發(fā)展。

  你如何在工作日程中安排長跑?

  我每年跑幾次馬拉松和超級馬拉松。也喜歡和朋友跑步。

  這些天我平均一周跑50多英里,讓跑步和工作安排不沖突的方法就是很早起來跑步。幾乎每天,我都是在日出左右開始跑步,有時從家里開始,有時和一些愛跑步和喜歡早期的同事從單位開始跑。我們在工作地點(diǎn)淋浴,而且我喜歡跑步后在公司吃早餐。

  清晨跑步,首先對我來說是有利的,完全清理了我的內(nèi)心,這有點(diǎn)像冥想,然后我以寧靜、安詳?shù)臓顟B(tài)開始這一天。許多問題在前天晚上看上去似乎很可怕,跑完后,似乎完全在掌控中。

  對勵志在產(chǎn)業(yè)領(lǐng)域從事ML/CV研究的PhD候選人,給予一些指導(dǎo)。

  為產(chǎn)業(yè)研究職位做準(zhǔn)備的一條最佳方法是,當(dāng)一次或更多次的暑期實(shí)習(xí)生。這會讓你走出只需要做論文研究的學(xué)校氛圍,進(jìn)入這樣一個環(huán)境,其中,影響力、快速成型和與其他團(tuán)隊(duì)深入交往不僅普遍而且重要。

  產(chǎn)業(yè)實(shí)習(xí)生允許你與其他有經(jīng)驗(yàn)的導(dǎo)師工作,得到廣泛經(jīng)驗(yàn),學(xué)到更多技術(shù)。有時,實(shí)習(xí)經(jīng)歷只會寫入你未來的出版物中,但是,有時你將對一個重要的新功能或能力做出貢獻(xiàn)。提前詢問實(shí)習(xí)機(jī)會,這對你很重要。

  在實(shí)習(xí)期間,還有在學(xué)術(shù)研究期間,你會在扎實(shí)的軟件工程實(shí)踐中變得熟練。一條途徑是使用和貢獻(xiàn)開源軟件。你的同輩將給你反饋你的代碼質(zhì)量和可用性如何。試著在團(tuán)隊(duì)中做一些你的研究。產(chǎn)業(yè)研究很少獨(dú)立完成,因?yàn)橛刑嗤獠恳蛩匦枰獔F(tuán)結(jié)合作去創(chuàng)造真正的影響力(例如:輸送新性能或產(chǎn)品)。試著做一些項(xiàng)目,所以你能得以拓展你的科技知識。最后,就你的工作向大量聽眾舉辦大量演講,一些聽眾可能不是你專長領(lǐng)域內(nèi)的人。但能推銷你的工作給非專業(yè)領(lǐng)域內(nèi)的人(包括非專業(yè)領(lǐng)域的導(dǎo)師),對你成功的產(chǎn)業(yè)研究至關(guān)重要。

  如果你打算追求學(xué)術(shù)生涯(終身教授職位),那么在某個主題上非常專業(yè)且在某個理論上很善長,而不是精通動手操作和實(shí)驗(yàn),這是非常好的,但這對于大多數(shù)產(chǎn)業(yè)研究職位而言,并非特別有用。

  你如何看待開放人工智能?

  我們歡迎他們來到這一社區(qū),期待看到研究進(jìn)展以及它們的最終回饋。

  不過,我會補(bǔ)充說,我們?nèi)〉玫娜斯ぶ悄苓M(jìn)展,現(xiàn)在已經(jīng)是一個非常公開的過程??茖W(xué)研究力求研究者的交流促進(jìn)。互動社區(qū)越大,進(jìn)步也就越快。

  在Facebook,我們想要讓人工智能研究者更容易分享方法和技術(shù)。我們有一個大體上支持開源軟件和硬件的文化,而且FAIR(Facebook人工智能研究)和AML(應(yīng)用機(jī)器學(xué)習(xí))已經(jīng)繼續(xù)兌這一文化承諾:以學(xué)術(shù)論文的形式發(fā)表他們的發(fā)現(xiàn),開放網(wǎng)站上可免費(fèi)獲取。我們絕大多數(shù)的項(xiàng)目代碼成為開放資源,最近也開放了一個人工智能硬件設(shè)計。

  對機(jī)器學(xué)習(xí)非常陌生的工程師/學(xué)生而言,什么才是最關(guān)鍵的?

  機(jī)器學(xué)習(xí)包含非常廣(且深的)科學(xué)和工程學(xué)科子集。所以想通透了解該領(lǐng)域就要花費(fèi)點(diǎn)時間,需要常年累月持續(xù)學(xué)習(xí),特別是當(dāng)新算法和想法正不斷被研究時。

  在某種程度上,機(jī)器學(xué)習(xí)類似于統(tǒng)計數(shù)據(jù),試圖從大量數(shù)據(jù)中推斷出結(jié)論或者模式。但另一方面,它更像計算機(jī)科學(xué),需求高效的算法和表達(dá)方式。

  我個人最喜歡的是Chris Bishop的《 Pattern Neural Networks for Pattern Recognition 》。當(dāng)然,還有一些其他很棒的書,包括來自Coursera, Udacity, edX等的在線課程。但是,如果自己不做很多實(shí)驗(yàn),幾乎不可能學(xué)會機(jī)器學(xué)習(xí)。

  嘗試書本或者講座上布置的練習(xí),花些時間。貌似投入很多,但是,如果你想長期呆在這個領(lǐng)域,你需要積累很多知識和直覺,知道適合每個問題的技巧和方法。你也要持續(xù)學(xué)習(xí),因此,獲取學(xué)習(xí)新材料才能然后吸收之并付諸實(shí)踐會非常重要。

  變得精通合適的實(shí)驗(yàn)和證實(shí)方法。在某些工程領(lǐng)域,你可以遵循指導(dǎo)手冊或者通過非形式推理驗(yàn)證正確性。在機(jī)器學(xué)習(xí)中,「正確答案」往往很少。因?yàn)槟闼龅木褪菑牟煌耆畔⒅凶龀鲎詈玫耐茢?打趣地說法就是「做出最好的猜想」)。你不僅要設(shè)計出綜合數(shù)據(jù)的單元測試,挑出代碼中明顯的bug,還要在更大的數(shù)據(jù)集中不斷測試。這是一個非常大的挑戰(zhàn),因?yàn)榈玫秸_答案非常的難(這叫做標(biāo)記數(shù)據(jù))

  最后,緊跟最新研究,積極參加這個領(lǐng)域的年會。如果你剛步入這一領(lǐng)域,這是一種非常棒的方法了解這一領(lǐng)域的研究和技術(shù)深度。(年會往往會有很好的導(dǎo)師會議)如果你有經(jīng)驗(yàn),你可以借此建立與研究人員和從業(yè)者的社交網(wǎng)絡(luò),從而了解最新的技術(shù)和科研成果。

  Facebook機(jī)器學(xué)習(xí)團(tuán)隊(duì)不招非PhD?

  不,并非如此。雖然在多數(shù)情況下,PhD能幫助你學(xué)習(xí)如何做研究。Facebook的每個團(tuán)隊(duì)都有非PhD的人做機(jī)器學(xué)習(xí),方向都不同。

  我們想知道,諸如Facebook有先進(jìn)的機(jī)器學(xué)習(xí)算法的地方,是否還需要一些更加簡單的算法?

  在Facebook中,我們盡可能用最簡單的算法完成工作。如果預(yù)測精度有效,簡單的算法就意味著更低的計算成本和更簡單的調(diào)試。同時,創(chuàng)造性的簡單算法也可能驚人的準(zhǔn)確。在我們有關(guān)廣告數(shù)據(jù)實(shí)驗(yàn)的論文中,我們對這些結(jié)果做過解釋。

  就像我的朋友艾哈邁德·阿卜杜爾卡達(dá)爾(Ahmad Abdulkader)說的,「總有對更簡單算法的需求?!故聦?shí)上,更加簡單算法比復(fù)雜算法更受人推崇。復(fù)雜算法總是要靠準(zhǔn)確性的大幅度提升予以合理化。

  也有一些領(lǐng)域,更簡單的算法也受到歡迎,即使它們的準(zhǔn)確性不如復(fù)雜算法。比如,較之復(fù)雜算法,在很多機(jī)器上分布一個LR學(xué)習(xí)算法要容易地多。結(jié)果,LR勝出。

  簡單的說,我們在需要時才用復(fù)雜算法:一些實(shí)例應(yīng)用的領(lǐng)域,比如計算機(jī)視覺、機(jī)器翻譯、文本理解和語言認(rèn)知等。在這些領(lǐng)域,深度神經(jīng)網(wǎng)絡(luò)在預(yù)測準(zhǔn)確性上有大步提升,所以使用它們無可厚非。

  在Facebook,有哪些不明顯使用機(jī)器學(xué)習(xí)的地方?

  在《 What are the most interesting things Facebook is doing in ML research?》中,我曾經(jīng)給出過幾個明顯或不明顯使用機(jī)器學(xué)習(xí)的例子。

  我分享一個可能不那么明顯的使用機(jī)器學(xué)習(xí)的例子。

  Facebook的 Accessibility team已經(jīng)運(yùn)作四年了,最初是專注于讓Facebook已有產(chǎn)品讓每個人都能使用。但是現(xiàn)在,它專注于為殘障人士打造新產(chǎn)品。這個團(tuán)隊(duì)關(guān)注的一個對象就是盲人和視力喪失群體。因?yàn)镕acebook是一種視覺上的體驗(yàn)(如同大部分互聯(lián)網(wǎng)),我們需要盡可能的在創(chuàng)新上做投資,讓Facebook的體驗(yàn)更好。我們在AI領(lǐng)域,以及諸如物體識別這些計算機(jī)視覺特定領(lǐng)域的投資,能夠讓更多人接觸到科技。

  你的生活平衡地很好,如何做到的?

  哇,這個問題的前提假設(shè)是我已經(jīng)很好地平衡了我的生活!:-)

  我不斷地嘗試平衡我的生活。有三件是對我很重要:

  我的家庭

  我的工作

  保持身體上的健康

  我覺得關(guān)鍵詞是效率。依靠「習(xí)慣的力量」讓我變得有效率。每天早晨我都會按固定路線跑步,有時會和朋友一起跑。同樣的跑步習(xí)慣(時間、地點(diǎn))讓我們不需要花費(fèi)時間做計劃。在家里,我和妻子會提前協(xié)調(diào)好家庭與工作時間,避免突發(fā)事件。

  最后,我認(rèn)為抽時間做計劃是很重要的。為了看到更遠(yuǎn)的場景,后退一步是有必要的。你想要什么?什么事你會高興的拒絕?(為了得到重要的一些東西,對很多事你都要說no。)

  你會怎么描述Facebook文化?

  我在這里工作最喜歡的就是Facebook的文化。我經(jīng)常把我們的文化和價值觀分享給新職員。

  我們的價值觀很好的體現(xiàn)到了我們的文化:

  建立社會價值觀:我們是一家任務(wù)非常明確的公司。我們每天早上來到這里工作不只是為了讓這個世界更加的開放與連接,而是為了在人類生活中創(chuàng)造價值。在Facebook中有個團(tuán)體叫「Go 365!」我就是這個幫助、鼓勵跑步新手的團(tuán)體中的一員。我加入兩年了,總能見到隊(duì)員對馬拉松新手的鼓勵和支持。

  快速行動:我們是建造者(builder)文化。我們會嘗試、會思索。我們也會犯錯誤,事實(shí)上我們也鼓勵犯錯。你如何進(jìn)步?我看到很多很棒的系統(tǒng)在快速力量驅(qū)動下成長起來。如果它們值得構(gòu)建,我們會重點(diǎn)查看缺陷之處,往最佳的方向改善。

  大膽:「最大的危險是不冒危險?!褂幸粋€有趣的不對稱現(xiàn)象,我們?nèi)祟悆A向于高估我們不了解的現(xiàn)狀。這是棘手的,因?yàn)槲覀冎車氖澜缱兓锰?,而且我們目前的解決方案、產(chǎn)品或系統(tǒng)可能在新環(huán)境中不再有關(guān)聯(lián)或是最適宜的。引用一個我欣賞的例子,Amazon的幾年前做出大膽舉動,大舉投資Kindle。這個產(chǎn)品直接地攻擊了他們既有的商業(yè)模式。

  保持開放:這可能是我最愛的價值觀。保持開放幫助我們利用集體智慧,因?yàn)闆]有人有所有的答案。它也幫助減少意外,增加信任(記住,「意外是信任的敵人」)。最后,一個開放的反饋式的文化幫助每個人得到提升,變得更好。

  關(guān)注影響力:總是有很多事情要去關(guān)注,但是就像大自然教給我們的一樣的,將我們投入的大量精力的影響力最大化,非常重要。在Facebook,我們努力建立自下而上的文化,每個人都感到有責(zé)任理解圍繞他們的影響力在哪里,并將自己的工作朝向它。

  最后,在Facebook,我們有一種「傳播愛(ship love)」的文化,這是一種方式,說出我們在這里服務(wù)于15億依賴我們構(gòu)建工具和產(chǎn)品的社區(qū)。如果我們不愛這些人,我們不可能為他們服務(wù)。

  有了H2O.ai(用于商業(yè)引擎的人工智能)、Azure機(jī)器學(xué)習(xí)、數(shù)據(jù)機(jī)器人,你如何看待機(jī)器學(xué)習(xí)大眾化浪潮?

  許多研究表明,機(jī)器學(xué)習(xí)工程師/研究員供需存在巨大缺口。一些人甚至預(yù)期這個缺口將繼續(xù)擴(kuò)大直到2019年。結(jié)果,機(jī)器學(xué)習(xí)「大眾化」的努力可能造成巨大的影響,而且對這些工具而言,也可能意味著巨大商機(jī)。

  現(xiàn)有的成套工具似乎早已意欲達(dá)到這樣的平民化。他們傾向于將重點(diǎn)放在幫助數(shù)據(jù)科學(xué)家達(dá)到他們的目標(biāo),主要是在企業(yè)環(huán)境里。

  在Facebook,我們在 AutoML這個方向做出了認(rèn)真的努力。AutoML也是在許多機(jī)器學(xué)習(xí)領(lǐng)域(ICML,CodaLab等)獲得了大量關(guān)注。這似乎是更有前途的方向,而且我的朋友和同事Ahmad Abductkader正積極地與我們的一些產(chǎn)品小組合作,致力于讓國內(nèi)機(jī)器學(xué)習(xí)大眾化,尤其是幫助新的小型團(tuán)隊(duì)落地機(jī)器學(xué)習(xí)。

  Facebook 的各種應(yīng)用中使用了怎樣的神經(jīng)網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu):有多少層,等等?

  在 Facebook,我們的目標(biāo)是用最好的人工智能技術(shù)驅(qū)動產(chǎn)品。最好的有時候就是已經(jīng)存在的,很多時候都是我們內(nèi)部為 Facebook 量身定制的。有時候我所在團(tuán)隊(duì)(機(jī)器學(xué)習(xí)應(yīng)用組,我們的應(yīng)用研究機(jī)構(gòu))和 Facebook 的人工智能研究組(FAIR)肩并肩合作,我們也與我們的產(chǎn)品團(tuán)隊(duì)有密切的合作。

  我們使用的神經(jīng)網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)和我們在各自領(lǐng)域首次展示中所發(fā)布的類似。它們根據(jù)應(yīng)用的不同存在差異,基本上都是深度卷積網(wǎng)絡(luò)、全連接網(wǎng)絡(luò)和遞歸神經(jīng)網(wǎng)絡(luò)。在基于文本、照片和視頻、語音等應(yīng)用上,我們也使用它們的組合。

  我們的這些團(tuán)隊(duì)必須解決許多有趣的挑戰(zhàn)。比如,我們通常將我們的數(shù)據(jù)視作一種流,而不是將其看作是幾百萬個樣本的靜態(tài)數(shù)據(jù)集。這讓我們能夠隨時間學(xué)習(xí)更大的模型,拓?fù)浣Y(jié)構(gòu)也隨之不斷進(jìn)化。另一個有趣的挑戰(zhàn)是可能最好的模型也許并不是大規(guī)模運(yùn)行時可行的模型。所以,我們總是會在模型的容量和計算與精度之間進(jìn)行權(quán)衡。

  我們已經(jīng)公布了各種研究結(jié)果,并且我們對組成鏈?zhǔn)交驑錉畹亩鄠€模型的拓?fù)浣Y(jié)構(gòu)非常感興趣,在這樣的結(jié)構(gòu)中,更快但精度更低的模型先運(yùn)行,然后再給更慢但更精確的評估數(shù)據(jù)的子集的模型讓路。這是一個正在進(jìn)行中的研究課題,也是一個我們因?yàn)槲覀兊臄?shù)據(jù)規(guī)模而必須要解決的重要問題。另一個例子是視頻,在這一應(yīng)用中,可以應(yīng)用基于圖像的模型,我們可以使用一個連續(xù)的模型融合來自視頻幀的信息,或我們可以慢慢地使用空間-時間卷積融合時間和空間信息。

  我們發(fā)表了使用這樣的網(wǎng)絡(luò)的學(xué)習(xí)功能上的發(fā)現(xiàn),并展示了其通用化的能力??傊S著我們研究越來越多并嘗試找到精度、速度和內(nèi)存之間的平衡,我們的拓?fù)浣Y(jié)構(gòu)也一直在不停變化;而我們也將積極公布這些發(fā)現(xiàn)。

  畢業(yè)之后有哪些好的機(jī)器學(xué)習(xí)課程可以參加?

  http://videolectures.net/是一個很贊的資源,上面有很多關(guān)于「機(jī)器學(xué)習(xí)」、「人工智能」、「大數(shù)據(jù)」、「計算機(jī)視覺」、「自然語言處理」以及更多與機(jī)器學(xué)習(xí)相近的主題。

  Udacity 和 Coursera 提供了完整成熟的課程,一個人可以以有限的知識開始一個領(lǐng)域的學(xué)習(xí)并在課程結(jié)束后取得相當(dāng)?shù)倪M(jìn)步。我個人很喜歡吳恩達(dá)、Jeff Hinton 和 Daphne Koller 教授的課程,但我確信隨著深度學(xué)習(xí)和機(jī)器學(xué)習(xí)在業(yè)界變得越來越重要,這些課程設(shè)置也在不斷進(jìn)化,資源也在不斷增長。我問了問我們團(tuán)隊(duì)其他人最喜歡的課程,我的朋友和同事 Manohar Paluri 向我指出,比如說,喬治亞理工大學(xué)在線課程Pushkar Kolhe 和 Charles Isbell 與 Udacity 聯(lián)合教授覆蓋了機(jī)器學(xué)習(xí)的基礎(chǔ)知識。

  爽的是大多數(shù)/所有這些資源都是免費(fèi)的!在學(xué)習(xí)這些視頻時,另外還很重要的是要親自動手鼓搗代碼,看這些東西是如何運(yùn)作的。鑒于Torch、Caffe、Theano、TensorFlow這些工具已經(jīng)可供下載,而且同時支持GPU和CPU,實(shí)驗(yàn)就是很簡單的事情了。深入到這些代碼中始終是快速學(xué)習(xí)的好方法。

  你怎么看待對話引擎(conversational engine)的未來?

  對于對話和口語接口來說,現(xiàn)在是一個激動人心的時刻。但還仍然非常早期。Siri 和 Cortana 這樣的個人助手提供了簡單的任務(wù)完成和搜索引擎和自然接口。對于 Facebook,我們相信大機(jī)會在人們與 Facebook 本身的交互之中。如果你想想人們使用 Facebook 的方式,這里每天都發(fā)生著數(shù)百萬計的多路對話。使用對話理解和會話技術(shù),F(xiàn)acebook 自己可能就能參與到這些對話中,而不只是被動地協(xié)助他們;我們還希望通過挖掘存儲在 Facebook 圖片庫中的海量知識來增加價值。

  如果你對 Facebook 的對話引擎和語言技術(shù)感興趣,你可以在 Quora 上關(guān)注我的朋友和同事 Alan Packer.

  Facebook 目前怎么使用計算機(jī)視覺,又計劃在未來怎么使用它?

  最近幾年 Facebook 上的媒體內(nèi)容分享和消費(fèi)出現(xiàn)了巨大的增長。人們從文本轉(zhuǎn)向了照片,而且從照片轉(zhuǎn)向視頻的過程正在進(jìn)行,而且我們已經(jīng)看見了虛擬現(xiàn)實(shí)/增強(qiáng)現(xiàn)實(shí)的影子。過渡到照片標(biāo)志著計算機(jī)視覺作為一種重要工具的出現(xiàn),而且隨著我們轉(zhuǎn)向視頻和虛擬現(xiàn)實(shí)/增強(qiáng)現(xiàn)實(shí),計算機(jī)視覺的發(fā)展動力還在不斷快速增長。計算機(jī)視覺將在理解這些內(nèi)容的公司中扮演至關(guān)重要的角色。它將不只能幫助理解,還能提供更加豐富和更具創(chuàng)造力的方式來分享你的經(jīng)歷(視頻防抖、實(shí)時美顏等)。

  目前,有許多產(chǎn)品組使用了由計算機(jī)視覺系統(tǒng)提供的技術(shù)。這項(xiàng)技術(shù)被用于更好的搜索、用于輔助的圖像字幕、打擊垃圾和不良內(nèi)容、篩選出違反我們政策的廣告給人工審核、制作人口密度圖、確定 Instagram 趨勢、檢測紀(jì)念日和重要時刻相似的照片等。每一個接觸照片、視頻和虛擬現(xiàn)實(shí)/增強(qiáng)現(xiàn)實(shí)的產(chǎn)品組都會利用來自計算機(jī)視覺組的信號。

  計算機(jī)視覺未來也將在 Facebook 及其各種產(chǎn)品的使用中發(fā)揮巨大的作用。想象一個簡單的例子:我們向部分人開放了視頻直播并已經(jīng)取得了良好的使用。當(dāng)我們將其開放給我們網(wǎng)絡(luò)上的十多億人時,將會出現(xiàn)數(shù)百萬個并行的頻道。這種信息爆炸意味著讓用戶能在相似的頻道間切換和基于文本搜索直播視頻等是非常重要的。

  Facebook 的本地搜索由人們的經(jīng)歷驅(qū)動,我們可以很出色地完成給出旅行、餐廳和周邊事物的個性化建議的工作。圍繞這一工作的大部分內(nèi)容都是照片和視頻。下一代虛擬現(xiàn)實(shí)可以使用由內(nèi)而外的跟蹤,這是計算機(jī)視覺的核心問題。隨著計算機(jī)視覺越來越好,隨著我們了解照片和視頻中內(nèi)容并開發(fā)出強(qiáng)大的視覺表征,我們將有能力推動目前甚至還沒在 Facebook 平臺上出現(xiàn)的新領(lǐng)域。

  如果你想詢問關(guān)于計算機(jī)視覺及其在 Facebook 應(yīng)用的具體問題,可以試試在 Quora 上向我的朋友兼同事 Manohar Paluri 提問!

  我們以前使用的是微軟必應(yīng)翻譯服務(wù),但最近我們已經(jīng)使用我們自己的數(shù)據(jù)訓(xùn)練的自己的機(jī)器翻譯技術(shù)進(jìn)行了替代。我們這么做的主要原因是我們發(fā)現(xiàn) Facebook 帖子和評論的語言與其它網(wǎng)絡(luò)都不同:它非常俚語化,非常區(qū)域化,是非正式的人與人之間的交流而非文件或?qū)I(yè)寫作。所以,調(diào)整這項(xiàng)技術(shù)適應(yīng) Facebook 的語言并訓(xùn)練我們自己的數(shù)據(jù)讓我們可以開發(fā)出更為精準(zhǔn)的機(jī)器翻譯。

  Facebook 怎么識別照片中的人?

  當(dāng)你將照片上傳到 Facebook 時,我們專門的面部識別服務(wù)器會將其選出進(jìn)行處理。

  第一步是定位圖像中所有的臉(也被稱作人臉檢測)。這一步的結(jié)果是一組線條框?qū)⒚繌埬樔α似饋恚浅n愃朴谖覀兙W(wǎng)站上作為標(biāo)記體驗(yàn)的一部分的標(biāo)記框?,F(xiàn)在我們知道了圖像中所有臉的具體位置,我們繼續(xù)第 2 步——識別。

  對每一張臉我們運(yùn)行專門為這一任務(wù)訓(xùn)練的機(jī)器學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)。這一網(wǎng)絡(luò)會為每張臉輸出一個數(shù)字表示。一種思考這種表示的好方法是將其作為高維空間中的一個點(diǎn)(坐標(biāo)列表)。一個好的表示方法可以將同一個人的不同面部照片映射到這一空間中的同一區(qū)域,同時還能保持這些區(qū)域(其中每一個都代表不同的個體)之間很遠(yuǎn)的間隔。我們實(shí)際上為每一個人都創(chuàng)建了一個專門的模型,這樣我們可以快速確定一張給出的新面部照片是該位于這個區(qū)域之內(nèi)還是之外。

  最后一步是收集你和你朋友所有可用的面部識別模型,然后將上傳的照片中每一張臉的上述表示和這些模型進(jìn)行比較,然后選出最佳匹配的候選標(biāo)簽作為你的標(biāo)記建議。所有這些處理在上傳后很快就完成了,足夠及時讓你在寫你的帖子時看到這些標(biāo)記建議。(來源|機(jī)器之心  編譯|亞洲,閏松,chenxiaoqing,吳攀,賽坡,微胖)

 

喜歡您正在閱讀的內(nèi)容嗎?歡迎免費(fèi)訂閱泰伯每周精選電郵。 立即訂閱

參與評論

【登錄后才能評論哦!點(diǎn)擊

  • {{item.username}}

    {{item.content}}

    {{item.created_at}}
    {{item.support}}
    回復(fù){{item.replynum}}
    {{child.username}} 回復(fù) {{child.to_username}}:{{child.content}}

更多精選文章推薦