亚洲熟妇av一区二区三区,亚洲av中文无码乱人伦在线视色,亚洲人成网站色www,亚洲欧美日韩国产综合在线一区 ,亚洲av之男人的天堂网站

分享
Scan me 分享到微信

如何用圖像識別技術來變革商業(yè)?這里有份操作指南

如何用圖像識別技術來變革商業(yè)?這里有份操作指南

  近期 Facebook F8 開發(fā)者大會上,馬克·扎克伯格發(fā)布了一項野心勃勃的人工智能計劃“建立一套在感知方面比人類更好的系統(tǒng)”。此外,他還展示了一項令人印象深刻的圖像識別技術——通過用語音解說的方式讓盲人“看到”圖片里的內(nèi)容。

  從幫助視覺受損的人到識別大型動物的車內(nèi)安全功能(注:沃爾沃開發(fā)的自動化安全技術),再到自動組織無標簽的圖片集以及從社交網(wǎng)絡分享的圖片中提取出商業(yè)洞見,圖像識別或計算機視覺的好處才剛剛開始展現(xiàn)——但它們正在變得更快更深入。

  即將到來的 LDV Vision 峰會是展示所有視覺技術的年度會議,從虛擬現(xiàn)實到醫(yī)療成像和內(nèi)容分析。“最近,計算機視覺的進步在圖像分析領域創(chuàng)造了巨大機會,給每個垂直商業(yè)領域帶來的影響呈指數(shù)級增長,包括自動化、廣告和增強現(xiàn)實等。”LDV Capital(本次峰會組織者)的 Evan Nisselson 說到。

  像自然語言處理、生物信息學、博弈論等其他人工智能形式一樣,計算機視覺也在很大程度上得益于開源、深度學習、用戶友好的編程工具,以及更快、更便宜的計算能力。

  很多人都認為深度學習和人工智能將成為下一個重大突破,但從更加具體和實用的角度來說,這些不同的工具應該如何工作?應該通過何種方式將可商用的圖像技術帶給全世界?谷歌的 TensorFlow 與 Facebook 的 DeepFace 或者微軟的“牛津計劃”一樣嗎?為了幫大家分辨這些東西,下面是對當前圖像技術工具和商業(yè)使用方法的簡要說明。

  訓練素材:公開數(shù)據(jù)

  得益于深度學習,計算機能夠比以往更快更精準的識別圖片,但它們需要大量數(shù)據(jù)。

  ImageNet 和 Pascal VOC 經(jīng)過多年積累建立了包含幾百萬張圖片的龐大且免費的數(shù)據(jù)集,用描述圖片內(nèi)容的關鍵詞為圖片做好了標簽,包括貓、山、披薩和體育活動等。這些開源數(shù)據(jù)集是使用機器學習進行圖像識別的基礎。

  ImageNet 每年一度的圖像識別挑戰(zhàn)賽眾所周知,ImageNet 由斯坦福大學和普林斯頓大學的計算機科學家在2009年發(fā)起,當時有 80,000 張打好標簽的圖片,到今天這個數(shù)據(jù)已經(jīng)增加到 140 萬張,這些數(shù)據(jù)可以隨時被用來進行機器訓練。

  Pascal VOC 由英國的幾所大學支持,他們的圖片數(shù)量較少,但每張圖片有著更加豐富的釋文。這提升了機器學習的準確度和應用范圍,加快了整個過程,因為它可以省略掉一些繁重的子任務。

  如今,谷歌、Facebook 等科技巨頭、創(chuàng)業(yè)公司、高校等都在使用這些開源圖片集來喂養(yǎng)他們的機器學習“猛獸”,但科技巨頭還享受另外一項優(yōu)勢,谷歌和 Facebook 可以從 Google Photos 社交網(wǎng)絡上獲取數(shù)百萬張用戶已經(jīng)標記好的圖片。你之前有沒有考慮過,為何谷歌和 Facebook 會讓你免費上傳如此多圖片?原因就在于這些圖片可以將他們的深度學習網(wǎng)絡訓練的更加準確。

  建筑模塊:開源軟件庫和框架

  在你有了數(shù)據(jù)之后,就需要建立一臺能夠從數(shù)據(jù)中進行學習的機器,從開源軟件庫可以免費獲得開發(fā)框架,這是建立服務于各種不同計算機視覺功能的機器學習系統(tǒng)的起點,包括人臉和情緒識別、醫(yī)療篩查和汽車中的大型動物障礙物探測。之后,再拿從 ImageNet 等其處獲得的圖片去訓練這些機器學習系統(tǒng)。

  谷歌 TensorFlow 是眾多周知的幾個軟件庫之一,它的覆蓋面比較廣,而且部分內(nèi)容在去年開源。TensorFlow 的一些內(nèi)容依然是歸谷歌專用,被用來開發(fā)公司的多個人工智能項目,比如自動駕駛汽車、Google Now 和 Google Photos 。

  TensorFlow 不是第一個開源框架,加州大學伯克利分校的 Caffe 自2009年發(fā)布,到今天依然很流行,原因是它的高度可定制化以及大規(guī)模的創(chuàng)新者社區(qū),Pinterest 、雅虎/Flickr 都是 Caffe 的重度用戶,甚至谷歌也將 DeepDream 等特定項目放在 Caffe 上進行開發(fā)。

  另外一個創(chuàng)建于 2002 年的開源軟件庫 Torch 也很流行,因為 Facebook 的人工智能實驗室在使用它,并在2015年初開源了一些模塊。其中一些工具經(jīng)過優(yōu)化后,能夠在多個圖像處理器或者多臺計算機上運行,從而增強性能,加速深度學習過程。類似的, NVIDIA 的 cuDNN 也是一個開源軟件庫,能夠?qū)τ嬎銠C的 GPU 表現(xiàn)進行優(yōu)化,使機器學習更加快速。

  這些靈活強健的工具需要公司配備專門的計算機視覺工程師及相應的硬件資源,因此,只有那些希望將計算機視覺作為產(chǎn)品策略中重要一環(huán)的公司才會采取這樣方式,他們在應用中需要自己的軟件。

  立即可用的云端 API 服務

  并不是每個公司都有資源和意向在這個領域進行投資,組建一支計算機視覺工程隊伍。甚至即便你找到了合適的團隊,在做到應用之前也依然還有大量困難工作需要去做,云端 API 服務適時出現(xiàn)了。通過在云端實施,這些解決方案提供了立即可用的圖像識別服務菜單,這些服務能夠很輕易的被整合進現(xiàn)有 APP 中,也可以被用來開發(fā)一個特定工具,或者一項完整業(yè)務。

  比如,旅行網(wǎng)站 Travel Channel 需要“地標檢測”在登陸頁面上展示與特定路標相關的照片;婚戀交友網(wǎng)站 eHarmony 希望將用戶上傳的“不安全”照片過濾掉。這些公司都不想、也沒有必要開設基于深度學習的圖像識別開發(fā)業(yè)務,但他們依然可以從這些功能中獲益。

  Google Cloud Vision 就是一款提供圖像識別功能的 API,它提供一系列圖片分析服務,從人臉識別到 OCR ,再到位置標記和內(nèi)容識別,該服務按張計費。微軟認知服務(牛津計劃)提供了一套圖像識別 API 服務,包括人臉識別、名人識別和情緒識別,收費模式是每 1000 次圖片處理乘以一個特定比例。同時,Clarifai 等創(chuàng)業(yè)公司也在提供計算機視覺 API 服務,幫助客戶整理內(nèi)容、過濾不安全圖片和視頻、基于照片提供購買建議等等。

  定制化計算機視覺技術

  當然,這并不是非黑即白的問題。計算機視覺工程團隊不需要達到谷歌的規(guī)模,那些不希望自行開發(fā)人工智能系統(tǒng)的大大小小的公司也依然能夠獲得強健的、個性化的圖像識別解決方案。比如,如果一家化妝品公司想要找到一些頭發(fā)濃密客戶的照片,用于造型洗發(fā)水廣告,它需要團隊建立一套個性化算法來搜索濃密頭發(fā)的照片,因為他們需要立即可用的商業(yè)化解決方案,這種應用場景已經(jīng)司空見慣了。

  對于 Logo ,目前這些依然是有利可圖的商業(yè)應用,它們近期還無法從開源社區(qū)中找到解決方案。如果我們無法輕易獲取封閉的數(shù)據(jù)集,那也沒關系,因為還可以從社交媒體上拿到數(shù)量可觀的圖片,成為飼養(yǎng)這頭機器學習“猛獸”的重要食物來源。

  如果一些公司有工程師團隊,那他們就可以將開源框架和公開數(shù)據(jù)結(jié)合起來。如果他們沒有把整個業(yè)務都押注在計算機視覺上,也可以使用托管在服務器端上的 API 服務。

  對于那些有著廣泛具體應用的公司來說,也有定制化解決方案。不管采取何種途徑,很顯然易見的是圖像識別很少會孤立存在;通過接觸更多的圖片、實時數(shù)據(jù)、特定應用和更快的處理速度,圖像識別將變得越發(fā)強大。各類公司需要最大限度的將這些整合起來,才能為下一步的成功做好準備。(來源|機器之心 文|Ken Weiner)

       如果您對您所在行業(yè)有很深認知,也想在我們的平臺上說點什么,我們歡迎您來投稿!

喜歡您正在閱讀的內(nèi)容嗎?歡迎免費訂閱泰伯每周精選電郵。 立即訂閱

參與評論

【登錄后才能評論哦!點擊

  • {{item.username}}

    {{item.content}}

    {{item.created_at}}
    {{item.support}}
    回復{{item.replynum}}
    {{child.username}} 回復 {{child.to_username}}:{{child.content}}

更多精選文章推薦