高質量的數(shù)據(jù)是驅動人工智能算法的燃料。如果沒有連續(xù)的標記數(shù)據(jù)流,就會出現(xiàn)瓶頸,算法會慢慢變差,給系統(tǒng)增加風險。 這就是為什么標簽數(shù)據(jù)對于Zoox、Cruise和Waymo等公司來說是如此重要的原因,這些公司利用標簽數(shù)據(jù)來訓練機器學習模型,以開發(fā)和部署自主車輛。
正是這種需求催生了Scale-AI,這家初創(chuàng)公司利用軟件和人員來處理和標記圖像、激光雷達和地圖數(shù)據(jù),為構建機器學習算法的公司服務。Airbnb、Pinterest和OpenAI等公司也在使用該平臺。
該公司與激光雷達制造商和碩(Hesai)合作,于本周推出了一個名為PandaSet的開源數(shù)據(jù)集,可用于訓練自動駕駛的機器學習模型。該數(shù)據(jù)集是免費的,可用于學術和商業(yè)用途,包括使用Hesai的具有類似圖像分辨率的前向PandarGT激光雷達以及其機械旋轉激光雷達Pandar64收集的數(shù)據(jù)。據(jù)該公司稱,這些數(shù)據(jù)是在舊金山和硅谷的市區(qū)行駛時收集的。
Scale首席執(zhí)行官兼聯(lián)合創(chuàng)始人亞歷山德王(Alexandr Wang)在最近的一次采訪中告訴TechCrunch:“人工智能和機器學習是不可思議的技術,具有難以置信的潛在影響,但也會給人帶來巨大的痛苦。”。“機器學習絕對是一種垃圾輸入、垃圾輸出的框架——你真的需要高質量的數(shù)據(jù)來支持這些算法。這就是我們建立規(guī)模的原因,也是我們今天使用這些數(shù)據(jù)集從開源角度推動行業(yè)發(fā)展的原因。”
這個激光雷達數(shù)據(jù)集的目標是免費訪問一個密集和內(nèi)容豐富的數(shù)據(jù)集,Alexandr Wang說,這是通過在充滿汽車、自行車、交通燈和行人的復雜城市環(huán)境中使用兩種激光雷達來實現(xiàn)的。該數(shù)據(jù)集包括超過48000張相機圖像和16000次激光雷達掃描,據(jù)該公司稱,超過100個8秒的場景。它還包括每個場景的28個注釋類和大多數(shù)場景的37個語義分段標簽。例如,傳統(tǒng)的長方體標簽,那些放在自行車或汽車周圍的小盒子,不能充分識別所有的激光雷達數(shù)據(jù)。因此,Scale使用一個點云分割工具精確地標注復雜的對象。
開源AV數(shù)據(jù)并不完全是新生的。去年,Aptiv和Scale發(fā)布了nuScenes,一個來自自主車輛傳感器套件的大規(guī)模數(shù)據(jù)集。Argo-AI、Cruise和Waymo等多家AV公司也向研究人員發(fā)布了數(shù)據(jù)。Argo-AI發(fā)布了精確的數(shù)據(jù)和高清地圖,而Cruise共享了一個數(shù)據(jù)可視化工具Webviz,它將從機器人上的所有傳感器收集的原始數(shù)據(jù)轉換成視覺效果。
{{item.content}}