高質(zhì)量的數(shù)據(jù)是驅(qū)動(dòng)人工智能算法的燃料。如果沒有連續(xù)的標(biāo)記數(shù)據(jù)流,就會(huì)出現(xiàn)瓶頸,算法會(huì)慢慢變差,給系統(tǒng)增加風(fēng)險(xiǎn)。 這就是為什么標(biāo)簽數(shù)據(jù)對(duì)于Zoox、Cruise和Waymo等公司來說是如此重要的原因,這些公司利用標(biāo)簽數(shù)據(jù)來訓(xùn)練機(jī)器學(xué)習(xí)模型,以開發(fā)和部署自主車輛。
正是這種需求催生了Scale-AI,這家初創(chuàng)公司利用軟件和人員來處理和標(biāo)記圖像、激光雷達(dá)和地圖數(shù)據(jù),為構(gòu)建機(jī)器學(xué)習(xí)算法的公司服務(wù)。Airbnb、Pinterest和OpenAI等公司也在使用該平臺(tái)。
該公司與激光雷達(dá)制造商和碩(Hesai)合作,于本周推出了一個(gè)名為PandaSet的開源數(shù)據(jù)集,可用于訓(xùn)練自動(dòng)駕駛的機(jī)器學(xué)習(xí)模型。該數(shù)據(jù)集是免費(fèi)的,可用于學(xué)術(shù)和商業(yè)用途,包括使用Hesai的具有類似圖像分辨率的前向PandarGT激光雷達(dá)以及其機(jī)械旋轉(zhuǎn)激光雷達(dá)Pandar64收集的數(shù)據(jù)。據(jù)該公司稱,這些數(shù)據(jù)是在舊金山和硅谷的市區(qū)行駛時(shí)收集的。
Scale首席執(zhí)行官兼聯(lián)合創(chuàng)始人亞歷山德王(Alexandr Wang)在最近的一次采訪中告訴TechCrunch:“人工智能和機(jī)器學(xué)習(xí)是不可思議的技術(shù),具有難以置信的潛在影響,但也會(huì)給人帶來巨大的痛苦。”。“機(jī)器學(xué)習(xí)絕對(duì)是一種垃圾輸入、垃圾輸出的框架——你真的需要高質(zhì)量的數(shù)據(jù)來支持這些算法。這就是我們建立規(guī)模的原因,也是我們今天使用這些數(shù)據(jù)集從開源角度推動(dòng)行業(yè)發(fā)展的原因。”
這個(gè)激光雷達(dá)數(shù)據(jù)集的目標(biāo)是免費(fèi)訪問一個(gè)密集和內(nèi)容豐富的數(shù)據(jù)集,Alexandr Wang說,這是通過在充滿汽車、自行車、交通燈和行人的復(fù)雜城市環(huán)境中使用兩種激光雷達(dá)來實(shí)現(xiàn)的。該數(shù)據(jù)集包括超過48000張相機(jī)圖像和16000次激光雷達(dá)掃描,據(jù)該公司稱,超過100個(gè)8秒的場(chǎng)景。它還包括每個(gè)場(chǎng)景的28個(gè)注釋類和大多數(shù)場(chǎng)景的37個(gè)語義分段標(biāo)簽。例如,傳統(tǒng)的長方體標(biāo)簽,那些放在自行車或汽車周圍的小盒子,不能充分識(shí)別所有的激光雷達(dá)數(shù)據(jù)。因此,Scale使用一個(gè)點(diǎn)云分割工具精確地標(biāo)注復(fù)雜的對(duì)象。
開源AV數(shù)據(jù)并不完全是新生的。去年,Aptiv和Scale發(fā)布了nuScenes,一個(gè)來自自主車輛傳感器套件的大規(guī)模數(shù)據(jù)集。Argo-AI、Cruise和Waymo等多家AV公司也向研究人員發(fā)布了數(shù)據(jù)。Argo-AI發(fā)布了精確的數(shù)據(jù)和高清地圖,而Cruise共享了一個(gè)數(shù)據(jù)可視化工具Webviz,它將從機(jī)器人上的所有傳感器收集的原始數(shù)據(jù)轉(zhuǎn)換成視覺效果。
{{item.content}}