谷歌的研究者提出了 Google Scanned Objects (GSO) 數(shù)據(jù)集,這是一個由超過 1000 個 3D 掃描的家用物品組成的精選集。 近年來,深度學(xué)習(xí)技術(shù)使得計算機視覺和機器人領(lǐng)域的許多進(jìn)展成為可能,但訓(xùn)練深度模型需要各種各樣的輸入,以泛化到新的場景。 此前,計算機視覺領(lǐng)域已經(jīng)利用網(wǎng)頁抓取技術(shù)收集了數(shù)百萬個主題的數(shù)據(jù)集,包括 ImageNet、Open Image、Youtube-8M、COCO 等。然而,給這些數(shù)據(jù)集貼標(biāo)簽仍是一個勞動密集型工作,標(biāo)簽錯誤可能會影響到對技術(shù)進(jìn)步的感知,而且這種策略也很難推廣至 3D 或真實世界的機器人數(shù)據(jù)上。與圖像不同的是,目前網(wǎng)絡(luò)上并沒有大規(guī)模、高質(zhì)量的 3D 場景,而從真實世界收集這類數(shù)據(jù)又極具挑戰(zhàn)性。此外,人工標(biāo)注員也很難從圖像中提取 3D 幾何特性。