國外創投新聞|美國初創「Heartex」獲2500萬美元A輪融資,幫助數據科學家管理數據標注流程

來源:36氪
發佈時間:2022-05-20
已服務超十萬名數據科學家

據外媒TechCrunch報道,美國數據標注公司「Heartex」近期完成2500萬美元A輪融資,由Redpoint Ventures領投,Unusual Ventures、Bow Capital和Swift Ventures跟投。據悉,本輪融資資金將用於提升産品以及人才拓展。

軟體工程師Michael Malyuk、Maxim Tkachenko和Nikolay Lyubimov于2019年在舊金山創立Heartex,旨在創立數據標簽平臺,為機器學習模型提供更加準確的訓練數據。

Label Studio後臺管理頁面

McKinsey 2021 AI領域調查報告,2021年企業AI使用率上升至56%,高於2020年的50%,常用於産品開發、行銷銷售和戰略財務的業務中,且由此帶來的稅前利潤增長從2020年的22%上升至27%。當越來越多的企業使用AI模型輔助業務決策,那訓練數據是否準確客觀很大程度上也影響了其結果的可參考性。Heartex聯合創始人兼CEO Michael Malyuk表示,一定程度上,部分演算法的開發研究已經到了收益遞減的地步,而優化數據標簽是提升演算法模型更具性價比的選擇。

模型通過標簽來學習數據之間的關係,比如為廚房水槽的圖片標注“廚房水槽”的標簽,再基於模型學習,判斷未標注圖片是否屬於廚房水槽這一類。但其中的問題,不僅是數據格式有圖像、視頻、音頻、文本等不同類型,難以統一處理,還是專業領域標準門檻較高,比如法律合同、醫學影像、研究文獻等材料,人類註釋者也難以保證沒有疏忽。

Malyuk認為,最可行的解決方案就是讓具備專業知識的內部團隊負責註釋和管理訓練數據。目前,Heartex主要産品Label Studio面向數據工程師,支援不同行業、數據格式、AI模型的標簽管理,同時提供數據品質管理、分析報告等功能。Heartex用戶可以在後臺管理不同註釋者的標簽註釋情況,判斷標簽是否準確,並監控標簽品質。

Label Studio標簽管理頁面

在數據隱私方面,Malyuk表示,Heartex的數據平臺和管理控制平臺是分離的,可以保證客戶存儲數據的私密性,也不收集任何客戶數據,並開源Label studio核心代碼以供檢查。

目前,Label Studio面向個人及非盈利團體免費,軟體可以直接從GitHub中下載安裝,主要付費用戶是企業內部數據團隊。Malyuk透露使用Heartex的數據科學家超過十萬名,既有小型初創企業,也有全球100強,但並未透露具體收入。

不少初創企業都已經注意到數據標簽領域的巨大機會。除了36氪之前關注的AIMMO,還有Labelbox、Scale AI和Snorkel AI,以及Google和Amazon旗下的Google Cloud和SageMaker 所提供的數據標簽産品。與其他産品不同的是,Heartex並不提供數據標注服務,而是提供標注管理平臺。

本文圖片來自:企業官方 正版圖庫