隨著數字時代的發展,數據的來源和生成方式越來越廣泛,數據形態也愈加豐富。
以某電商平臺的數據情況舉例。該電商平臺每日産生大量數據,有些為電商平臺的訂單數據,包括訂單號、商品數量、金額、購買時間等,由於這類數據具有明確的格式和固定的字段,並遵循一定的格式,屬於結構化數據;有些如客服與客戶的聊天記錄、客戶對具體商品的反饋等,這類數據沒有固定格式和明確結構,包括文本、視頻、圖片、音頻等,則屬於非機構化數據。
為了能更好支撐該電商平臺對數據的使用,底層數據引擎的選型要適應不同數據格式的要求,但採用多套數據引擎也會存在架構複雜、靈活性差、運維壓力大等問題。那麼,是否能用統一數據架構解決以上問題?
火山引擎ByteHouse全文檢索引擎為這一問題提出了解決方案。
作為一款定位為OLAP的分析型數據庫,ByteHouse在支援結構化數據檢索方面具備先天優勢,而此次發佈的全文檢索引擎則補齊了對非結構化、半結構化等數據的快速檢索能力,讓用戶可以構建一體化的數據管理、查詢服務,降低運維成本和資源成本。據介紹,ByteHouse全文檢索引擎,能夠支援商品搜索、知識庫搜索、日誌分析等場景下對文本數據進行關鍵字檢索。
不僅僅能幫助用戶精簡數據架構,ByteHouse相比于行業常見的非結構化數據處理引擎,如ElasticSearch也具備明顯優勢。
在性能層面,相關測試數據顯示,當單伺服器日誌寫入量在50MB-200MB/s,每秒寫入超過30w記錄數的情況下,ByteHouse是ElasticSearch性能的5倍以上。在成本層面,ByteHouse具備更高數據壓縮比、消耗更少的CPU資源,在保障高效查詢的基礎上,還能進一步壓縮伺服器成本。在穩定性層面,ByteHouse冷熱分離機制、負載均衡策略,讓數據穩定性更高。
除此之外,對於研發人員來説,ElasticSearch上手較難,不支援SQL,數據管理和維護較為麻煩,而ByteHouse採用SQL語法,極大降低學習成本。
截至目前,ByteHouse全文檢索能力已經在諸多場景落地。比如,仟傳網路之前通過自建ElasticSearch來提供輿情相似度檢索能力,但從性能、成本角度來看,無法滿足需求。從ElasticSearch遷移到ByteHouse之後,ByteHouse在幾十億數據下查詢和寫入都非常穩定,還讓總資源成本整體節省了60%。
ByteHouse全場景分析引擎
“一元化數據、多元化引擎”是ByteHouse的産品理念,旨在通過構建統一的平臺為用戶提供更豐富的數據分析能力,實現數據效能最大化。除了全文檢索引擎,ByteHouse還推出了GIS引擎、Vector引擎,讓用戶在享受OLAP極致性能的同時,無需引入其他架構,就能使用地理空間分析、向量檢索能力,進一步提升使用體驗。