12位導演部部“隱藏款”,騰訊視頻動漫這波淺淺next level | 放棄高薪毅然回鄉創業,他竟用5年奇跡般做到全國同行業前五強 | 從傳統到雲化 | 浩辰CAD 365 開啟協同設計新模式 | 達索系統與Mistral AI攜手提供AI驅動的行業解決方案,加速生成式經濟發展 | 西安工業大學材化學院赴安康開展助力鄉村振興工作 | 中廣歐特斯入局工業熱泵市場,助力工業生産“增綠添效” | 火山引擎ByteHouse發佈高性能全文檢索引擎 | 再創佳績!海信商用鐳射投影主流亮度段産品出貨量躋身行業TOP2 | 小語種AI翻譯技術新成果,傳音榮獲WMT 2024國際機器翻譯大賽三項冠軍 | 國家廣播電視總局公佈2024年第一季度優秀網路視聽作品,抖音10部作品入選 |
 
當前位置: 新聞>滾動>

火山引擎ByteHouse發佈高性能全文檢索引擎

發佈時間:2024-07-16 15:28:49  |  來源:中國網科學  |  作者:袁夢  |  責任編輯:科學頻道

隨著數字時代的發展,數據的來源和生成方式越來越廣泛,數據形態也愈加豐富。

以某電商平臺的數據情況舉例。該電商平臺每日産生大量數據,有些為電商平臺的訂單數據,包括訂單號、商品數量、金額、購買時間等,由於這類數據具有明確的格式和固定的字段,並遵循一定的格式,屬於結構化數據;有些如客服與客戶的聊天記錄、客戶對具體商品的反饋等,這類數據沒有固定格式和明確結構,包括文本、視頻、圖片、音頻等,則屬於非機構化數據。

為了能更好支撐該電商平臺對數據的使用,底層數據引擎的選型要適應不同數據格式的要求,但採用多套數據引擎也會存在架構複雜、靈活性差、運維壓力大等問題。那麼,是否能用統一數據架構解決以上問題?

火山引擎ByteHouse全文檢索引擎為這一問題提出了解決方案。

作為一款定位為OLAP的分析型數據庫,ByteHouse在支援結構化數據檢索方面具備先天優勢,而此次發佈的全文檢索引擎則補齊了對非結構化、半結構化等數據的快速檢索能力,讓用戶可以構建一體化的數據管理、查詢服務,降低運維成本和資源成本。據介紹,ByteHouse全文檢索引擎,能夠支援商品搜索、知識庫搜索、日誌分析等場景下對文本數據進行關鍵字檢索。

不僅僅能幫助用戶精簡數據架構,ByteHouse相比于行業常見的非結構化數據處理引擎,如ElasticSearch也具備明顯優勢。

在性能層面,相關測試數據顯示,當單伺服器日誌寫入量在50MB-200MB/s,每秒寫入超過30w記錄數的情況下,ByteHouse是ElasticSearch性能的5倍以上。在成本層面,ByteHouse具備更高數據壓縮比、消耗更少的CPU資源,在保障高效查詢的基礎上,還能進一步壓縮伺服器成本。在穩定性層面,ByteHouse冷熱分離機制、負載均衡策略,讓數據穩定性更高。

除此之外,對於研發人員來説,ElasticSearch上手較難,不支援SQL,數據管理和維護較為麻煩,而ByteHouse採用SQL語法,極大降低學習成本。

截至目前,ByteHouse全文檢索能力已經在諸多場景落地。比如,仟傳網路之前通過自建ElasticSearch來提供輿情相似度檢索能力,但從性能、成本角度來看,無法滿足需求。從ElasticSearch遷移到ByteHouse之後,ByteHouse在幾十億數據下查詢和寫入都非常穩定,還讓總資源成本整體節省了60%。

9bfd8a48b202eda7dc36cbbbc2fdc610_1721114044648282.png

ByteHouse全場景分析引擎

“一元化數據、多元化引擎”是ByteHouse的産品理念,旨在通過構建統一的平臺為用戶提供更豐富的數據分析能力,實現數據效能最大化。除了全文檢索引擎,ByteHouse還推出了GIS引擎、Vector引擎,讓用戶在享受OLAP極致性能的同時,無需引入其他架構,就能使用地理空間分析、向量檢索能力,進一步提升使用體驗。