5月31日,2024向星力·未來數據技術峰會在上海隆重舉辦。峰會聚焦人工智慧、大數據、數據要素、數字化轉型、新質生産力等熱門話題,業內知名專家、學者和企業代表分享最新研究成果、技術創新和實踐經驗,高層次産、學、研、用四方的交流和思想碰撞,為企業數據化轉型和AIGC應用提供新思路、新方向和新方法。
在全體大會上,星環科技創始人、CEO孫元浩指出,大模型技術已快速融入企業生産經營的方方面面,在企業生産效率提升、業務職能提效和行業應用場景創新中無處不在,不但重構産業,打造企業的核心競爭力,而且成為企業的基礎設施和核心能力,助力企業打造新質生産力。
從Data Infra到AI Infra,為企業打造自己的AI基礎設施
人工智慧大模型正在催生新一輪技術創新與産業變革,也將為金融、製造、交通、政務等眾多行業企業數字化轉型和高品質發展帶來新的動能。當前市場以通用基礎大模型為主,通識能力強,但缺少行業專業知識。將大模型融入千行百業,讓企業的AI應用從早期直接調用通用大模型,發展到建立自己的AI基礎設施,打造行業或特定領域、任務的專用大模型,助力生産力革新和産業升級,已經成為目前企業關注的核心。
星環科技創始人、CEO孫元浩宣佈,星環科技的定位從Data Infra進一步延伸到AI Infra,為企業客戶打造AI基礎設施,打造從語料處理、模型訓練、知識庫建設等的一整套的工具鏈,幫助企業快速建立行業大模型,快速使用AIGC。
從需求上看,目前,通用大模型數量快速增加,並不斷升級迭代、提質增效,但是卻不能適應企業AI應用的需求。而另一方面,企業對行業大模型需求增加,迫切需要降低使用門檻,更加普惠地使用大模型、生成式AI技術,以解決企業內部人才、算力、數據等不足的挑戰。將AGI限制在一個特定領域或者一個行業或者特定任務,不斷提升模型準確度,成為一條切實可行的發展途徑。
在技術上,生成式AI出現後,深度學習出現了一個重大變化,從以前的可能幾千萬、上億的樣本數量的大樣本機器學習,演變成現在小樣本機器學習,讓行業大模型應用範圍變得更很廣,讓模型能夠思考、學習,能夠理解自然語言,能夠完成更多的工作。
每個國家都需要主權AI,需要建立自己的AI基礎設施,打造自己的AI模型。企業同樣需要自身的AI Infra,打造行業大模型,賦能企業更快、更容易地使用大模型,釋放數據價值。
針對企業的AI Infra建設,星環科技通過自主研發,可以向用戶提供一站式企業級大模型生産及應用全流程開發工具鏈,讓大模型快速落地。星環科技擁有從語料到模型再到應用的完整的 AI Infra工具集,覆蓋語料開發和管理、大模型訓練與持續提升、多模態知識工程、多模知識存儲與服務、原生AI應用構建編排和應用服務等重要階段,提供提示詞工程、檢索增強、智慧體構建等大模型應用快速構建和提升、模型推理優化、模型安全和持續提升技術。
通過星環科技AI Infra工具,企業能夠準確、高效地將擁有的多種來源的多模語料轉換為高品質的專業領域知識,並且源源不斷地支撐專業知識庫問答、業財數據分析、智慧投研、設備預測性維護等豐富的使用場景和應用,讓企業構築知識壁壘,實現“人工智慧+”業務的落地和創新。
星環科技AI Infra工具支援異構算力、語料、知識、大模型應用的統一管理,為數據和語料資産的集約化提供了一站式平臺,且具備企業級的組織空間管理能力。
未來,星環科技通過自主研發,不斷完善AI從基礎設施到應用的産業鏈條,可以為客戶提供端到端的全套AI解決方案。
星環知識平臺TKH,為企業高效構建AI Infra
星環科技整合大數據、人工智慧等技術,推出知識平臺Transwarp Knowledge Hub(TKH),為企業提供一個全面、高效、智慧的數據處理和知識管理解決方案,可以實現企業內部所有資料知識化的目標,並且可以統管企業Al Infra算力、語料、模型和應用,助力企業打造安全可控AI Infra,幫助企業快速使用AIGC。
星環的知識平臺TKH包括知識存儲與服務、語料開發與知識構建、大模型基礎服務等幾個重要部分。
第一,TDH for AI,打造新一代一站式多模型數字底座。
星環知識平臺TKH提供企業級多模態知識存儲與服務,助力企業打造新一代一站式多模型數字底座。基於Transwarp Data Hub for LLM知識管理平臺的多模型統一技術架構,支援關係型數據、向量數據、全文檢索、圖數據、時序數據等的統一存儲管理,滿足各類場景下多模態數據的統一存儲管理與服務,大幅簡化知識庫的知識存儲與服務層架構,降低開發與運維成本。
星環科技新推出的産品可以讓企業的數據底座實現四個一體化:湖倉集一體化、多模型處理一體化、歷史數據與實時數據處理一體化、本地集群和雲平臺一體化。
其中,大數據基礎平臺TDH 9.4的多模基座加速AI分析;倉集資源隔離架構,在混合業務場景下依然保持極致性能;湖倉一體架構,大幅降低TCO;同份數據跑批查詢與混合負載,實時備份強線上業務容災;同時支援多模型存諸架構、大模型海量訓練數據存儲、多模型混合檢索召回增強、Python生態等。
分佈式向量數據庫Hippo支援文本、圖片、音視頻等轉化後的百億級向量數據的存儲、索引和管理,支援多種索引,具有全文檢索+向量檢索以及稀疏向量+稠密向量的混合檢索等能力。Hippo 2.0可以實現百億級向量存儲,提供靈活索引支援、20倍記憶體成本下降和向量全文混合檢索等特性。
分佈式圖數據庫StellarDB提供萬億級圖數據存儲、毫秒級點邊查詢和10+層深度鏈路分析等能力,支援豐富的圖演算法和圖機器學習,創新的動態時序圖能力更便捷地挖掘數據變化規律和預測分析。而新推出的StellarDB 5.1實現了向量/全文模糊檢索、秒級子圖匹配、跨集群數據災備、RAG增強大模型、GPU演算法加速等功能,更穩定、更安全、更易用。
星環分佈式分析型數據庫ArgoDB支援標準SQL語法,提供多模分析、實時數據處理、聯邦計算、隱私計算、數據脫敏等能力,一站式滿足OLAP分析,實時數倉、數據集市、湖倉集一體等場景。
而新推出的ArgoDB 6.1版本以“增量數據實時處理”技術為基礎,定義併發布“實時數據加工”的智慧高效新範式;結合集群級實時同步與數據海量版本能力,協助用戶夠構建高可靠的實時可信大集群,以數據透明加密、SQL審核/阻斷等安全技術手段為輔,共建“快好省”湖倉集一體的融合數據處理架構。
星環分佈式時序數據庫Timelyre支援海量時序數據庫的存儲與處理,具備每秒千萬級數據吞吐、5~20倍無損壓縮和毫秒級檢索能力,支援Python、C++等API,易用的時序分析框架滿足金融智慧投研需求。TimeLyre 9.2新增了多模型時序分析、極速分佈式回測平臺、投研數據中臺、時序數據湖引擎等,助力用戶解鎖數據深層價值。星環分佈式文件系統TDFS支援10億級以上的大小文件的存儲,並同時支援對象存儲,基於Raft保障強一致,支援HDFS平滑遷移,標準POSIX協議支援上層知識等AI場景應用無感對接。
第二,語料加工工具與圖譜構建工具,助力企業建立高品質模型及應用。
決定行業大模型品質最關鍵的因素就是語料,語料的品質決定了模型的品質。同時高品質語料也是解決行業大模型“幻覺”、“可信可控”等核心落地難點的重要手段。另外,高品質行業專用語料是企業、機構獨特的競爭優勢和天然壁壘。
星環科技發佈了一站式多場景語料平臺Transwarp Corpous Sudio(TCS),覆蓋了語料獲取、清洗、加工、治理、應用和管理的全生命週期,具有多種靈活的採集和構建方式,能分佈式的高效處理海量語料。TCS支援20+主流文檔格式、數據化學公式、複雜語料處理、語料自動標注及篩選、多視角體系化資産編目和數據治理等。
星環TCS擁有全面、多維、精細、增強、資産等5大優勢,是一個功能全面、易用高效、安全可靠的語料開發利器,能夠極大提升語料開發效率,助力企業或機構高品質地構建大模型及其應用。
企業知識庫的建設,讓數據可以用自然語言方式進行對話和檢索,企業可以集中式地管理和利用知識資源,提高運營效率和創新能力。知識庫建設變成企業的基礎設施,所有的不同類型的數據都能進行存儲與管理,能根據需要導入到知識庫中。只要企業保有自己的知識庫,就可以通過微調得到企業專屬的大模型,就可以實現大模型可以隨時選、隨時換,而企業核心競爭力得到保護的目標。
企業用戶利用TKH提供的星環圖譜構建工具Transwarp Knowledge Studio for LLM,可以將企業內部數據、個人經驗數據和公開資訊數據轉化為知識,讓數據平臺更加智慧化,同時可以將AIPC端和雲端資源聯動,確保數據安全性。個人經驗數據的知識轉化和不斷的模型微調讓知識庫建設更具個性化,真正實現個性化、專家級大模型應用。
TKS是一套全流程、端到端的知識圖譜構建工具集,涵蓋了知識模型定義、多源異構數據接入、概念與物理數據映射、多元化知識的抽取融合、全自動知識構建、圖譜綜合查詢等功能,能夠幫助政務、工業、能源等多領域客戶高效構建領域知識體系,並提供智慧應用的場景定制化和一站式解決方案。
第三,大模型基礎服務Infinity和LLMOps,讓大模型快速落地。
在行業大模型發展中,企業面臨技術複雜、數據和算力稀缺、管理成本高等挑戰。現在企業已經意識到必須建立自己的AI基礎設施,能夠自己對模型進行預訓練、微調等。
星環科技推出大模型運營平臺Transwarp Sophon LLMOps,提供一站式企業級大模型生産及應用全流程開發工具鏈,助力企業完成從預訓練到微調,到強化學習,到持續模型評估的全生命週期,讓每個企業都能構建自己的專屬大模型。
可以説,Sophon LLMOps一個平臺可以解決企業在大模型時代語料、模型、應用三類資産的持續積累和加速迭代。
星環科技自主研發的無涯大模型Infinity具備自主可控特性,確保數據安全的同時,通過0-1預訓練,可為各行業量身定制自有大模型,提供強大的意圖理解、語義召回、數據處理和分析能力。
基於無涯大模型底座,星環科技微調了三款垂類大模型,包括問答大模型、數據分析(代碼生成)大模型和多模態大模型,以應對內容生成、數據分析圖片及音視頻理解及檢索等多樣的使用場景。
星環無涯大模型Infinity提供了靈活的部署模式,包括私有化部署(AIPC版、企業版)、公有雲服務等。
Infinity提升大模型數據分析能力,在語法正確性、數據庫方言、語義正確性等方面有重要突破。星環無涯大模型Infinity擁有眾多優勢,如精準問答能力、減少大模型幻覺;多模數據來源,提升回答豐富度;構建自有知識庫,確保企業數據安全等。其主要功能包括智慧問答、文檔問答、智慧寫作等。
一問便知,值得信賴的大模型無涯·問知發佈
基於無涯大模型,星環知識平臺TKH打造了無涯·問知、無涯·問數、無涯·金融、無涯·工程等AI原生應用,可廣泛應用於金融、能源、製造、工程等多個領域,通過精準的數據分析和知識管理,滿足企業不同類型的知識應用需求,提升企業業務效率和競爭力。
本次峰會上,星環科技最新發佈了無涯·問知Infinity Intelligence。無涯·問知是一款基於星環科技大模型底座,結合個人知識庫、企業知識庫、法律法規、財經等多種知識源的企業級垂直領域問答産品。
無涯·問知充分利用了星環科技自研大模型底座的自動化知識工程特性,使其在處理和分析數據方面具有顯著的優勢,允許用戶上傳文檔、表格、圖片等多源數據,並支援與外部數據源的對接,使用戶能夠構建屬於自己的專屬領域大模型。這一創新功能極大地擴展了模型的應用範圍和深度,用戶可基於自身私域知識庫進行更為個性化和深入的數據分析。
無涯·問知支援不限長度的音視頻圖文等多模態數據快速入庫,且支援自動化文檔切片及向量化處理,配合自研的RAG框架,可實現知識的精準召回,可用於市場研究分析、企業供應鏈分析、法律風險預警、智慧寫作等豐富的業務場景中。
無涯·問知包括四大應用場景:企業可以基於星環知識庫TKH,建立企業自己的知識庫應用;當企業算力不足時,可以採用安裝了天涯·問知的AIPC,在本地直接訪問天涯·問知,以彌補AI算力不足問題;中小企業用戶不用自己構建知識庫,可以直接利用星環科技無涯·問知公有雲服務;對於個人而言,可以利用AIPC或者公有雲服務,訪問天涯·問知服務。
在峰會上,無涯·問知AIPC版本發佈,讓知識即刻呈現,讓答案值得信賴。無涯·問知AIPC打通個人文件資料與企業知識庫,形成本地和雲端的知識聯動推理,且可保障個人的數據安全。
無涯·問知AIPC版在實際應用中展現出了五大顯著特性,提供了本地化的向量庫;支援多種格式、不限長度的文件資料入庫,滿足了用戶多樣化的需求;支援影、音、圖、文等多模態數據和資料的“知識化”處理,以及相應的“語義化”查詢和應用能;自研的RAG模組,實現精準問答;具備出色的數據分析能力,能夠對數量化的數據進行精準的分析和研判。
星環無涯·問知正式發佈了公有雲服務,首批邀請用戶已經可以線上測試。
另外,無涯·問數是基於星環數據分析大模型,並結合數據分析主體、指標、標簽設計、數據開發和治理,形成了從自然語言轉數據查詢語言,並返回數據表或數據圖表的完整流程。
在應用場景上,無涯·問數提供分析儀錶盤和智慧問數能力,讓決策者/管理者以自然語言提問快速自助獲取目標數據;預定義指標計算口徑,依託數據分析大模型理解用戶的分析意圖,讓數據分析人員實現對話即分析;通過頁面配置的方式快速完成數據準備,讓數據開發人員,快速整合多種數據。
Data Infra持續深化,星環科技系列産品推陳出新
星環科技在推出全新的AI Infra的同時,不斷完善Data Infra産品與服務。
星環數據雲平臺TDC 5.0,將原來的多個TDH集群統一納管,統管多個TDH集群,形成物理上分散、邏輯上統一的企業級一體化大數據平臺。TDC 5.0具有獨特的優勢,包括多集群及其基礎設施、多數據應用實例統一管理;跨多集群統一調度資源,均衡多個集群資源使用;跨集群共用存儲組件,實現NoCopy的跨集群數據共用;隔離和控制資源配額,快速、靈活的為不同業務部門提供多租戶的PaaS服務。
星環科技推出了分佈式交易型數據庫KunDB 4.0,高可用能力與Oracle相容性提升,支援跨系統多租戶部署。其中,深度相容Oracle,高度相容Oracle對象與語法,支援數據快速遷移;高可靠,基於Paxos協議的異地容災能力,增強數據安全性保障;數據庫多租戶,支援多個應用共用一個數據庫實例,能快速由集中式擴展成為分佈式。
星環大數據開發工具TDS 4.0,增加了數據實時同步、數據入湖嚮導、智慧化數據資産盤點、數據資産門戶、數據服務編排等功能。
星環大數據安全與隱私保護工具軟體Transwarp Defensor是星環科技自主研發的大數據安全與隱私保護安全管理平臺,致力於幫助企業建設以數據為中心的數據安全防護體系,包括了解內部敏感數據分佈情況,幫助管理者發現潛在風險,監管重要數據的合規合理使用等。Transwarp Defensor提供數據分類分級管理、數據脫敏、個人資訊去標識化、數據訪問控制、敏感資産風險評估等基礎能力,能夠做到事前發現,事中防護,事後溯源,幫助企業有效建立數據安全防護體系。Transwarp Defensor 4.5,增加了大模型核心資産識別、數據資産流轉鏈路監控、安全策略智慧推薦,安全風險預警與應急響應。
星環數據要素流通平臺Transwarp Navier通過提供隱私計算環境,使得數據供需雙方可以進行安全的數據交易。而Transwarp Navier 3.1則新增了全鏈路智慧合約確保安全合規、數據流通全鏈路行為監控與分析、實時告警與阻斷等。