隨著資訊技術的迅猛發展,光學字符識別(OCR)技術在各行各業中的應用日益廣泛。為滿足企業對於資訊抽取精度、版式覆蓋全面性、迭代速度與靈活度的不斷提升的需求,合合資訊基於深度學習演算法和能力,對其文字識別訓練平臺進行了優化升級,為企業提供低代碼、自動化的一站式OCR開發解決方案。
合合資訊文字識別訓練平臺是面向零基礎的開發者或實際業務人員的全流程一站式OCR開發平臺。針對文本檢測、文字識別、文檔分類、資訊抽取等任務,基於先進的深度學習演算法,提供了集模型創建、數據標注、模型訓練、模型測試、模型部署于一體的機器學習服務。
用戶僅需通過簡單的框選和點擊操作,即可在Textin Studio的可視化界面中迅速完成模型的創建、數據標注、訓練、測試以及部署,有效解決了定制化識別開發門檻高、週期長的問題。
值得一提的是,合合資訊文字識別訓練平臺內置了五大預訓練演算法模型,包括資訊抽取(錨點)、資訊抽取(K-V)、資訊抽取(NLP)、資訊抽取(長文本)以及分類識別。這些模型能夠靈活應對固定版式、半固定版式、不固定版式的單頁與多頁文檔的資訊抽取與分類需求,不僅提升了識別的準確性,還降低了模型訓練的難度。
此外,平臺還具備數據回流功能。通過搭建數據回流交換平臺,平臺能夠連接業務平臺與文字識別訓練平臺,將實際業務中産生的標注資訊數據進行整合、統計後回流至訓練平臺,從而不斷提升模型的識別準確率,實現真正的智慧化和終身自主學習。
在數據標注環節,合合資訊文字識別訓練平臺也展現出了其獨特的創新。通過系統自動標注數據,人工僅需進行復核,極大地降低了數據標注的耗時與人力成本。同時,當訓練數據不足時,平臺還能基於模板和語料知識庫自動生成海量虛擬訓練數據,從而快速擴充訓練集,提升模型訓練效果。
某上市城商行已通過私有化部署該平臺,成功實現了身份證、駕駛證、發票等多種證照票據的自動識別,滿足了多業務場景的需求。同時,通過搭建數據回流交換平臺,該行實現了對OCR服務的統一管理,提升了審核效率。
(會員投稿)