新聞源 財富源

2024年11月20日 星期三

財經 > 滾動新聞 > 正文

字號:  

一支融合了多項技術的“筆”

  • 發佈時間:2014-09-19 02:31:34  來源:科技日報  作者:佚名  責任編輯:羅伯特

  一支馬克筆大小,在紙面上一掃,文字材料馬上就輸入其中,再一按按鈕,中英文即可對照著翻譯出來,這就是漢王日前推出的e典筆A30T的直觀使用感受。

  A30T還被稱為首款雲端翻譯利器,依靠置入802.11b/g/n無線網路連接模組,用戶還可進行WiFi連接,登錄之後即可實現摘抄資料、錄音的雲端存儲等功能。

  當更多人關注其收錄了多少部權威英語辭典,或是可以摘抄和翻譯多大量文檔時,記者卻注意到,有人説這是一款“搭載了漢王多項核心技術”的産品。

  小照片拼成大照片

  A30T是一款翻譯筆,掃描紙質文件就能將文檔收錄,還可線上翻譯。那麼這個短暫的過程蘊含了多少技術呢?

  主抓科研的漢王科技副總經理王傑告訴記者,在硬體方面,他們定制了一款適合手握的高分辨OLED屏,以及一款高清鏡頭,在軟體方面,其用到了圖像拼接技術、OCR技術、智慧查詞技術和手寫識別技術。這些技術在各個環節扮演著其重要角色。

  從掃描輸入開始説起。翻譯筆的“筆尖”其實是一個大光圈高清轉直角鏡頭,成像品質高,成像距離也非常短。LED燈通過光學級設計的光腔,可以均勻照射在需要摘抄或翻譯的紙面上,然後高速攝像頭通過鏡頭進行高速拍攝。

  因此,掃描的過程其實就是一個高速拍攝的過程。技術人員透露,拍攝頻率在每秒100幀以上。“可以理解成拼接,就在一剎那間,我們把這麼多小照片拼成一個大照片。”王傑解釋説,拍攝到的圖像拼接任務跟掃描是同時進行的,系統每採集到一幀圖像,就送其到圖像處理模組進行拼接。抬筆的同時,全景圖也就生成了。

  這個過程聽似簡單,卻包含著很多技術性難點。“掃描筆支援從左往右和從右往左兩種掃描方式,掃描的材質可能是透底的書本、不同字體不同顏色的雜誌、暗淡的報紙、反光的銅版紙,情況很複雜……”王傑舉例道,拼接的全景圖像一般呈波浪形,為了後續的準確識別,需要校正圖像以及拉直文字行。

  並不陌生的OCR技術

  在圖像拼接的同時,讓圖片中文字電子化用到的就是大名鼎鼎的OCR技術。

  OCR是英文Optical Character Recognition的縮寫,意為光學字符識別。該技術解決將掃描器或者攝像頭等設備,獲取的印刷體文字圖像轉化為可編輯的編碼文字的問題。

  提及OCR技術,很多人應該並不陌生,通過相關OCR軟體我們可將掃描的文檔轉換成可編輯的電子文檔。

  早在上世紀六七十年代,OCR研究就在各國開展。在研究初期,多以文字的識別方法研究為主,且識別的文字僅為0至9的數字。以日本為例,1960年左右開始研究OCR的基本識別理論,初期以數字為對象,直至1965年至1970年之間開始有一些簡單的産品,如印刷文字的郵遞區號識別系統,識別郵件上的郵遞區號,幫助郵局作區域分信的作業;也因此至今郵遞區號一直是各國所倡導的地址書寫方式。

  我國在OCR技術方面的研究起步于上世紀70年代,先是對數字、英文字母及符號的識別進行研究,70年代末開始進行漢字識別的研究,到1986年漢字識別的研究進入一個實質性的階段,不少研究單位相繼推出了中文OCR産品。漢王的手寫識別技術就曾獲得國家科技進步一等獎,OCR技術獲得國家科技進步獎二等獎。

  OCR可以説是一種不確定的技術研究,正確率就像是一個無窮趨近函數,知道其趨近值,卻只能靠近而無法達到,永遠在與100%作拉鋸戰。因為其牽扯的因素太多,書寫者的習慣或文件印刷品質、掃描器的掃描品質、識別的方法、學習及測試的樣本……都會影響其正確率,也因此,OCR的産品除了需有一個強有力的識別核心外,産品的操作使用方便性、所提供的糾錯功能與方法,亦是決定産品好壞的重要因素。

  獨特的OCR技術原理

  關於OCR技術的原理,漢王科技的研究人員告訴記者,首先根據輸入的圖像的情況進行幾何校正或者亮度校正等圖像預處理;再通過版面分析技術劃分版面為區域,並且分析區域屬性,區域屬性大概可分為橫排文字、豎排文字、表格及圖像四種類型;進一步切割文字區域部分得到文字行,對文字行進行單字符切割和識別;根據語言模型對識別結果做後處理,進一步提高識別準確率;最後可根據需要把識別結果按照原圖像版面格式輸出。

  那麼用於這根筆內的OCR技術,又有何特殊性?

  首先是文字行定位技術。如果掃描窗口比待掃描文字行高,掃描圖像會包含其他文字行部分,由於待文字行不能保證在中心位置,針對此,研究人員根據大量的用戶使用體驗,按照用戶使用習慣提取用戶待輸入的文字圖像行,用於識別處理。

  然後是圖像校正技術。由於各人手持A30T的姿勢及掃描速度不一樣,“我們直接獲取的圖像有不同角度的旋轉、伸縮等變形,拼接得到的全景圖像也會有扭曲形變。通過圖像校正技術調整全景圖像,使其更利於進一步的單字符切割和識別。”王傑表示。

  另外,由於嵌入式設備的記憶體較小,運算速度較慢,OCR識別模組要儘量少佔記憶體,識別儘量快。

  首次應用的雲存儲

  按一下按鈕,中文就變成了英文。這一個過程並非僅發生在這根“筆”裏。“抬筆後,掃描筆把全景圖送入OCR識別模組,得到編碼文字。掃描筆通過WiFi跟漢王翻譯雲聯繫,漢王雲應答。掃描筆得到應答後把編碼文字送給翻譯雲進行翻譯,等待翻譯雲的譯文。得到譯文後,掃描筆就將其顯示在螢幕上。”王傑這樣描述道。

  另外,首次應用的雲儲存技術,也是業界所重點關注的一項功能,在該技術的支援下,e典筆A30T可將海量掃描資料、錄音及日常記錄學習的點滴上傳至雲端,只要有WiFi熱點,便可滿足消費者隨時上傳、調閱雲端內容的需要。而考慮到移動端用戶的使用需要,漢王還推出全新的漢王雲app,此手機軟體可讓用戶通過手機即時呈現上傳內容,真正做到易查、易編、易復習,同時簡潔的UI和清晰的操作指示,都讓這款APP獲得了業內專家的肯定。

熱圖一覽

高清圖集賞析

  • 股票名稱 最新價 漲跌幅