人工智慧訓練師幫助學習模型識別“有用”資訊
楊洪旭在制訂人工智慧訓練計劃。
楊洪旭(右)和同事在討論人工智慧訓練進展。
以上圖片均為本報記者黃曉慧攝
打開電腦,開啟智慧訓練軟體,人工智慧訓練師楊洪旭開始一天的工作。他最近的任務是訓練一個能自主識別銀行電匯申請書的人工智慧(AI)模型。
楊洪旭供職的達觀數據有限公司,位於上海浦東軟體園,是一家智慧文本處理技術企業。這裡研發的AI模型,能讀懂合同工單、財務報表、行業報告等各類文本文件,在銀行流水識別、合同審核與比對等多場景落地應用。
“在訓練AI模型前,訓練師首先要閱讀大量相關的文件文本,從中提煉和標注出關鍵資訊。”楊洪旭把讀文本、做標注的過程比作老師備課,是訓練的基礎,“我們劃重點、做標注,然後將‘有用’資訊‘投喂’給AI模型,告訴它們應該提取哪些資訊、按照什麼格式提取。”人工智慧訓練師一年需要閱讀上萬份文檔,訓練幾十個AI模型。
楊洪旭在智慧訓練軟體中打開某銀行一張電匯申請書的掃描圖像,將“業務種類”“匯款人名稱”“賬號”“開戶銀行”“聯繫地址”等字段資訊一一拉框選中,再在旁邊打上相應標簽,隨後點擊生成訓練模型。
模型生成後,他需要給AI模型出一些練習題,輸入字段資訊,比對AI模型生成的結果,以此檢驗學習效果。當發現生成結果與原文本有出入時,楊洪旭會記錄並整理成問題列表。“比如文章中有一處圖像,它沒有讀取出來。有一個圖像應該是正向的,它讀取成了側向的。”這些問題會統一反饋給AI模型的研發人員,為後續改進作參考。
“AI模型經過訓練後,再遇到類似的文本文件,它就能自主抓取、審讀這些關鍵資訊,更高效地執行人類指令。”在別人眼中單調、重復、略顯枯燥的文檔閱讀、數據標注、效果測試等工作,楊洪旭卻得心應手。他最開心的事就是看到自己訓練的模型越來越“聰明”。
1993年出生的楊洪旭,患有先天聽力障礙,要戴助聽器才能聽到外界的聲音。2014年,他從上海一所職業技術學院的環境設計專業畢業,先後做過家裝設計、會計文員和倉庫管理員等工作。
“和客戶交流時,因為口齒表達不夠清晰流利,經常會有挫敗感。”在楊洪旭陷入迷茫之際,上海市浦東新區殘聯向他推薦了達觀數據有限公司的“人工智慧訓練師”崗位。儘管沒有電腦編程技術基礎,也對人工智慧了解不多,但在聽説這份新工作主要和機器打交道後,楊洪旭決定嘗試。
招聘楊洪旭入職的運營管理總監袁少楊説,公司首批人工智慧訓練師主要從事最基礎的數據標注工作,重復的工作內容和大批量的標注強度,很考驗人的耐心、細心和專注度。
5年下來,踏實、專注、好學的楊洪旭贏得了同事們的交口稱讚。在公司的內部培訓和自我學習下,他逐漸勝任模型處理、産品測試、接洽客戶等多項工作。2022年底,上海發佈了首批人工智慧訓練師(二級)職業技能等級認定通過名單,楊洪旭位列其中。
面對人工智慧産業的飛速發展,楊洪旭主動學習AI模型主流的編程語言,編寫一些簡單代碼處理模型出現的問題。“比如,當發現訓練的模型有誤讀問題,我能夠編寫幾行程式代碼,做一些初步糾正,而不是把問題直接轉給模型研發人員。”楊洪旭説,為了提升自己,眼下,他正在備考資訊系統項目管理師職稱證書。
人工智慧是上海的三大先導産業之一。近年來,上海從算力、語料、模型、測試、應用場景等方面佈局人工智慧産業,同時加大人才培養力度。2022年,上海啟動人工智慧訓練師職業技能等級認定工作,目前已有450多人獲得了“人工智慧訓練師”證書。
《 人民日報 》( 2024年08月27日 13 版)