機器人閱卷技術日漸成熟 批改主觀題早不再是空想

2017-07-21 10:22:34 來源:中國青年網 作者:佚名 責任編輯:高靜 字號:T|T
摘要】對於各大考試來説,閱卷是相當重要的一環,同時也耗時耗力。而隨著人工智慧不斷升級,近年來機器人閱卷技術已日漸成熟。

  原標題:機器人已試點參與多次大規模考試 探索作文自動評分

  對於各大考試來説,閱卷是相當重要的一環,同時也耗時耗力。而隨著人工智慧不斷升級,近年來機器人閱卷技術已日漸成熟。

  近日,科大訊飛相關人士向記者表示,在教育部考試中心的組織下,智慧閱卷技術,已經在全國多個省份的大規模考試(如中高考、成人高考、學業水準測試等考試)中通過了多次多範圍試點驗證。

  在2017年湖北省的中考中,襄陽市率先引進了智慧評卷系統,該市教育考試院院長劉朝志對媒體表示,“相比人工閱卷,智慧閱卷除了在閱卷速度上有優勢外,還能彌補其在雷同卷、空白卷處理上的不足。”

  大規模考試中已進行多次多範圍試點驗證

  2016年3月,教育部考試中心和科大訊飛成立了聯合實驗室,共同開展人工智慧技術在智慧閱卷、命題、考試評價分析等方面的研究。

  近日,科大訊飛方面告訴澎湃新聞,目前,在考試中心的組織下,科大訊飛的全學科智慧閱卷技術已在學業水準測試,例如大學英語四六級,以及全國多個省份的高考、中考、成人高考等大規模考試中進行了多次多範圍試點驗證。

  驗證結果表明,電腦評分結果已經達到了現場閱卷老師的水準,完全滿足大規模考試的需要。

  以往,進行幾十萬、幾百萬份考試試卷樣本的分析需要耗費巨大的人力資源,可行性很低,但如今通過精準的圖文識別以及海量文本檢索技術,可以快速核對檢查所有試卷與目標相似的文本,並迅速提取並標注出可能存在問題的試卷。

  據《襄陽晚報》報道,與往年中考閱卷不同的是,2017年湖北襄陽市中考閱卷在全省率先引進了智慧評卷系統。閱卷點一位技術人員説,智慧評卷系統可進行工作量分析,可列出每個評卷源評卷總量,監控每個老師的評卷品質。

  襄陽市教育考試院院長劉朝志稱,有了智慧閱卷大數據,每道題的得分情況,全市的平均點,哪塊知識學生掌握得好,哪一塊教育教學不到位,都可出一份教育教學診斷報告,更有利於老師教、學生學。“相比人工閱卷,智慧閱卷除了在閱卷速度上有優勢外,還能彌補其在雷同卷、空白卷處理上的不足。”

  據襄陽市教育考試院中招科工作人員龔勳介紹,智慧閱卷系統可覆蓋絕大多數的範文。運用智慧系統後,可在海量數據裏面搜索,就能準確判斷是否抄襲了範文。

  7月19日,劉朝志向澎湃新聞表示,目前還需更多時間才能對外透露更多資訊。

  科大訊飛方面告訴澎湃新聞,智慧閱卷採用了基於深度神經網路學習的圖文識別技術,已經達到人眼識別中英文手寫字符相當的水準。該項技術應用於正式考試中,可以輔助人工閱卷,減少人員投入,降低人工閱卷中疲勞、情緒等因素的影響,進一步提升人工閱卷評分的效率、準確性和公平性,從而對整個産業産生極大的變革。

  此外,通過該項技術,將全部考生作答試卷都進行電子化後生成的海量、準確的分析數據也為之後教與學的研究提供了有力素材,並且提供了未來可被良好應用的、與考試閱卷業務深度結合的突破點。比如,通過智慧化的評分和批改加強與真實的課堂更好地結合。

  “在做的大項目中有一些技術成果可以用於高考閱卷,但根本的目的是引入人工智慧將閱卷推向3.0時代。”6月,科大訊飛輪值總裁吳曉如對澎湃新聞表示,“閱卷1.0時代是紙筆閱卷,2.0時代是在網上把人組織起來用機器自動評閱一些客觀題,而在人工智慧時代,已經可以開始對主觀題進行自動評閱。”

  機器批改主觀題早不再是空想

  一般考試中通常包含客觀題和主觀題兩個部分。而在有了答題卡、掃描器後,客觀題全部可以由機器批閱。不僅閱卷速度大大提升,而且更加準確。

  而自20世紀60年代以來,國外許多專家和學者就開始致力於主觀題的機器閱卷技術研究,出現了各種不同的自動批改系統,例如美國的MBA、託福考試中就應用了E-rater系統。但這些系統大部分針對的都是第二語言作文,即非母語作文。但是,批閱學生用母語寫的作文需要在更高層次,比如作文的文采、篇章的銜接、作文立意等方面做出評判。

  到了2015年11月,科大訊飛的機器智慧閱卷技術在安慶、合肥等地成功試點應用。經過對人機評分結果的分析,電腦在評分一致率、平均分差、相關度以及與仲裁分更接近的比例等指標方面都已達到或超過人工評分水準。這意味著,機器評閱主觀題已不再是空想。

  那麼,對於沒有客觀標準答案的主觀題,機器閱卷的原理和依據是什麼?吳曉如解釋,機器閱卷和人工閱卷的本質區別在於工作機理的差異。機器是通過統計、推理、判斷來決策,這與人的思維方式不同。在閱卷過程中,機器採用智慧學習的方式。通常一組專家評閱約500到1000份試卷後,機器就能學習到這一種試卷的評閱模式並形成一個模型。這種模型對其他試卷就可以形成有效的處理和覆蓋,再根據該模型自動評閱其他試卷。

  而對於度量標準則是,先推選一組公認閱卷水準較高的專家,把這一組專家對一組試卷給出的平均分作為一種相對標準。之後,把機器最後的測試結果、其他測試員測試的結果與專家的平均分比較。如果機器和專家給出平均分更接近、相關度更高,才認為機器評閱的結果達到預期。

  “只有一種簡單的或是標準化的測試模式實際上是非常容易作弊的,但從目前很多應用的結果來看,還沒有一種辦法能夠很好地欺騙機器”,吳曉如説,“就像Alpha Go下圍棋一樣,並不是説找到一種客觀、標準的套路就可以打敗它。”

  此外,對於機器閱卷是否會抹殺學生創造力的擔憂,吳曉如表示,閱卷中機器會把與眾不同的、富有創造力的試卷挑出來交給人工處理。還有,對於犯了低級錯誤但有新思路導致測試成績不佳的考卷,也需要現場的測試員和專家來判斷。

  吳曉如説,實際上,機器主觀題閱卷已經過了很長一段時間的驗證。“很多教育專家、一線教師、校長一開始都對機器閱卷不認同,但通過結果的現場對比,這些專家最後還是認可機器要比人工測試的結果更好。”

  探索作文自動評分

  而在國內近年的主觀題的機器閱卷技術研究中,最令外界眼前一亮的是哈工大訊飛聯合實驗室研發的語文作文評分技術。

  要給作文評分就需要面對觀性相當強的文本。那機器應該從哪些維度去評判?又如何去量化這些維度?

  研究人員介紹,就像在中、高考閱卷中,全國的教師以一套統一、嚴格的標準來進行評分一樣,機器批閱作文,最重要的也是讓機器學到這套標準,然後按標準批閱。

  也就是,教師們先設置一套通用的從字跡工整度、詞彙豐富性、句子通順度、文采、篇章結構、立意等多個層次綜合評估一篇作文品質的解決方案。之後,機器就可以利用演算法從少量人工評分的樣本中學習獲得作文評分標準。比如一次考試有2000份卷子,從第一份卷子開始,機器就可以學習教師的閱卷方法,學到200份的時候機器就可以代替人工,自動對剩下的試捲進行智慧化打分。

  作文評分系統中,詞彙豐富性和立意屬於內容相關的特徵;字跡工整度、局部連貫性、句法正確性和篇章結構屬於表達相關的特徵;文采屬於發展等級特徵。另外,該技術還利用人工神經網路對作文的語義進行深度表示,從而得以從宏觀上把握文章的立意。

  而這每一項標準背後都需要複雜、精密的技術來支援。例如,判斷字跡工整度就需要用到手寫識別技術,即自動將圖片中的手寫體字轉寫為文本的同時,給出識別概率,以此來表示工整度。再例如,判斷一篇作文是否離題,就先需要根據題目內容提取關鍵詞,並根據主題進行擴展,同時提取作文中的關鍵詞,再計算作文的關鍵詞和題目的關鍵詞的相似度。另外,也可以在該次考試的大規模數據上訓練主題模型,得到全局的主題分佈,然後和待考察作文的主題分佈對比。

  參與國家“863計劃”(國家高技術研究發展計劃)的科大訊飛方面表示,隨著人工智慧技術的發展,未來,除了開放式的作文,甚至政治、歷史、地理科目的問答題機器都可以自動閱卷。

  當全自動機器閱卷成為現實後,教師們將會有更多的時間和精力投入到對教學方法、教學手段等創造性工作的研究中,從而為學生帶來品質更高、更全面的教育。

初審編輯 房靜靜

              熱搜資訊