第七屆世界教育前沿論壇舉辦 專家談“教育測評的未來走向”
在中國,應試文化不斷受到詬病。對於考試的負面影響,不乏尖銳的分析與批評。然而,也有學者認為,現存考試製度是最公平的競爭,似乎還沒有找到任何替代。應試文化何去何從?隨著科技(例如人工智慧、大模型等)在教育領域的應用,不同程度地嘗試突破傳統的測評和考試。同時,我們也需要觀察由此帶來的正反面影響。
2024年12月14日-15日,由中國教育三十人論壇、香港大學教育政策研究中心、田家炳基金會、深圳香港培僑書院龍華信義學校聯合籌辦的第七屆世界教育前沿論壇在深圳舉行。本屆論壇的主題為“測評與考試:從科舉到人工智慧”,來自英國、南韓、馬來西亞、新加坡及中國內地、香港、台灣的三十余位專家學者以及一線教育工作者,圍繞主題分享思考,積極提出改變現狀的路徑和方法。
世界教育前沿論壇主席、香港大學榮休教授、中國教育三十人論壇成員程介明,中國教育三十人論壇執行秘書長石嵐
重新審視當前教育:突破傳統測評和考試
歷時1300多年的古代科舉,與現代的考試跨代融合,形成了今天華人社會中近乎牢不可破的應試文化。作為一種獨特的社會現象,應試文化是由工業社會經濟話語與歷史公民話語的融合演變而來,具有深刻的社會背景和現代社會的烙印。
世界教育前沿論壇主席 、香港大學榮休教授、中國教育三十人論壇成員程介明談到,今天的全民學校制度,是不到200年前工業社會頂峰時期的産物,目的是為社會提供各類各層的人力資源,其形態模擬了工業生産流程,考試成了品質控制的關鍵。
世界教育前沿論壇主席、香港大學榮休教授、中國教育三十人論壇成員程介明
傳統教育體系通常基於年齡對學生進行分級,測試和評估也遵循這一年齡分級體系,忽視了人與人之間不同的能力、動機和興趣等。
程介明表示,隨著社會變遷,大規模生産逐漸不再是常態,機器替代人工成為趨勢,就業形態發生了變化,轉工轉行成為常態,自雇職業受到羨慕。年輕人面臨的前途多變,生涯規劃變得不確定。傳統的應試教育制度可能不再適用,社會需要培養自信、自立、自主、自為的個體。教育改革應注重培養學生的能動性和自主性,將學習還給學生,讓他們掌握自己的學習。人工智慧為教育改革提供了新的機會,通過提供各種工具,讓學生掌握自己的學習,並不同程度地嘗試突破傳統的測評和考試。
台灣新竹清華大學教授謝小芩
台灣新竹清華大學教授謝小芩回顧了科舉制度的歷史、特點以及其與現代教育的聯繫。科舉制度不僅影響了教育,還對社會流動産生了深遠的影響。她談到,考試主導教學的現象可以通過人工智慧的發展得到改進,從而提升考試和測評方式,推動養成教育和教學的整體提升。例如,可以使用AI來出題、進行追問式和情境式考試,以及提高考試的效度和公平性。
經濟合作組織(OECD)教育與技能司司長、“PISA之父”安德烈亞斯·施萊歇爾
亞洲學生在學科學習上的投入是顯而易見的,尤其是在數學和科學等科目上,他們的表現往往在全球範圍內都非常出色。然而,儘管亞洲學生在國際學術競賽和標準化考試中取得了優異成績,但在諾貝爾獎等國際榮譽的獲得上,歐美國家確實更為突出。這也促使教育界和公眾開始思考,傳統的測評方法是否能夠全面反映學生的多元智慧和能力。
經濟合作組織(OECD)教育與技能司司長、“PISA之父”安德烈亞斯·施萊歇爾談到,培養一流的人才,需要深入思考如何增強個人在閱讀、數學和科學等方面的能力,以適應不斷數字化的社會。
安德烈亞斯·施萊歇爾介紹,最新(2022年)的PISA測評結果顯示,近60%的學生完成了近60%的閱讀任務,以及略超過一半的數學任務。當人工智慧ChatGPT參與解決這些問題時,它在閱讀方面表現得比15歲學生好,但在數學方面學生的成績仍領先。然而,人工智慧的數學能力進步迅速,並很快趕上15歲學生的水準。
安德烈亞斯·施萊歇爾介紹,日本在PISA評估中雖然在閱讀、數學和科學方面獲得了滿分,但這只是表面現象。深入探究後,發現日本學生在心理健康、個人歸屬感、認同感發展方面存在局限性,缺乏快樂感和自主性。美國學生在閱讀、數學和科學方面表現不佳,但他們有很強的參與度和自主性,能夠採取行動,但在情感韌性和適應變化能力方面有所不足。丹麥在教育體系中的表現全面,學生在學術、快樂感、歸屬感、自主性、參與度和情感韌性方面都表現出色,他們積極參與學校活動,能夠自我組織生活,並對多元思維方式持開放態度。“這些例子錶明,成功的教育體系需要從多角度評估,不僅關注學術成績,還要關注學生的全面發展。”
他認為,評估固定學科內容比評估思維能力容易,但我們需要改變評估方式。常規認知技能的需求正在下降,技術密集型任務在增加,我們需要將人工智慧融入其中。他強調,學校應該幫助學生理解他們的存在意義、價值觀、熱愛的事物以及他們想要實現的目標,這需要個性化的教育方法。同時,學習和考試不應該被割裂開來,考試應該成為學習體驗的一部分,並提供持續的反饋。
教育測評的全球視野:技術與評估的革新
依託大數據分析、機器學習、自然語言處理等先進技術,全球範圍內,教育評價正從傳統的紙筆考試模式,向著智慧化、個性化和全球化的方向邁進。論壇上,嘉賓們分享各自在這一領域的探索和實踐,為教育評價改革提供了寶貴的經驗和啟示。
現場連線南韓江原大學副教授申鐵均
南韓江原大學副教授申鐵均在論壇上分享了南韓在2013年開始施行的“免費學期”計劃。這一項目是為了克服南韓填鴨式教育、標準化考試製度、低學習動機和過度競爭等問題。
“免費學期”計劃旨在幫助學生在中學的一個學期內找到自己的夢想和天賦,增加他們的幸福感,而無需參加期中考試和期末考試。“免費學期”計劃中的“免費”意味著免於標準化考試的自由和有意義活動的自由。“免費學期”通常在中學一年級的第一學期進行,課程減少了一些課時,以開展“免費學期”活動,如職業探索活動、藝術和體育活動以及俱樂部活動。“免費學期”最大的變化是評價的變化,不進行期中考試和期末考試,而是進行形成性評估組合和其他過程評估,教師在學生檔案中記錄學生的教育活動——換句話説,是有“評估”沒“考試”。2019年,“免費學期”課程由一學期擴展為一年。隨著2021年課程的修訂,計劃從2025年開始,“免費學期”課程減少到一學期。
“免費學期”項目的意義在於,它能夠實現以學生為中心的學習和體驗,擺脫了南韓以考試為中心的競爭教育現實中的教科書進度和考試。教師首次體驗了“無考試教育”,並實踐了課程結構調整和以學生為中心的班級管理。因此,體驗過“免費學期”的學生對學校的滿意度更高,並在學生主導的學習和職業探索中得到了幫助。
現場連線新加坡南洋理工大學國立教育學院副教授吳偉斌
新加坡國立南洋理工大學國立教育學院吳偉斌副教授談到新加坡減少考試的嘗試與經驗。他表示,教育領域正經歷著從傳統到現代化的轉型,這涉及到對小步驟改革的認識,即通過做一些小的、正確的改變來推動整體的進步,哪怕這可能意味著會錯過一些正確的事物。自1965年以來,新加坡教育設計從基本的生存驅動轉變為重視IT技能和社會需求。教育的目標已經從效率驅動轉變為強調創造力和創新的高層次思維技能。新加坡等國家在這一轉型中走在前列,強調整體教育和個體信心的建立,而不僅僅是知識的快速傳遞。
科大訊飛副總裁周佳峰
科大訊飛副總裁周佳峰在論壇上介紹了通過測評去推動教育的實踐經驗。他談到,大模型的發展為學生測評帶來了更深層次和更多維度的可能性。傳統的測評主要關注智力水準和學業成績,而現在通過學科知識、身心健康和AI素養等多方面的測評,可以更全面地了解學生的發展潛能,併為他們提供適切的學習資源。
在學科知識測評方面,大模型可以實現作文智慧批閱、過程打分和個性化糾音等功能,幫助學生自主學習,減少學習壓力。同時,大模型在心理測評方面也有優勢,能夠幫助學生解決親子矛盾、朋友衝突和考前焦慮等問題。此外,大模型還可以用於評估學生的AI素養,並推動教師的專業發展。通過口語評測、機器評測和課堂實錄等技術,大模型可以減輕教師批改負擔,並對課堂教學進行分析和改進,提高教學品質。
馬來西亞董總教育研究與發展組研究員胡依珊強調了多元化課程設計的重要性,以應對應試教育的局限性,並提倡學校提供更多元的學習選擇,促進學生多元學習。她提出,通過記錄學生的成長過程,可以讓學生、老師、學校和家長共同“看見”學生的進步和潛能,從而改善學生的心理狀態。
創新教育測評:跨學科實踐與教學改革
傳統的測評方法往往側重於學生的學術成績和知識掌握程度,而較少關注學生的創造力、批判性思維、情感智慧、社交技能等非認知能力。在本次大會上,來自教學一線的校長和老師們進行了分享。他們均認為,教育評估的改革方向之一是更加全面地評估學生的多元智慧和能力。
江蘇海門新教育小學二年級語文老師兼班主任盛美在圓桌論壇上分享了自己班級在寫繪作業評價方面的實踐。盛美採用了對作業“少介入、不批、不改、只賞”的評價方式,通過留下充滿情感的符號來鼓勵學生。這種方式不僅減少了教師的批改負擔,還培養了學生自主修改的意識。此外,盛美所在的班級還採用“多展示”和“群眼光”的評價策略,通過小組分享、全班展示和網路平臺分享學生作品,以及讓學生互相評價,以營造積極的學習氛圍。
為了解決學生和家長對寫繪作業的恐懼,盛美將課程從“讀寫繪”改為“聽讀會説”,強調口語到書面語的過渡,並設計了從生活出發的五個主題,包括校園生活、節日生活、季節生活、故事生活和內心生活等。她還利用AI技術,如訊飛辦公本和豆包,來輔助學生寫作,減少家長的輔導壓力。
AI加入日常教學後,會産生什麼變化?“我的能力已不足以批改學生利用AI生成的作品。”香港聖公會阮鄭夢芹銀禧小學副校長李偉銘分享了一個案例,該校六年級學生根據二年級學生創作的故事進行閱讀理解,並利用AI技術生成圖片。這一過程中,六年級學生通過閱讀低年級學生的作品,不僅進行了有趣的討論和反思,還製作了令人驚嘆的作品。
李偉銘認為,AI時代要求教師重新思考批改的目的和方向,從簡單的理解、牢記轉向更高層次的創作。教師不再是權威的知識傳授者,而是知識的共用者和引導者,與學生一起學習和反思。教師需要思考如何在班級中發揮新角色,如何賦能學生,鼓勵他們互相評論、評審和評賞,以促進學生的進步。這是新一代學習的關鍵。
江蘇省常熟中學蘇建玉老師分享了AI技術融合課堂教學的實踐。她談到,AI技術能夠輔助作文批改,節省了她的時間,讓老師們有更多精力投入到課堂互動和培養學生的思維能力上。對於學生來説,AI測評能夠促進個性化學習,提供包括電影、文學和新聞在內的優質學習資源,幫助學生更深入地理解語言的實際應用。AI還支援學生自主學習,通過生成故事、音頻、視頻和思維導圖等方式,提升學生的數字素養和成就感。
在課堂上,教師利用AI進行讀寫融合教學,通過創設情境和生成問題鏈,鼓勵學生合作學習和探究學習,有效提高了學習英語的興趣和合作能力。AI技術還支援讀後續寫的批改,學生借助AI進行寫作,並通過小組互批、AI批改和教師最終批改的方式,提升寫作能力。
香港翻轉教學協會的老師們分享了他們如何利用AI人工智慧工具來提升教學效果和促進學生的自主學習。他們展示了如何使用AI工具批改學生的編程作業,這不僅提高了批改的效率和準確性,還減輕了教師的工作負擔。此外,他們介紹了如何通過個性化反饋和建議,利用AI工具幫助學生進行口語評估,提供定制化的指導。他們還分享了如何利用AI工具進行口語表達和閱讀理解的訓練,以及如何利用AI工具幫助學生進行英語寫作,通過生成圖片,讓學生直觀地理解文字表達,激發學生的反思和創作。
深圳市寶安中學(集團)校長袁衛星在論壇上介紹了一些好的測評案例。比如有學校將傳統的考試轉變為趣味的綜合素養測評。學生們在設計文創産品的中,不僅學習美術設計,還要進行項目推銷、文化研究、材料採購和産品製作,最終以産品發佈會的形式向虛擬客戶推銷自己的作品。這種跨學科融合的測評方式,強調實踐操作和創造力,讓學生在參與中學習。袁衛星認為,教育測評的原則應基於需求,以學生為中心,根據學生的感受調整測評的頻率和難度,真正體現學生為主體、教師為主導的教學理念。
吳佳筠校長來自香港培僑小學,她分享了學校在教育測評方面的改革。學校原先每學期都有期中和期末考試,但後來認為單一的試卷評估不能全面反映學生的能力,因此取消考試,轉而採用多元化評估方式。這些方式包括實際操作作品、實驗能力、識字應用等,強調在評估過程中觀察學生的知識運用、技能、創造力和態度。
例如,五年級學生在學習地方描寫文後,需要選擇一個中國地方進行研究,並扮演小導遊向同學介紹,同時製作PPT進行展示。評估標準非常詳細,包括內容、結果和口頭報告的聲量等,讓學生清楚如何獲得分數。大規模的評估是四年級的綜藝課程,學生可以選擇自己喜歡的項目學習,最終通過全級同學共同完成的音樂劇表演來展示學習成果。
這些改革後的考試形式不僅讓學生感到有趣,而且能全面評估學生的態度、合作能力和多方面的能力。雖然老師在準備過程中付出了很多努力,但最終的結果令人滿意,認為這樣的改革是值得的。
“我在進步嗎?”和“我怎麼知道我在進步?”香港弘立書院的小學校長單寧認為,評估不僅僅是測評,而是為學生的學和老師的教提供證據。
單寧談到,在小學階段,考察和記錄尤為重要,因為它們提供了學生學習內容和進步的證據。考察包括老師的日常觀察、學生自我認識、討論和簡單測試等多元方式。記錄則涉及到標準化評估、成功標準、學生清單和學生反思等,以確保老師對學生認識的一致性。
在測評和報告方面,單寧提到內部評估和外部評估的重要性,包括教研室的評估和學校的單元評估。報告則關注學生的能動性,包括學生、家長和老師之間的三方會談,學生主導的會議以及成績報告單,這些都是學生學習歷程的呈現。
單寧認為,評估不等同於測評,評估是一個包含考察、記錄、測評和報告的完整迴圈,它賦予了學生更多的意義,涉及學生的自我認知、學習過程的分享和反思。
台灣義大國際高中研發視導中心副主任陳瑩琦認為,教育和測評應幫助了解學生的認知和理解程度,並評估他們的特殊才能。她介紹,台灣義大國際高中自2023年始引入了沉浸式學習技術,並探索延展實境和最佳實踐中的應用,如3D呈現幫助學生更好地理解和記憶數學和科學知識,情境學習讓學生在特定環境下深入學習,3D可視化技術用於研究人體器官以及媒體素養教育。她還提到了動態和多元評量的機會,如沉浸式學習中的臨場感,可以提高學生的應對能力、團隊合作和同理心。
深圳新安中學(集團)燕川學校書記鄒小新分享了學校在大數據循證支援下教育教學評價改革的思考與實踐。學校構建了包含學生成長、教師發展、教學品質和課堂教學行為四位一體的教育教學評價體系。學生成長方面,學校研發了動態電子檔案與評價系統,全過程記錄學生三年的成長軌跡,實現學生成長的數字化和可視化。教師發展方面,建立了老師的動態電子檔案與評價項目,幫助老師調整職業生涯規劃,同時為學校的科學決策提供客觀數據。教學品質評價方面,使用全市統一的系統,實現教-測-評一體化,追求精準教學和科學個性化學習。
深圳市龍華區教育科學研究院副院長黃仕則分享了龍華區在教育評價體系上的創新,該體系利用人工智慧和大數據技術,構建了“六位一體”的新一代教育評價體系,包括學業監測、深度監測、指標體系、體質健康、美育監測和增值評價六個方向。此外,黃仕則還介紹了AI輔助作業減負提質的試點項目,通過無感數據採集技術,收集學生作業過程數據,解決減負提質的可見性問題,減輕老師負擔,緩解家長焦慮,促進校家社協同育人。
河南開封貞元新教育學校副校長張春燕介紹,該校採用“以終為始”的教育理念,從學生高中畢業時的狀態倒推教育目標,關注學生在認知、問題解決能力和人格發展三個維度上的成長。語文課程設置了六個學段的發展目標,旨在培養學生以中國人的身份與世界平等對話,具備愛、創造力和領導力。課程設計包括國家教材的大單元備課、晨誦詩歌、經典深度之旅等,其中晨誦詩歌是重要組成部分,通過詩歌朗誦會等活動,讓學生感受詩歌的力量。評估聚焦于語文核心素養的達成,包括“讀思寫講演”的一體化,以及以身證道,活出體悟和感知。
AI在教育測評中的挑戰
AI為教育測評提供了更為高效和個性化學習的機會,全球範圍內不同學校也紛紛探索,但這也帶來了一系列技術和倫理挑戰,如確保測評結果的公平性、處理技術故障等問題。
湖南師範大學教授楊志明
湖南師範大學教授楊志明曾使用ChatGPT寫了一篇關於“創新人才培養”的八股文,按照高考作文滿分60分的標準,13位專家給出的分數為49分。而ChatGPT給自己寫的這篇文章打了54分。特別是科大訊飛,直接給出了滿分。
楊志明在論壇上介紹,在比較ChatGPT與人類在邏輯推理、假設辨認、演繹推理、整合詮釋和論證評價五個維度的表現時,學生僅僅在邏輯推理上比ChatGPT表現略好,在其他四個維度上能力上則不如ChatGPT。
楊志明談到,AI的發展帶來了許多機遇,例如通過自然語言處理技術,人們可以直接用自然語言進行學習和交流。此外,大數據和機器學習神經網路的發展使得處理海量數據成為可能,而谷歌發佈的Willow量子晶片更是展示了AI在算力上的突破。這些都可能對人們的學習和生活産生顛覆性的影響。
“在目前的AI技術水準下,AI可以作為助手,但還不能完全擔任主角,因為這樣做可能會帶來較大的風險,就像現在沒有人敢完全依賴AI開出的藥方一樣。” 楊志明提出,儘管ChatGPT帶來了許多機遇,但也伴隨著風險。例如,AI可能存在數據偏見,導致考試題目對某些文化或種族存在不公平。此外,AI的評分標準可能與人類評分員存在差異,考試藍圖可能缺乏針對性,考務管理可能存在安全風險,以及出題可能受到訓練數據的偏差影響等。
楊志明認為,如何在利用ChatGPT等AI技術的同時,確保教育的公平性、誠信性和教師的職業發展,是當前教育界面臨的重要課題。
現場連線倫敦大學學院教育與社會學院教授韋恩·霍姆斯
倫敦大學學院教育與社會學院教授韋恩·霍姆斯從批判性的視角談到,在教育領域引入人工智慧工具時,一個關鍵問題是缺乏獨立證據來驗證這些工具的安全性、有效性和對課堂的積極影響。雖然這些工具可能已經經過某些測試,並聲稱具備有效性和安全性,但實際上缺乏獨立證據來支援這些説法。這導致教育決策者、教師和學校領導在選擇和使用這些工具時,往往依賴不確定的資訊。
他指出,這種情況可能導致孩子們成為未經充分控制的實驗對象,這與科學實驗應在良好道德控制下進行的原則相違背。韋恩•霍姆斯建議將人工智慧工具的使用從無根據的嘗試轉變為基於充分證據的技術應用。這要求我們推動對人工智慧工具進行深入的研究和評估,以建立堅實的證據基礎,從而確保對這些工具的有效性和安全性有信心,並確保它們對教育産生積極影響。
吳偉斌也認為,教育評估實踐面臨著挑戰,需要在正式和非正式評估之間找到平衡,並且要適應多樣化的教育內容和方法。評估的目的不僅是測試學生的知識,更重要的是考察學生如何應用這些知識。
本屆論壇上,來自世界各地、擁有不同文化背景的中外嘉賓齊聚一堂,就教育測評的當前實踐、面臨的挑戰以及未來的發展趨勢進行了深入的交流與探討。他們從多元化的視角出發,分享了各自在教育測評領域的經驗和見解,對如何利用現代技術改進評估方法、提高測評的公正性和有效性提出了寶貴的意見。整個論壇充滿了建設性的對話,為推動教育測評的創新與發展提供了豐富的思路和方案。
“世界教育前沿論壇”是中國教育三十人論壇創辦的一個跨領域的國際教育交流平臺,以“引領趨勢,開創未來”為宗旨。論壇旨在推動最新教育思想和最新教育模式的國際間交流,推動最新教育科技的應用,實現未來教育的全面發展。論壇每年十月在中國深圳市舉行,每屆選取最前沿的學習科學問題作為主題。(主辦方供圖)