“小愛,小愛,明天北京天氣如何?”當前,AI對話系統已經深刻融入人們日常生活的方方面面,技術架構和路線更是百花齊放。
然而,作為前沿技術,AI對話系統標準缺失,造成其評價體系不一、在應用中呈現出水準參差不齊等問題。針對這種狀況,清華大學智慧技術與系統實驗室副主任黃民烈教授聯合學界和業界科研機構共同制定了全球首個《AI對話系統分級定義》(以下簡稱《分級定義》),並於近日正式發佈。《分級定義》旨在更好地評估AI對話系統的能力水準,推動AI對話系統在虛擬個人助理、智慧家居、智慧汽車(車載語音)、情感陪護和心理健康等領域的應用有據可依。
起源於圖靈測試的AI對話系統,是人工智慧領域最重要的研究方向之一。“如果説自然語言處理是人工智慧‘皇冠上的明珠’,那麼AI對話系統則是自然語言處理中最難、最核心的任務之一,是‘明珠中最亮的那顆’。”黃民烈説。
黃民烈表示,近年來,隨著深度學習技術的不斷發展,AI對話系統已經從基於規則的第一代和以傳統機器學習為核心的第二代,發展到以大數據和大模型為顯著特徵的第三代,對話能力産生了革命性變化,在開放話題上展現了驚人的對話能力,對進一步推動人工智慧産業發展具有巨大意義和價值。
“考慮到AI對話系統任務繁多、評價維度多樣、技術路線豐富,撰寫小組在制定《分級定義》時僅關注完全由機器主導的對話系統,人機混合的對話系統不在考慮範圍內。”黃民烈説。
黃民烈介紹,同時,為了在實際應用中發揮價值,《分級定義》的制定是從用戶可感知、可觀察、可測量、可度量的角度出發,不考慮系統的具體技術實現方式,也不區分助理類任務、閒聊、知識對話等,均以“場景”進行表述。
在上述原則之下,《分級定義》從自動對話能力、對話品質高低、單一/多個場景、跨場景的上下文依賴和自然切換能力、擬人化程度、主動和持續學習能力、多模態感知與表達能力等角度出發,將AI對話系統劃分為L0—L5共6個等級,等級越高,AI對話系統水準越高。
“從上述標準看,當前AI對話系統水準最高已發展至L2到L3之間,如常見的‘小愛同學’等AI智慧助理就處於這個水準。”黃民烈説。
與國外相比,我國AI對話系統水準如何?對此,小米技術委員會主席、AI實驗室主任王斌表示,從目前的工業應用看,我國的AI對話系統與國外的AI對話系統沒有明顯差異,總體處在同一級別。
“現在AI對話系統整體處在向L3、L4發展的路上,距離理想還有一定的距離,還需要一到兩年甚至更長時間的持續努力。”黃民烈説,要向L4、L5邁進,需要破解記憶、聯想、推理、自學習能力等方面的很多關鍵技術,要做出高表現力的語音合成,如果運用到元宇宙中,還需要做出動作和表情細粒度的表達,都極具挑戰性。
在華為諾亞方舟實驗室語音語義首席科學家劉群看來,AI對話系統最高級別的應用為複雜情感任務,《分級定義》的發佈將促進AI對話系統在情感任務中體現更高水準的智慧,從而促進人工智慧未來在情感陪伴、心理健康、虛擬人、元宇宙等方面的應用,大大降低人力和物力成本,促進前沿科技走進大眾日常生活。