“當真相在穿鞋的時候,謊言已經跑遍全城。”現代社會,虛假新聞、圖片、視頻,甚至商品等借助網路渠道迅速傳播。近日公佈的《中老年人上網狀況及風險網路調查報告》顯示,近六成中老年曾遭受過網路謠言的危害。
人們常説“流言止于智者”,要想不被網上的流言和謠言盅惑、傷害,首先需要對其進行科學甄別,而時下人工智慧正在嘗試擔任這一角色。那麼,在打假一線AI技術如何做到去偽存真?這樣的“本領”可應用在哪些領域?
海量資訊發佈,傳統識謠模式受限
“虛假資訊的産生主要有兩類動機:一類是利益驅動,2018年發表于《科學》的研究發現,要達到相同的傳播深度,虛假資訊的速度是正常資訊的20倍;另一類是政治驅動,在現有網際網路經濟中,高效傳播代表著高額經濟價值,人工智慧技術會被不法分子用來左右公眾對於政治的認知和判斷,從而控制輿論,威脅政治安全。研究顯示,2016年美國總統大選期間,受訪選民平均每人每天接觸到4篇虛假新聞。虛假新聞被認為影響了2016年美國大選和英國脫歐的投票結果。”中科院計算所副研究員、博士生導師曹娟在日前北京舉辦的Women Who Code講座上介紹。
為了減少虛假資訊,有必要對網路新聞進行認證。但大型資訊聚合類平臺每天的新聞發佈量一般在50萬條以上,顯然完全依靠人工認證是不現實的,面向公眾,亟待建立高效的AI識謠平臺。
杜克大學新聞研究中心的調查顯示:截至2018年2月,全球共有149個正在活躍運營的事實核查類新聞創業項目,其中北美和歐洲74個、亞洲7個。而在一些國外社交平臺上,已有自動化可信度評估插件來顯示資訊的可信度。
據了解,目前國內已有的主要識謠、辟謠平臺基本還是依靠專家識別模式,其存在一定的問題:發現線索主要依賴用戶舉報,數量有限,時效性不強,往往是事件已造成負面影響才“後知後覺”;此外,新聞認證速度有待提高。Facebook統計,依靠專家辟謠的認證模式平均滯後3天,錯失辟謠最佳時期;覆蓋類別受限,專家只能在自身擅長的領域辟謠,領域專家庫的多樣性決定了人工辟謠平臺的能力上限。
為提高識謠效率,目前中科院電腦研究所、阿裏、騰訊等多家企業和機構已經開展了人工智慧識謠工作。曹娟帶領團隊從2013年開始致力於開展基於人工智慧技術的虛假資訊檢測研究,她介紹,AI識謠公眾平臺可自動及時發現可疑線索並進行認證,大大降低謠言可能帶來的危害;通過機器學習演算法輔助人工審核,僅需1分鐘即能對疑似謠言事件發出預警;基於數據驅動的方法,平臺還可不斷挖掘出不同類別謠言的特性,實現對各種謠言地自動識別。
不過,需要指出的是,“虛假資訊識別是一個高度複雜的問題,一方面是虛假的定義並不明確,需要不確定性建模;另一方面是標注很困難,需要小樣本學習方法。目前,機器學習演算法的準確率尚不足以完全取代人類,但已能夠輔助人類更快更好地審核新聞。”曹娟表示。正如扎克伯格所説,“想要完全依靠AI審核內容,可能尚需5—10年時間”。
多模態、多層次、多角度揪出假新聞
“虛假新聞往往從選題、文字表述,到配圖都呈現出較強煽動性:一般選題集中于社會熱點或爭議點;文字描述中情感激烈;配圖具有視覺衝擊力等。”曹娟剖析道。
曹娟介紹,目前,中科院計算所開發的辟謠平臺已積累數萬條假新聞資訊,累計認證數十萬次。通過平臺積累的數據,目前可從新聞品質的角度把杜撰的新聞文本大致分為三類:一完全杜撰,往往是在真實存在的實體上編造情節;二半真半假,可能描述的前半段是真,後半段就展開不可靠的想像,或者一部分是真,但在關鍵情節上添油加醋;三舊聞新傳、移花接木,事件本身可能存在,但發佈者故意模糊化甚至篡改原事件中的時間、地點,讓人誤以為事情剛剛發生在當地被。
除去文字造假,圖片視頻造假也越來越多。“我們將虛假新聞配圖分為復用的過時圖片、能引起歧義的誤導性圖片及篡改圖片。假新聞通常呈現出新聞要素缺失、圖像品質低、內容包含色情敏感廣告等低俗資訊,以及圖文不匹配等特點。例如,有些假新聞中的配圖會出現滿屏瀰漫沖天大火、公路凹陷深坑、被棄男童在垃圾廢墟前嚎啕等畫面。”曹娟描述道,“謠言更易形成病毒式擴散的趨勢,而真實新聞的擴散速度和爆發度要溫和許多。”
“從核心技術上,AI甄別謠言依賴於‘三多’。”曹娟説,一是多模態數據,謠言從發佈、傳播到被辟謠的生命週期中,可能會伴隨産生文字、圖片、視頻、傳播網路、參與用戶屬性等多種模態的數據,各模態數據均能不同程度指示謠言,例如謠言文字的情感傾向、圖片的視覺衝擊力、傳播網路的結構屬性等,但沒有哪種模態的數據擁有獨立完全的謠言指示能力,所以要盡可能獲取不同模態的數據。
二是多層次表示,深度學習技術有強大的表示學習能力,經過神經網路結構和融合機制的設計,AI模型可以在面對眾多意義、形式、結構都不同的模態數據時,綜合不同層次數據,自動找出最有區分能力的表示組合,並將待甄別文章對應的文字、圖片、傳播網路等融合投射到特徵空間中。
三是多角度判斷,AI可以從單一方面(如內容、用戶、傳播)給出可信度,也可以全面觀察,給出綜合所有資訊的可信度,及時幫助人們“揪出”可信度不高的資訊。
結合專家經驗辨別虛假商品
曹娟介紹,目前除了鑒別虛假新聞、虛假圖片,AI虛假檢測技術還可以應用在對虛假商品的檢測上,如基於視覺資訊技術鑒定一些高檔商品的真偽。
2017年,美國紐約大學成功研發出一套假貨鑒定系統Entrupy,用戶利用配有微型相機的手持設備對鑒定物品進行拍攝,這個系統利用機器學習演算法,分析圖像,最終確定産品的真實性。其聯合創始人介紹,除了表面是屈光的鑽石和瓷器不能檢測外,這項技術使用光學分析可測試汽車零部件、手機、充電器、耳機、夾克和鞋子,甚至原油。
近日,中國科學院計算技術研究所與國內某奢侈品電商宣佈共建聯合實驗室,探索智慧鑒定和智慧內容分發、線上鑒定商品業務等內容。那麼,AI如何對商品,如包、鞋辨別真假;在識別假貨方面,AI可替代專家嗎?
“與人識別假貨相比,在強度、效率等方面,AI有著突出表現。例如,一般識別假LV包的專家,工作一天只能鑒定五六個包,而AI篩查一個包僅需幾分鐘。實際操作中,AI先在大量篩選中發現異常情況,報警示錯,再由專家來做進一步甄別。即以AI技術打假為主、以人工審核為輔,AI還不能替代專家。”曹娟説。
曹娟表示,虛假商品檢測可形式化為異常檢測問題。正品樣本往往量很大,但倣品樣本量很小,甚至為零。這時候,只能對大量正品進行建模表示,然後對待檢測樣本,要看它與正品相比是否存在異常。但單純的數據學習是困難的,鑒別中還要結合鑒定專家的經驗知識,以引導模型學到快速定位異常區域的能力;同時,模型通過數據驅動發現的視覺規律,也會反饋給專家。因此,這是一個專家和模型相互學習、迭代提高的過程。