人工智慧:讓機器擁有學習能力
- 發佈時間:2015-07-07 01:31:17 來源:科技日報 責任編輯:羅伯特
■新視野
最近,國內外掀起了一陣討論人工智慧的熱潮,其背後主因是以谷歌和臉書為代表的高新技術企業廣泛應用機器學習以及深度學習技術開始顯現出了良好的效果。特別是在語音識別和圖像識別兩個領域,這幾年的提升非常快。谷歌在2014年將語音識別的精準度從2012年的84%提升到98%,而臉書的人臉識別精度在短短幾年裏甚至超過人類肉眼的水準。
與此同時,各大企業開始了一場搶奪人工智慧人才的大戰,比如谷歌設立了“谷歌大腦計劃”,並在2014初斥資5億美元收購了人工智慧創業公司DeepMind。國內的搜索巨頭百度也不甘示弱,高薪從谷歌挖來了斯坦福大學人工智慧專家吳恩達負責“百度大腦計劃”。那麼,人工智慧到底是什麼?其經過了什麼樣的發展歷程?未來的人工智慧到底會是什麼樣子?就此,科技日報記者採訪了日本KDDI研究所研究員、通訊與網路專家吳劍明博士。
人工智慧是如何出現的?
吳劍明博士稱,人工智慧的概念早在大約60年前就出現了。在1956年美國達特茅斯大學召開的世界第一次人工智慧會議上,由當時就職于麻省理工學院的約翰·麥卡錫教授提議並推動後,人工智慧概念就成為了一個熱門話題。不過在這60年裏,人工智慧的發展幾度起起伏伏,有過紅紅火火的日子,也有過被打入冷宮受盡白眼的歲月。
那麼到底什麼是人工智慧呢?為什麼人工智慧之路會如此的滄桑坎坷呢?吳劍明説,顧名思義,人工智慧就是讓機器擁有學習能力,甚至能夠像人類一樣去思考工作。在人工智慧的早期,有些科學家非常樂觀地認為,隨著電腦的普及和CPU計算能力的提高,人工智慧的實現指日可待。不少早年的科幻電影描述,到了2000年,機器人幾乎無所不能。但事實證明,人工智慧的發展沒有預期的那麼美好和順利,因為人類對人腦機制的理解還是有道邁不過去的坎兒。
一般人看來,人工智慧屬於電腦科學的範疇,但實際上人工智慧覆蓋了電腦科學、數學、心理學、哲學和語言學等幾乎所有自然科學和社會科學學科,要想有所突破,僅僅靠精通電腦的專家學者和技術人員是遠遠不夠的。幸運的是,強攻不果,迂迴之戰卻有了突破,近年來隨著機器學習以及深度學習技術的成熟,人類離人工智慧的夢想實現還是實實在在地邁出了一大步。
發展歷程:從經典數理邏輯到專家系統
人工智慧從出現發展到現在,經歷了一個比較曲折的過程。
吳劍明指出,人工智慧從1956年概念建立至今,最初的30年是邏輯學派佔主導地位,主要是因為邏輯推理和啟髮式搜索在智慧模擬中避開了當時知之甚少的大腦思維規律中深層次的複雜問題,利用了比較成熟有效的邏輯學方法。這在當時電腦性能不高、普及率也很低的條件下顯得簡單靈活、見效快,是一個捷徑。通過電腦實現的人工智慧很快在定理證明、問題求解、模式識別等關鍵領域取得了重大突破,嶄露頭角。於是早年的科學家們樂觀地認為,人工智慧與傳統電腦程式的本質差別在於它能夠進行邏輯推理,依靠邏輯推理定理的完善和電腦的高性能CPU以及大容量存儲設備的普及,可以在不久的將來完全解決智慧模擬問題。
吳劍明説,邏輯學派撇開大腦的微觀結構和智慧的進化過程,單純利用程式或是邏輯學對問題求解的過程來模擬人類的思維過程,所以也被分類為弱人工智慧。這種方法專注于建立被解問題的數學模型,即找到該問題輸入和輸出之間的數量關係,把它轉化為一個數學問題,然後找到用電腦實現該數學問題的解決演算法。然而經過對經典數理邏輯理論解決智慧模擬問題進行深入研究後,科學家們才發現這條路是走不通的。主要原因在於,人工智慧中的推理和搜索存在組合爆炸問題。也就是説,計算時間與問題的複雜度成幾何級數正比,絕大部分人類的思維過程僅僅靠電腦的高速計算能力是無法模擬和解決的。吳劍明舉了個通俗的例子來解釋組合爆炸的嚴重性:一張紙折疊 50 次的厚度是多少?很多人直覺會認為就是黃頁電話號簿的厚度。錯了,答案是地球到太陽之間距離!這就是數學上幾何級數的恐怖之處。此外,人類思維中的絕大部分問題都無法轉化為一個數學問題,原因在於人類思維過程中充滿了不確定性、矛盾和演化。而科學家們長期的實驗也證明,人類在解決問題時並沒有使用數理邏輯運算,人類思考的過程是無法用經典數理邏輯理論進行描述的。
吳劍明稱,事實證明,通過經典數理邏輯的方法是實現不了真正的人工智慧的,科學家需要找到其他辦法來解決所遇到的難題。
他説,在此之後的10多年,也就是80年代開始,人工智慧進入了專家系統發展的黃金時代。科學家們發現,人類之所以能快速高效地解決各種複雜問題,不僅是由於人有邏輯推理能力,更由於人具有知識,特別是有關領域的專門知識。這時期儘管也屬於前面提到的弱人工智慧時代,但確定了基於知識的邏輯推理在智慧模擬中的重要地位,人工智慧開始從實驗室走向實際應用。
但在這個時期,專家系統的瓶頸問題也顯現了,那就是知識獲取的途徑一直沒有得到良好的解決,主要原因在於不像現在有網際網路,有雲計算,有無處不在的智慧手機,那個時代專家知識庫的構建常常是沒有完備性和可靠性保證的經驗知識,專家學者和技術人員不得不依靠各种經驗性的非精確推理模型。而且,人類思維面臨的實際問題中,只有很少一部分是可以確切定義的確定性問題,大部分是帶有不確定性的問題。所以當知識工程深入到這些問題時,經典數理邏輯的局限性不可避免地暴露出來了。儘管弱人工智慧時代使人工智慧理論有了長足的發展和進步,但離實用還有比較大的距離,一直到2000年後機器學習和深度學習的出現,科學家們才發現終於找對了方向。
機器學習:其實是“舊瓶裝新酒”
吳劍明指出,如果2000年前是弱人工智慧時代,那麼2000年之後就可以稱為強人工智慧時代。
吳劍明説,與弱人工智慧相比,強人工智慧在最近的十多年裏慢慢成為主流。強人工智慧又稱倣生方法,這個方法認為,人工智慧應該專注于模擬人腦的結構機制,也就是説通過電腦模擬人的思維過程,應該通過研究神經元的互相合作機制,而不是邏輯學運算過程。這一學派重視對人腦模型的研究,谷歌就是強人工智慧技術的推土機之一。
吳劍明説,在傳統上,如果我們想讓電腦工作或是按照弱人工智慧的方式運作,我們會給它編好一段段的指令,然後電腦就會遵照這個指令忠實地一步步執行下去,或是按照事先制定好的知識邏輯公式推導下去。有前因才會有後果。但這樣的方式仍然只屬於機器的範疇而不是人工智慧。強人工智慧和弱人工智慧的區別就在於,它們不是接受事先安排好的指令或是邏輯推論,而是從輸入的數據裏自己發現事物的規律。
吳劍明所説的推動強人工智慧迅速發展的機器學習技術。
他認為,近年來大放異彩的機器學習其實是“舊瓶裝新酒”。早在1956年人工智慧概念出現後不久,就有了對機器學習的研究,但之後遲遲沒有進展。和前面提到的專家系統類似,原因在於那個時代知識或是數據獲得的途徑非常少,難度以及成本又非常大。
機器學習的思想並不複雜,它模擬人類在生活中學習成長的過程,從數據中自動分析獲得規律,並利用規律對未知數據進行預測。因為機器學習演算法中涉及了大量的統計學理論,所以也被稱為統計學習理論。
換句話説,機器學習的本質就是將人的操作/思維過程的輸入與輸出記錄下來,然後統計(又叫做訓練)出一個模型用來對新的數據進行預測,使得這個模型對輸入輸出達到和同人類相似的表現,這種方式也慢慢成了現代強人工智慧最基本的核心理念。
大家直觀地想像一下人和機器的區別在哪?其實不在於弱人工智慧強調的計算能力、存儲能力,或是推理能力,任何人和機器最大的區別在於,人類在成長、生活過程中積累了很多的歷史與經驗,人類會定期對這些經驗進行“歸納”,獲得生活的“規律”。當遇到未知問題時,人類會使用這些“規律”對未來進行“推測”,從而指導自己的生活和工作,甚至於去創造新的東西出來。我們老祖宗説得好,“以史為鑒,可以知興替;以人為鑒,可以明得失”,這與機器學習的思想是極為接近的。機器學習中的“訓練”與“預測”過程,也可以分別精確地一一對應到人類的“歸納”和“推測”過程。
吳劍明説,隨著現代網際網路和個人電腦的普及,以及智慧手機的崛起,海量數據和知識的獲得變得非常容易和低成本了,這也直接促進了機器學習的飛速發展和實用性的迅速提高。當訓練數據的樣本足夠大,學習演算法方向對頭的話,就有望接近極限,達到甚至超過人類的能力。比如前幾年“谷歌大腦”通過從網路上的上千萬張圖片學習建立各種各樣的貓的品種、顏色、姿勢和拍攝角度等特徵量,然後對於任意一張圖片,它就可以從中把“貓”準確地識別出來。
深度學習:技術進步使之終有用武之地
吳劍明指出,現在除了機器學習,人工智慧還出現了一個叫“深度學習”的概念。深度學習是機器學習研究中的一個新的領域,和機器學習相比,它讓人工智慧又前進了一步。深度學習在機器學習的基礎上進一步深入模擬人腦進行分析學習的神經網路,它模倣人腦的機制來訓練和預測數據,例如圖像、聲音和文本。
2012年6月,《紐約時報》披露了應用深度學習的“谷歌大腦計劃”,吸引了公眾的廣泛關注。這個項目的主導之一就是斯坦福大學人工智慧專家吳恩達。這一項目用16000個CPU Core的並行計算平臺,訓練一種稱為“深度神經網路”(DNN)的機器學習模型(內部共有10億個節點),在語音識別和圖像識別領域獲得了巨大的成功。
吳劍明介紹,和大多數機器學習技術需要事先給訓練數據提取特徵做標注不同,深度學習直接把海量數據投放到演算法中,系統會自動從數據中學習。比如“谷歌大腦”識別貓的演算法,在訓練數據的時候不用告訴機器“這是一隻貓”,深度學習系統自己找到了什麼是“貓”這個分類。
機器學習所需要的提取特徵做標注,其實需要人工的專業知識和經驗,有的時候能不能選好甚至於需要一定的運氣。由於這部分人工操作對最終演算法的準確性起到非常關鍵的作用,不但非常消耗時間和精力,且如混入一些模棱兩可或是錯誤的數據,那麼很可能會前功盡棄,事倍功半。
既然手工選取特徵不太好,人類也不可避免的有主觀偏差,那麼能不能自動地學習一些特徵呢?吳劍明指出,深度學習就是用來幹這個事情的,它的一個別名Unsupervised Feature Learning,顧名思義,Unsupervised的意思就是不要人參與特徵的選取過程。
吳劍明介紹説,這類研究最早起步的契機是,研究瞳孔與大腦皮層神經元的對應關係的科學家們發現了一些有趣的現象,人眼和大腦合作識別看到物體時,通過神經元互相合作很可能有一個分層次識別過程。具體的講,從原始信號攝入開始(瞳孔攝入像素 Pixels),接著做初步處理(大腦皮層某些細胞發現像素色塊間邊緣的局部變化特徵),然後下一步抽象(大腦皮層判定眼前的物體的形狀、顏色、質地等),最後再進一步抽象(從周圍的場景、物體和物體間的空間位置關係等等)確定識別的物體。
深度學習正是運用了類似的分層次抽象思想,更高層次的概念從低層次的概念學習得到,而每一層都自底向上,對沒有人工標注的數據進行學習,最後再用人工監督自頂向下反向進行調優。這一點也為深度學習贏得了重要的優勢。
吳劍明表示,現在歐美、日本,包括我們中國的學術界都對深度學習非常關注,深度學習的威力目前在語音識別和圖像識別上得到了很好的驗證。不過在自然對話、自我進化機器人等人工智慧更高深的領域裏,它的效果還有待進一步考察。有意思的是,深度學習也是“舊瓶裝新酒”,它的思想其實來自於上世紀80年代成熟的人工神經網路技術(ANN)。人工神經網路同樣包含輸入層、輸出層以及中間的若干隱層,每層都有若干結點及連接這些點的邊,在訓練數據集上會學習區分超平面,從而建立模型。但後來科學家們發現,當時科學家們發現的人工神經網路實用性很差,究其原因,是由於巨大的計算量使得人工神經網路只能包含少許隱層,從而限制了性能。花費了大量人力物力之後,科學家們發現,只有少數幾個特殊場景可以成功應用。所以到上世紀90年代開始,人工神經網路失去了關注和經費,成為了食之無味、棄之可惜的雞肋行業。
但為什麼一個上世紀90年代被放棄的技術又重新回到了萬眾矚目的地位呢?因為80年代雖然理論基礎完備,但真正到達實用所需要的數據和計算能力都不具備。近年來,隨著網際網路的發展,電腦硬體的價格下降,以及谷歌這樣“怪物級”高科技公司的存在,以前高不可及的困難也終於有了解決的可能性。另外,功夫不負有心人,深度學習領域最重要的科學家、多倫多大學的辛頓教授帶領的團隊一直沒有放棄對人工神經網路技術的研究,2006年他在《科學》上發表了一篇文章,解決了神經網路在計算上的難題,同時也説明瞭深層神經網路在學習上的優異性。辛頓教授提出的新理論大幅度降低了多層神經網路訓練上的計算量,減少了訓練偏差,和傳統機器學習相比,優勢明顯。從此,神經網路重新成為了機器學習界中的主流學習技術。神經網路改頭換面,為深度學習開啟了學術界和工業界的新浪潮。
吳劍明指出,深度學習的實質,是通過構建具有很多隱層的機器學習模型和海量的訓練數據,來學習更有用的特徵,從而最終提升分類或預測的準確性。區別於傳統的機器學習,深度學習的不同在於:首先,強調了模型結構的深度,通常有5層、6層甚至10多層的隱層節點;其次,明確突出了無監督特徵學習的重要性,也就是説,通過逐層特徵變換,將樣本在原空間的特徵表示變換到一個新特徵空間,從而使分類或預測更加容易。與機器學習所需要的依靠人工建立特徵的方法相比,利用大數據來自動提取學習特徵,是我們朝著真正的人工智慧邁進的又一步。
在另一方面,和傳統人工神經網路的迭代訓練需要過於複雜的計算量不同,深度學習並不同時訓練所有層,辛頓教授提出了更為有效的降低訓練上的計算量和減少訓練偏差的方法。簡單的説,就是自底向上每次只訓練一層網路,通過非監督學習“逐層初始化”(layer-wise pre-training)網路,當所有層訓練完之後,再自頂向下反向調教(back propagation)優化。打個比方,人類的大腦發育初期,大腦每一部分的職責分工並不是明確的,我們對外界事物的理解由淺到深也是出自於本能或是實踐,而去了學校學習後則可以通過後期教育來糾正自己錯誤的認識,進而對事物有更為體系和深入的理解。
即使這樣,深度學習也是需要很大的計算量的,好在近年來,得益於電腦速度的提升、大規模集群技術的興起、GPU的應用以及眾多優化演算法的出現,耗時數月的訓練過程可縮短為數天甚至數小時,深度學習終於在實踐中有了用武之地。
未來發展:通過倣生學思路實現突破
吳劍明指出,目前世界各科技發達國家人工智慧的發展路線不盡相同。和其他科技領域有些相像,在人工智慧行業,一直是歐美在帶頭創造新理論,而日本則是在改良和應用上下工夫。相對來説,日本在硬體方面,比如機器人的精密機器製造、機器人倣人運動方面有優勢,但在關鍵的人工智慧理論方面,新創或是原創的理論很少,所以不管在學術界還是在産業界,目前看來還不如歐美,特別是美國那麼活躍。此外,可能和日本經濟的長期不景氣有關,近年來一些日本大公司對研發投入的決心和長期眼光還不夠。比如在語音識別領域,由於谷歌走在了前面,一些日本大公司乾脆就放棄了自家的語音識別技術轉而使用谷歌的技術。但這樣一來,人工智慧的關鍵入口和背後的大數據就被谷歌給奪走了,這也導致在人工智慧領域很難再翻身超越。
至於哪個路線的未來性更大,吳劍明表示,儘管機器學習和深度學習在語音、圖像、文本識別上有了長足的進步,也讓電腦變得聰明智慧了很多,但和人類所具有的智慧相比,仍然有本質區別。比如電腦能精確識別人臉、物體,但是卻無法識別如張三闖紅燈、李四喝醉了這樣更為抽象的場景。
人類具有豐富的聯想能力、理解能力、創造能力,要實現這些能力而又不通過建立人腦類似的機制,就會繞很大的彎路,幾乎是不可能的。要真正實現強人工智慧,必須借鑒人腦先進結構和學習思維的機制,再通過深度學習這樣的方法進行規模、結構和機理上的模擬,通過倣生學思路實現人工智慧的突破。
當然,人類是從低等生物經歷幾十億年、在地球生態圈這麼龐大的空間中進化而來,要獲得人類這樣充足的進化時空環境幾乎是不可能的。在沒有完全弄清大腦原理之前,通過模倣部分人腦原理來逐步漸進,可能是比較現實的辦法。比如谷歌在收購DeepMind之後明確表示,不會首先將其應用在機器人部門,而是先從基礎的語義識別開始。而百度也是將深度學習技術應用在具體的用戶服務方面,比如説提高中文語音識別率、完善圖像識別能力。所謂循序漸進,按部就班,就像人類一樣有五感才會有思考,把人工神經網路低層的學習水準給完善了,才會有更抽象的高層的學習水準的突破。從這點來看,應該對深度學習未來進一步的理論發展充滿希望。
吳劍明表示,深度學習運用在各個單獨領域比如聲音識別、圖像識別時已經得到了很好的效果,當電腦不需要被事先告知明確數據含義,下一步能夠融合吸收和理解各個部分的數據,起到1+1>2的作用時,人工智慧也許將會被真正兌現。
- 股票名稱 最新價 漲跌幅