這是一幅由谷歌公司2005年開源的 AI程式“DeepDream”創作出來的藝術作品。谷歌的另一項利用機器學習創作音樂、藝術作品的項目Project Magenta也發佈了一個名為 NSynth (Neural Synthesizer)的神經聲音合成器。
時間回溯到20世紀90年代中期的山景城加利福尼亞,當時道格拉斯·艾克還是美國阿爾伯克基市的一個數據庫程式員,業餘時間則兼職做個音樂人。在能源部的實驗室裏寫了一天的電腦代碼之後,他就會在當地的一個小酒吧裏表演,演奏他所説的"朋克范兒的藍草音樂(藍草音樂,一種鄉村音樂)"--他管這叫做"Johnny Rotten遇上 Johnny Cash"(前者是英國朋克搖滾樂團“性手槍”的主唱,後者是美國鄉村音樂創作歌手)。但他真正想做的是把自己的主業編程工作和業餘的興趣愛好結合起來,利用機器來創造一種獨特的音樂。"將人工智慧和音樂結合在一起是我畢生的唯一心願",艾克説道。
這個想法雄心勃勃卻略顯稚嫩。那時道格拉斯·艾克就讀于離家不遠的布盧明頓的印第安納大學,他把這個想法拋給了認知科學家道格拉斯·郝夫斯臺特(Douglas Hofstadter),其研究意識與機器間關係的著作《哥德爾、埃舍爾、巴赫:集異璧之大成》(Gödel, Escher, Bach: an Eternal Golden Braid)還獲得了普利策獎。卻不曾想郝夫斯臺特迎面給他澆了一盆冷水,堅稱當前即使是最先進的人工智慧技術也遠遠不夠成熟。但在接下來的二十年裏,在科研一線工作的艾克孜孜不倦地堅持著自己的想法,最終,人工智慧發展水準趕上了他的野心。
去年春天,在 Google做了幾年的研究工作之後,艾克又重新拾起了多年前曾向郝夫斯臺特提起過的想法。這一想法付諸實踐後便有了Project Magenta的誕生。谷歌研究團隊不僅讓這些開發出來的機器人學會了如何製作獨特的音樂,還能使它們創作出包括素描,視頻甚至笑話在內的多重藝術形式。繼在智慧手機、應用軟體和網際網路服務等多項領域稱霸後,谷歌又在著手開發通信業務,艾克則將Magenta視為這項業務自然而然的衍生物。
"這為人們創造了全新的溝通方式,"最近在谷歌人工智慧研究總部接受的一次採訪中,艾克這樣説道。
該項目一方面也為利用人工智慧技術創作藝術作品的實現作出了不懈努力,而人工智慧也只是近些年來才趨向成熟的一門技術。所謂深度神經網路(deep neural network)就是利用分析大數據來學習特定的行為的一種複雜數學系統。例如,通過在數以百萬計的自行車照片尋找其共同的模型與款式,由此來學會如何識別自行車。這就是社交軟體Facebook識別線上照片中的面孔所應用到的原理,安卓手機能夠識別口頭指令,以及微軟的通訊軟體Skype的翻譯功能同樣依賴於這項技術。不過這些複雜的系統同樣也可以創造藝術。例如,通過分析一組歌曲,它們可以學習如何製作類似的聲音。
正如艾克所説,要想使得機器能做製作出一首,或者誇張地説,乃至數萬億首的披頭士樂隊的新曲,而且每首聽起來既像是甲殼蟲樂隊自己錄製的音樂,又與其有些許差異,距離這個結果的達成仍要數年的時間,但至少這些系統已經在向這個方向靠攏了。不過這種創作方式雖説創造出了藝術,但最終從某種意義上來説又漸漸地瓦解了藝術,這樣的結果並不是他所追求的。除了模倣之外,還有很多其他的創作途徑值得探索。人工智慧最終的理念不是取代藝術家,而是為他們提供工具,讓他們以全新的方式去創造藝術。
二十世紀九十年代,艾克在新墨西哥州的小酒館裏將Johnny Rotten and Johnny Cash的音樂糅合在了一起;現在,他正在構建可以實現相似效果的軟體。利用神經網路,他和他的團隊把從各個樂器(比如像巴松管和古鋼琴的結合)中提取出的聲音混合在一起製造出人們聞所未聞的聲音。
另一幅利用“DeepDream”創作出的作品。“DeepDream”可以利用神經網路把一幅現成的照片生成為諸多的抽象圖片。
就如同通過分析上百張貓的照片來學習如何識別貓一樣,神經網路也可以通過分析數以百計的音符來學習巴松管的音樂特性,其可通過創建數學運算式,或者説一系列向量以識別巴松管。由此,艾克和他的團隊已經將上百件樂器的發出的音符輸入了該神經網路,為每一門樂器都建立一個特定的向量。現在,只需在螢幕上動動按鈕,它們就可以結合部分向量從而創造出全新的樂器:可能這門樂器發出的音色47%來自巴松管和53%來自古鋼琴,另一門樂器則是將這個比例顛倒了過來,以此類推。
幾個世紀以來,管弦樂的演奏都是不同樂器間樂音的相互交疊。但現在不同以往了,樂音不再是重疊交織的了。艾克和他的團隊正在把幾種樂器的音色糅合在一起,為藝術家創造出前所未有的新的演奏方式。"我們正在製作下一代電影攝影機,"艾克説。“還有新一代的電吉他。”
這個特殊項目,也就是所謂的 NSynth,目前還只是處於起步階段。但是,在藝術界和科技界中,許多人已經開始對通過神經網路和其他人工智慧技術來創造新藝術的做法躍躍欲試了。"這項技術在過去幾年中發生了突破性的進展,"洛杉磯的攝影師兼藝術家亞當·費裏斯如此評價道,“這是一項全新的美學形式”。
2015年,谷歌公司內部的一支獨立研究團隊開源了DeepDream,這套程式工具可以利用神經網路,從現成的照片中生成出頗具迷幻效果而令人印象深刻的“夢境圖像”,而且目前對這項技術在創造新式藝術上的應用已不僅僅限于谷歌一家公司了。如果該程式解析了一張關於狗的照片,並在圖中發現了一根形似眼球的狗毛,圖片效果就會著重強調這根狗毛並不斷重復這個過程,直至整只狗被旋轉的眼球圖案所覆蓋。
與此同時,一些藝術家,如著名的多媒體表演藝術家特雷弗·帕格恩 (Trevor Paglen )或較為小眾的亞當·費裏斯正在以其他方式來探索神經網路的運作方式。1月份的時候,帕格恩在舊金山一間陳舊的海運倉庫進行了一次表演,借用神經網路可以追蹤人類觀察方式和移動路徑的特性,對電腦視覺的倫理性進行了探索。例如,當先鋒樂團克洛諾斯四重奏樂團(Kronos Quartet)的成員在臺上演奏時,神經網路能夠實時分析他們的表情,猜測他們的情緒。
態度之於工具,就像老瓶裝了新酒。曾製作詩歌生成軟體的紐約大學教授艾莉森·帕裏什(Allison Parrish)指出,藝術家們早在自二十世紀五十年代開始就已經在使用電腦進行創作了。她説:“正如傑克遜.波洛克(ackson Pollock)所想到的一種新的繪畫手法一樣,他所做的就是打開顏料罐,把顏料肆意揮灑在帆布上。”這些新的電腦技術為藝術家們創造了一塊色調更豐富的調色板。
一年前,戴維·哈(David Ha)還是東京高盛集團下的一名交易員。一到午休時間,他就開始把玩神經網路,並將製作出來的結果放在自己化名下的部落格上。此外,他還建立了一個可以自行寫下日文漢字的神經網路,這種日文漢字與其説是寫出來的,倒更像是畫出來的圖案。
不久後,艾克和谷歌公司的其他成員發現了該部落格,現在哈正在谷歌公司著手研究Magenta項目。利用名為 SketchRNN的項目,他正在構建可以繪製圖案的神經網路。通過分析幾千張普通人繪製的電子版速寫畫,這些神經網路可以學習繪製像豬、卡車、小船或瑜伽姿勢之類的圖像。不過他們不抄襲別人畫過的東西,他們有自己的畫法,會選擇從數學的角度來辨別豬的形態。
比方説,你可以要求它們畫一隻安上貓頭的豬,或從缺了一隻馬蹄的馬匹,又或者畫出一輛形似小狗的卡車,用任意幾條彎曲線條造出一艘小船。就像對待NSynth或 DeepDream一樣,藝術家們不大可能會用這些新工具來創作藝術作品,但是,如果你一旦嘗試了這種技術,你就會發現他們是是由哈創造出來的自成一派的鮮活作品。人工智慧不只是創造新的藝術派別,它正在創造新型的藝術家。(付文韜 翻譯自紐約時報)