近日,一組可視化數據作品《宋詞繾綣,何處畫人間》(以下簡稱《宋詞》)和《唐女詩人群像》(以下簡稱《唐詩》)在朋友圈刷屏。該作品由浙江大學CAD&CG國家重點實驗室和新華網數據新聞部合作,歷時半年完成。

團隊分析了5.5萬首唐詩、2.1萬首宋詞,用大數據技術解讀古典唐詩宋詞,意外發現不少隱藏的資訊。

大數據顯示

蘇東坡去得最多的地方是杭州

這個作品長什麼樣呢?錢報記者打開了網頁版的《宋詞》。

多處留白,水墨插圖,素雅的配色風格,這個作品的風格“整體上是向山水畫靠攏”的。

據了解,《宋詞》以《全宋詞》為樣本,為完成這一解讀,團隊分析了近2.1萬首詞作、近1330家詞人、近1300個詞牌名。而《唐詩》作品的基礎,則是5.5萬首唐詩的數據分析。

記者觀察到,《宋詞》網頁版是由詩人行跡圖和年代生平圖聯動的時空圖,以及宋詞詞雲圖、意象情緒圖、韻律圖組成的。

在年代生平圖中,記者選中代表“蘇軾”的折線,根據圖示,顯示出一條“先平再升又平”的折線,其試圖反映的是蘇軾一生的仕途起伏。

和生平圖聯動的行跡圖上,地圖同步出現大小不同的褐點,用線連接,每個點的大小因蘇軾踏足的次數決定。這呈現的是蘇軾一生的軌跡。從點線圖上看,蘇軾的足跡幾乎遍佈整個宋朝疆域。其中,最大的點所在位置是杭州城,這説明杭州是他最多造訪的地方。

“東風”一詞

在宋詞中共出現1264次

隨著頁面下拉,映入眼簾的是宋詞“詞雲圖”部分。詞雲圖根據宋詞詞語使用次數分析,使用次數越多的字號越大,顏色越深,位置越居中。記者看到,位於正中的詞是“東風”,該詞被使用了1264次。排在其後的是“何處”,一共被使用了1157次。排第三的是“人間”,在宋詞中一共出現1061次。

“我們之前了解宋詞唐詩,更多地是一首一首分開理解賞析,而這次的研究讓我們可以從大數據層面去尋找詩詞背後所隱藏的資訊。”浙江大學CAD&CG國家重點實驗室設計主管張瑋告訴錢報記者。

此次的研究歷時半年,浙大團隊和新華網數據新聞部製作完成的《宋詞》《唐詩》作品,均以網頁的形式呈現,裏麵包含的資訊頗為豐富。其中,資訊量最大、製作最為複雜的當屬《宋詞》作品。

“在傳媒行業,如此成熟的傳統文化題材的可視化數據新聞作品還很鮮見。”張瑋説,這也是浙江大學可視化小組研究團隊在這方面的首次嘗試。

詩人作品中提到“酒”

一半是在追思,三成是開心

團隊不僅分析了《全宋詞》文本表面的資訊,還深入挖掘宋詞所表達的意象含義,整合成意象情緒圖。

意象情緒圖選取了30個像“月”“酒”等常見的字詞,以蘇軾、李清照等24位高産詞人作為代表。通過大數據分析,得出這些意象詞彙所表示的情緒,並將情緒分為五種——“喜怒哀樂思”,然後用餅狀圖表現出各種字詞所表示的不同情緒的比例。

比如詩人在寫“酒”時,近半數想要表現的意像是懷念和思考。陸游寫“紅酥手,黃滕酒”,或者晏殊寫“一曲新詞酒一杯,去年天氣舊亭臺”,都是在追憶故人以及對人生的思考。還有近三成,是類似朱敦儒筆下“日日深杯酒滿,朝朝小圃花開”的開懷一笑。

那麼,大數據技術是如何從宋詞的字裏行間體察到詞人當時的情緒呢?

首先,團隊需要將基本只表示某種特定情緒的典型意象整理出來。張瑋説,為了更精確,團隊還專門請來浙大文學院博士胡秋研進行了核對。

負責數據分析和前端開發的潘如晟告訴記者,他們會用大數據分析上下文,根據典型意象去計算該字詞屬於某一情緒的概率,得出詩人最有可能想要表達的情感。

簡單來説,比如詩人張在的《題興龍寺老柏院》中寫到:“南鄰北舍牡丹開,年少尋芳日幾回。惟有君家老柏樹,春風來似不曾來。”其中,“松柏”表達的就是一種“追思”的情緒。再聯繫上下文,可以得出“牡丹”和“春風”想要傳達的也是“思”。

通過可視化的數據呈現

讓唐詩宋詞真正通俗易懂

當問及這項研究的難點所在,張瑋首先提到的是圖表的選擇。為了找到最合適的數據呈現方式,許多圖表都是幾易其稿。

合適的圖表,既要美觀,又要能涵蓋所需要呈現的資訊,同時還要表現得直觀,還要與讀者進行比較順暢的互動,這著實讓團隊費了不少工夫。據張瑋介紹,團隊曾嘗試用“小山峰”視圖去表現詞的抑揚頓挫,但考慮到圖像重疊影響觀感,又不利於擺放意象圖像,最後只能作罷。

“人是視覺性的,可視化形式的科普手段,可以把晦澀的古詩詞變得通俗易懂,讓科普擺脫説教或者沉悶的刻板印象,從而起到推廣傳統文化的作用。”浙江大學電腦科學與技術學院副院長陳為説。

這項研究定位是科普,因此選擇分析的對象也以唐詩宋詞最基本的內容為主。張瑋説:“這個産品的製作並不是為了得出某一結論,而是給人們提供一種探索唐詩宋詞的有趣工具。”因此,更多有意思的結論還有待於讀者們去發現。