新聞源 財富源

2024年11月27日 星期三

財經 > 滾動新聞 > 正文

字號:  

碳雲智慧首席科學家李英睿:每個人都是大數據載體 生命是多維度系統

  • 發佈時間:2016-01-20 12:13:00  來源:中國廣播網  作者:佚名  責任編輯:羅伯特

  2016年1月20日,2016全球大數據峰會GBDC2016在京舉行。碳雲智慧聯合創始人及首席科學家、華大基因前科學家及華大科技CEO李英睿做了主題為《管理數字生活》的演講。他認為,每個人都是大數據的載體,生命是一個多維度系統,希望數據科學和人工智慧在未來能解決更多問題。以下是其演講全文:

  李英睿:大家好,我的主題是:管理數字生活。今天我想跟大家講講現在的生物學怎麼把人看成大數據的載體來做的。大家腦子裏可能對基因都有一個概念,在我們講的基因,我們每個人,我們知道我們有DNA從爸爸媽媽那邊繼承下來的遺傳的物質。DNA實際上決定我們生活方方面面,它本身是有一個自定式的序列,它有四種所謂的(鹼基序列)。和電腦相比,只不過電腦是以0101做標誌的,我們的生物是通過ATCG的四進制進行標誌。這個東西是非常好的數據載體,目前也有一些公司專門DNA做存儲的介質。

  在這樣的情況下我們來想一想生命是怎麼來運作的?實際上一定程度上可以把生命視作自載的程式。每個人DNA我剛才講過它本質是數據的序列。我們每個人自己的基因或者基因的序列,它實際上是每個人自己的這樣的程式。這樣的一個程式剛才我們在這個圖裏它叫所謂的生命的方程。在左邊實際上生命的分子生物學的,就是底層的一些數據。中間在環境的影響之下,最後就會得到這樣的所謂在外層的,我們可見的這樣的一個表形數據。

  在左邊這個分子生物學數據裏,最主要的是什麼東西呢?最主要的就是我們剛才談到的基因。基因在環境的作用裏,就像一個程式在運作環境或者在一個運作的參數的條件之下,它們最後會形成這樣一個表形的結果。什麼叫表形?表形就是各種各樣的東西,比如像、身高、膚色,等等外在的我們能看到的每個人生命的描述。

  這樣大家就理解,為什麼在同樣的環境下,不同的人會有這樣不同的形狀,在大家都抽煙,有的人會的肺癌,有的人不會。實際上人與人之間的程式,就是我們剛才談到的基因和基因相關的分子的數據是不一樣的。反過來講的話,這個程式可以有不同的參數,即使是雙胞胎他的程式非常相似的情況下,他在不同的環境裏,他仍然會運作出來不同的結果。我們這樣來理解我們的生命的話,就可以把生命整個看成是一個資訊的系統來觀察。

  我們通常講大數據的時候,我們剛才談了很多很多方面,在對人的描述的時候怎麼討論,我們如何把人的生命和生命的過程,整體上來講的話用數據來進行描述。一位科學家提出模型,這個模型是有很多的不同的模型的。但是我覺得這個還比較清晰,我們來看一看。如果一個人我們要描述,就是剛才整個人的個體。從最左邊開始的話,首先暴露的在什麼樣的環境裏。中間他有各種各樣分子的數據,剛才我們講到的基因組,蛋白質,代謝,還有其他的身上的所有的微生物的菌群等等這樣的分子生物的一些數據。在右邊實際上就是有影像或者生物感應器的,這個是在醫學或者病例裏出現的。

  還有生活數據。剛才我們在談的,我們目前談到的絕大部分的大數據的時候,主要談的實際上是右邊的這三個:就是數字化的生活,就是剛才我們進行移動互聯網的整個數據彙報的時候,主要談的是數字化的生活。我們在現代的移動醫療裏主要談到的實際是最右邊的另外兩個,一個是感應器以及影像學數據。整個人內部的各個層次的數據,實際上現在反而是沒有真正的去量化或者解讀的,這個也是目前我們對於人類了解的一個很大的問題。但是這個問題正在被解決,這是一個調查,就是整個測量人的全部基因,他的成本曲線的變化。

  這個變化可以看到,在開始的時候,這是上十億的數量級。在2012年的時候已經降到了1萬美金以下,這是多少倍的變化呢?在今天的時候,大概在1千美金這樣的一個數量級左右。我們可以看一下整個曲線,這是一個對數曲線,它實際上比我們通常談到的IT行業的摩爾定律實際上是更快的。實際上現在我們在IT之後,就是所謂的生物技術BT,它是更快的速度在追趕IT的前進的步伐。這樣的一個行業,它又恰恰填充到了我們剛才談到的對人描述的數據,這個時候在未來它對我們産生了很多很多的想像。如果未來我們這樣生物數據的採集,這個成本極低的時候,它會發生一個什麼樣的行業的變現?

  我們現在講,剛才講DT PLUS,我們在未來會不會存在某種情況下會存在類似于基因PLUS這樣的一個行業呢?我們整個的人的,從剛才談到的社會生活的數據,醫療影像的數據,以及我們身體內部的運作的實際的生理的分子的數據,以及環境的數據,在一起的時候,它會對我們的生活産生什麼樣的價值?我待會兒再來談這個問題。

  另外一個,大家可以理解,就是我們談生命的大數據的時候,我們每一個人自己實際上就是一個大數據的資訊的載體。我們現在仍有很多的問題,我剛才談的,為什麼我們現在仍然沒有把生命的很多的問題搞清楚?很大程度上就是因為生命,我們每一個人的數據非常的大。我們現在有這麼多人,全國有13億人口,世界有70億人,這樣的數據情況下,我們要想把人類本身進行一個完整的數學建模,這個是非常非常困難的問題,而且傳統意義上來講,一方面生物學家本身也不是通過數學建模的方式來進行這樣的研究。

  反過來,就是我們現在的整個的數據的科學,以及這樣的架構體系,它本身還沒有涉足生物的領域。因為我剛才談了,它是摩爾定律的快速的發展,但是大家還沒有感受到這樣的東西。在這樣的基礎之上,我們認為在現在我們實際上人工智慧本身,包括數據和人工智慧本身,還有非常非常重要的應用,這個應用就是專門用來分析人類的生命的大數據。在這樣的基礎之上,剛才各種各樣的支撐,在生命科學就有可能得到使用,在這樣一個基礎上,它就有可能開啟剛才我們談到的這樣的一個對於人類的有完整的數據的描述以及這樣的結果。

  在這樣的基礎上我們為什麼做這樣的事情?大家知道今天人類的健康管理,實際上是很有歷史的健康管理,我們總是在人類已經發生,我們個體發生生病的時候,我們再去醫院進行相關的檢修。但是事實上,我們在座的不管對任何一個機器,對汽車我們都知道,是要進行保養,對任何我們玩兒的東西都要進行保養,但是我們對人類本身沒有保養的概念。為什麼沒有這個概念呢?因為我們不知道他應該怎麼去保養。我們現在把人類進行全部的數據化的描述,以及相關的建模,我們的目標是什麼?我們的目標實際上就是要構造一個有可能對人類的整個的生命的進程發生狀態描述和預測的這樣的一個系統。

  這個系統我們可以理解,就是他很像一個我們平時算命的所謂的水晶球。我們需要知道自己現在身體的狀態是什麼樣的,未來會走向什麼樣。還有未來如果走向不好的結果的時候,到現在我們可以採取什麼樣的措施去進行干預,讓整個系統按照我們想像的方式來進行運作,來走向未來。這個就是我們生命大數據和人工智慧要研究的核心問題,就是對人的狀態。大家記得衰老不是一天發生的,它是一個連續的過程。疾病也不是一天發生的,它也是一個連續的過程。因此我們現在做的事情,就是我們要在疾病之前,在未病的時候能夠對這個趨勢進行掌握,用我們的模型來進行干預和預測。這就是我們整個要研究的一個問題。

  一般在自然環境下,哺乳類的自然生命,我覺得人在120到150歲都是合理的預測,為什麼現在達不到這個預測呢?有幾個問題:第一,本身這個程式存在Bug。另外,我們在趨勢預測裏,我們生活運作的過程裏,我們的參數給錯了,或者整個運作的環境不適合,這個時候我們是不是也有可能會導致提前出現了問題?

  還有,我們整個運作的方法也出現了問題。這裡有很多處理的方式,比如最常見的,就是我們本身基因上有比較大的問題,我們叫做遺傳上的缺陷。遺傳上自缺陷現在我們已經有些辦法,可以對基因進行編輯。如果大家最近看生物相關的熱點的話,你可以知道,現在我們的科學家已經可以對基因進行編輯,而且最近的情況,在去年的時候對一個英國的小女孩兒進行了基因編輯以後,他修改了她白血病的基因,讓她重新變成了一個正常的血液的細胞。這個是現在的技術的力量,我們可以從底層來修改我們的程式的代碼。

  另外,對整個運作的趨勢進行預測和干預。這是其中的一個例子,也是剛才談到的十層數據裏的一層。這個一層是我們腸道裏微生物的菌群。微生物的菌群的總體總量也不大,大概是1-2公斤,但是基因的數量,它有三萬個以上。我們人類大概有多少呢?我們人類有不到三萬個基因。這樣的一個系統跟我們有關係,比如跟我們的糖尿病、心血管,甚至和神經所有的,現在所講的生活習慣造成的慢性病都有關係。一方面來講,這個菌群可以作為預測系統,另外它在我們的體外,它也可以成為未來我們干預慢性病,包括三高等的落腳點。

  還有我們這個行業討論的一些問題叫精準醫學。什麼叫做精準醫學?過往的所有的治療或者干預的方案,它是對症的,就是你有這個症狀我給你這樣的醫療。剛才談到人和人的程式代碼本身是不一樣的,他運作的狀態也是不一樣的。在這個系統我們要對這個系統干預的時候,要調成健康的狀態,它有不同的處理方式。這個不同的處理方式就是對個人的,個體的,精準的處理。比如説我們每個人的孕婦都知道要吃葉酸。實際上在中國有三分之一的孕婦吃廣義的葉酸是沒有用處的。因為我們三分之一的人沒有辦法把藥品的葉酸代謝成為生物裏面的活性的葉酸。如果我們掌握這樣的一個事情的時候,我們就馬上知道,你現在要吃另外一種活性的葉酸,它才有可能達到預防胎兒畸形的問題。這個就是我們對整個預測的想法。

  我們重新來想這樣的問題,什麼是生命?不同的人肯定有不同的回答,但是今天的趨勢上,希望看到生命實際上是一種多維度的資訊的系統。我們希望了解這個資訊系統它運作的規律,從而去干預這樣的運作規律,而這個裏面最重要的一點,就是我們視它為一個大數據的體系,我們希望能夠有數據科學和人工智慧等參與,把這個問題最終解決。謝謝大家。

大數據 詳細

漲幅榜 更多

排名 股票名稱 最新價 漲跌幅
1 紫光股份 80.14 10.01%
2 東軟集團 15.94 10.01%
3 賽為智慧 18.52 9.98%
4 航太資訊 27.13 7.28%
5 天源迪科 17.00 6.25%

跌幅榜 更多

排名 股票名稱 最新價 漲跌幅
1 天夏智慧 12.58 -5.77%
2 上海鋼聯 74.30 -3.19%
3 美的集團 52.84 -3.10%
4 南威軟體 12.10 -2.97%
5 奧飛數據 75.28 -2.87%

熱圖一覽

  • 股票名稱 最新價 漲跌幅