用大數據解譯DNA獲重大突破
- 發佈時間:2014-12-20 01:30:38 來源:科技日報 責任編輯:羅伯特
科技日報多倫多12月18日電 (記者馮衛東)人類攜帶了數以百萬計的DNA代碼,但一直以來並無有效的方法來告訴人們哪些基因突變引起癌症,抑或只是簡單的耳垢潮濕。由多倫多大學電腦工程師領銜的一個研究小組在18日出版的《科學》雜誌上稱,他們已開發出的一種獨一無二的過濾技術可最終解決上述問題,從而在與至少兩個其他國際小組的同類研究競逐中力拔頭籌。
這個新的計算系統類似于通過強大的網際網路搜索引擎搜尋答案,其梳理了人類基因組各種具有實質意義的突變。該技術最終可將醫學研究成果通過定向方式轉化為疾病的遺傳根源。研究成果表明,在沒有患者及其病情相關資訊的情況下,被命名為SPANR(基於拼接的突變分析)系統準確地證實了94%的常見疾病背後的基因“元兇”。該系統還可用於識別使人們更健康、更聰明、更快樂的生物性狀。
主持該項10年研究計劃的多倫多大學工程學和醫學教授布倫丹·弗雷説,該系統是全球首個能夠有效挖掘基因組的工具。其核心是被稱為“機器學習”的計算技術,通過人工智慧編程來進行檢測並破譯。機器學習的複雜形式——深度學習技術已廣泛應用於語音和圖像識別軟體及Siri等虛擬助手流行應用程式。
SPANR系統旨在檢測調控基因的DNA廣大區域中的小故障,而這些區域曾被天真地認為是垃圾。利用數據和演算法進行訓練後,該系統可根據每個突變對細胞行為的改變能力進行分析和排名。突變的排名越高意味著越有可能導致疾病。
擁有加拿大生物計算領域首席科學家身份的弗雷教授表示,雖然電腦被用於讀取基因組已有相當長一段時間了,但是利用電腦來解譯基因組尚屬首次且表現相當出色。
研究發現了與結腸癌、胰腺癌和脊髓性肌萎縮症(嬰兒死亡的首要原因)相關的新突變基因,還發現了從未曾與自閉症關聯的另39個基因,且被認為與兒童時期形成該病緊密相關,而此前,只有幾十個基因被明確與自閉症綁定。研究合作者、專注研究自閉症的多倫多病童醫院應用基因組學中心主任斯蒂芬·謝勒稱,該系統令人信服地展示了機器學習在生物學領域展示的強大威力。
弗雷教授説,遺傳研究通常需要收集和比較數萬名病患和健康人的基因組,但即使如此多的樣本也不足以精確地找到與疾病相關的模式或突變。SPANR系統或可給此類遺傳研究帶來急需的高精度。
弗雷教授認為,機器學習將引領個性化醫療時代,未來的疾病治療可根據一個人的DNA展開,醫生在理論上將能夠使用SPANR系統快速産生任何病人的重大基因突變列表。他預計,未來10年,人們可以在智慧手機中安裝這種應用程式,彼此分享和比較基因突變,並通過交換其疾病和性狀細節“圍觀”這些突變的真實含義。
人們已經開始將自己的遺傳密碼上傳到谷歌雲。去年夏天,谷歌透露,其已推出自己的基因組項目以對健康人的生物標誌進行編目。這個月,加拿大黑莓公司也宣佈,其最新款“Passport”智慧手機將包含一個癌症基因組瀏覽器,以便醫生能即時訪問患者的基因數據。弗雷教授説,所有這些大數據都將需要某種形式的深度機器學習來解譯。
總編輯圈點
人類DNA被稱為“生命之書”,科學家們正竭力破譯它,要弄清到底是哪些基因突變導致了疾病。26個字母能創作出多種文本模式,基因組是由30億個化學鹼基對組成,其可能存在的模式數量要比宇宙中的原子數目還多。有賴於此前人類基因組的測序工作,機器學習有了建模所需的原始數據。依靠這款“生物瀏覽器”,或許未來人們很自然地掏出手機瀏覽各自基因突變的異同,而具有某些共同突變的人們還會熱烈討論他們的“恐高”症。
- 股票名稱 最新價 漲跌幅