精準前沿丨基於奈米孔基因組測序的超快致病性變異鑒定流程

快速臨床診斷對WGS的需求迫在眉睫。

本期《精準前沿》欄目分享由斯坦福大學的Ashley團隊于2022年3月28日在國際知名期刊Nature Biotechnology(IF=50.5)上發表的一篇研究[1],該研究開發了基於奈米孔測序技術的致病性突變超快鑒定方案。該方法結合優化的樣品製備方案,在48個flow cell中分佈測序、近實時鹼基識別和比對、加速變異檢出和快速變異篩選,從而實現高效的人工審查。此外,將其應用於兩例臨床病例,可在8小時內鑒定出候選變異。與以往方法相比,該方法提供了準確的變異檢出和有效的優先級,並將診斷性臨床基因組測序速度提高了兩倍。

7671653005319407

研究背景

WGS在醫療診斷,特別是在重症監護環境中具有優勢,但是用於後續和下游分析的管道耗時較多。隨著技術的發展,奈米孔測序已經成為高通量、高保真的測序平臺。但要在數小時內完成數據比對、變異檢測和變異過濾仍面對挑戰。傳統的樣品製備方案沒有考慮到從有限體積的血液中産生足以用於快速臨床應用的測序文庫。此外,雖然完整的reads可以在開始運作的幾分鐘內實時地從奈米孔測序裝置中流出,但在48個flow cell並行運作時,數據産生的速率遠遠超過本地PromethION的鹼基識別和比對速率,這導致很高的計算延遲。本研究開發了一個全基因組奈米孔測序管道,改進了文庫製備,並基於雲模組來執行近實時的鹼基識別和比對,加速的變異檢測和篩選。

60071653005319611

圖1. 超快奈米孔全基因組測序方案流程圖

研究方法

首先,作者優化了樣品製備方案,將足量的樣品庫分佈在48個flow cell中。通過多次測試,最終發現一種方法能夠在50分鐘內從1.6 ml血液中分離出平均片段大小>60 kb的高分子量DNA(電泳測定),通過熒光測定法(Qubit)測得至少36 μg基因組DNA,通過260/280nm分光光度計測得平均樣品純度為1.70。此外作者還發現,將每次建庫的輸入DNA增加到4 μg,並平行製備8個反應時,可得到16 μg的最佳文庫産量,允許每個flow cell裝載多達333 ng的文庫量。 

使用barcodes會增加實驗時間並減少每個流動池可裝載的DNA量,因為barcodes方案需要額外的文庫清理。因此,作者研究了barcodes使用的必要性。通過對來自個人基因組計劃的NIST HG002基因組進行測序,結果顯示HG002變異檢測性能(攜帶和不攜帶barcodes)相似(圖2a,barcodesF1得分:0.9974 SNP, 0.7396 indels; 非barcodesF1得分: 0.9974 SNP, 0.7322 indels)。此外,在外顯子和基因組的複雜區域中,barcodes和非barcodes數據的變異檢測性能也是相似的(圖2a)。基於這些數據,作者選擇不使用barcodes,這使得文庫準備時間減少了37分鐘,並提高了下游測序效率。

36171653005319766

圖2. barcodes對變異檢測性能的影響

理論上在48個flow cell同時測序的最大通量為2.5 Gb每分鐘,測序運作1.5個小時,同時運作鹼基識別和比對仍會額外消耗18.5個小時。為了解決本地資源對實時鹼基識別和數據比對造成的限制,作者開發了一個雲計算基礎架構(基於Google Cloud Platform),並在多個GPU節點之間並行化鹼基識別和比對。使用雲平臺會增加數據上傳的步驟,對此作者使用改進的fast5文件壓縮(VBZ),並調整為定時定期的上傳模式管理,將原始數據實時分發到16個計算節點(圖1a),每個節點針對特定的3個flow cell運作Guppy和Minimap2。使用這種方法,能夠實現接近實時的鹼基識別和大規模比對。作者對來自HG002樣品的所有fast5文件進行了模擬測試,為了模擬高達2.5 Gb每分鐘的吞吐速率,48個flow cell産生的數據在90分鐘內以統一的速率進行上傳,在16個節點並行運作的情況下,僅用了額外的25分鐘,生成了鹼基識別和比對好的輸出文件,近乎實時地完成高深度(200 Gb)、長讀長的全人類基因組數據的鹼基識別和比對。

接下來,作者探討了變異檢測的加速。使用PEPPER–Margin–DeepVariant來識別較小變異,而使用Sniffles進行SV檢測。為實現運作時加速,對PEPPER-Margin-DeepVariant使用了14個帶有GPU的計算節點,對Sniffles使用了2個僅限CPU的節點(圖1b)。通過對基因組分區並行,從而使HG002樣本的運作時間達到29分鐘。通過整合NVIDIA Parabricks對GPU進行加速,將整個運作時間從40分鐘減少到23分鐘。儘管之前的幾項研究表明,基於奈米孔測序的變異檢測性能與其他方法相比具有競爭力,但作者進一步提高了管道的變異檢測精度。奈米孔測序的主要錯誤模式是indels,尤其是在均聚物中,為了提高indel檢測的準確性,作者優化了DeepVariant堆積圖像(該方法首先應用在Pacbio測序中),最終使得indels的F1得分從0.6999增加到0.7322,報告的變異總數減少了3%,進而增加了準確性,減少了評估潛在變異所需的治療時間。

最後,作者對檢測到的變異進行了註釋(圖1c),並開發了一個用於變異過濾的定制模式,以加速對變異的手動審查。對於每個樣本,作者與治療臨床醫生合作,得出了一個患者特異的、基於表型的靶基因列表。使用Alissa Interpret分析小變異的vcf文件,並使用定制分類樹篩選變異並確定優先級以供審查。定制的分類樹改編自斯坦福臨床基因組計劃(GCP)的經臨床驗證的先證者外顯子組分類樹。該標準過濾方案旨在應用於診斷過程中的患者,並提供廣泛的搜索,允許表型擴展和有限的基因-疾病發現。

研究結果

臨床環境中的管道應用和性能

為了證明該流程在真實樣本中的性能(圖3a),作者總結了兩個病例的臨床表現和細節。首先是一名57歲的男子,其患有嚴重的新型冠狀病毒感染和合併症(包括甲狀腺功能亢進和高血壓),需要進行雙側肺移植。術中經食管超聲心動圖顯示雙心室功能障礙伴左心室肥厚和術後竇性心動過緩,心臟磁共振圖像提供了肥厚性心肌病的證據;然而,鑒別診斷範圍很廣,包括冠狀動脈疾病,心肌炎,心臟澱粉樣蛋白和心臟結節病。要求進行快速分子檢測以幫助明確診斷。在6小時55分鐘內(圖3b),變異檢測産生了4,316,464個小變異和35,780個結構變異。在樣品製備開始後的7小時18分內,在TNNT2基因中鑒定出一個診斷性雜合變異體(大約341 C > T),並根據美國醫學遺傳學和基因組學學院(ACMG)的指南將其歸類為可能致病。該診斷進一步減少了對後續多次影像學研究和心臟活檢的需求。

其次是一名14個月大的女嬰,有肌張力/角弓姿勢障礙和發育遲緩的病史,在經歷了心臟驟停和呼吸衰竭後被送入斯坦福大學Lucile Packard兒童醫院的兒科重症監護室。腦部核磁共振成像顯示普遍的腦室突出,小腦橋和薄胼胝體。其他診斷結果都不顯著,表明瞭遺傳病因的可能性。在抽血後的7h內(圖3c),從200Gb的測序數據中産生了4,481,802個小變異和36,423個SV,過濾後篩選出31個小變異和21個SV優先進行人工審查。在接下來的48分鐘內,在LZTR1中鑒定出一個意義未知的候選變異體(大約791+1 G > A),該基因與高爾基複合體的穩定有關。經過人工審查,最終確定致病因素尚不清楚。沒有其他優先變異可能有助於患者的臨床表現。正交臨床基因檢測未發現遺傳病因。

87861653005319860

圖3. 超快奈米孔測序流程性能表現

討論

快速臨床診斷對WGS的需求迫在眉睫。儘管臨床WGS的標準週轉時間是幾週,但最近的研究已經將新生兒群體的週轉時間減少到3-5天。在本研究中,作者開發了一種WGS的簡化方法,提供了比以前報道的任何臨床WGS管道更快且準確的大、小變異檢測。該管道能夠在不到2h的時間內生成高深度的人類全基因組數據,並在8h內生成變異診斷。該方法已被證明比先前報道的最快基因組診斷快了50%。 END 

參考文獻:

[1]  Goenka, S.D., Gorzynski, J.E., Shafin, K. et al. Accelerated identification of disease-causing variants with ultra-rapid nanopore genome sequencing. Nat Biotechnol (2022). https://doi.org/10.1038/s41587-022-01221-5

撰寫丨逆時針

編輯、排版丨SX

      中國網是國務院新聞辦公室領導,中國外文出版發行事業局管理的國家重點新聞網站。本網通過10個語種11個文版,24小時對外發佈資訊,是中國進行國際傳播、資訊交流的重要窗口。

      凡本網註明“來源:中國網”的所有作品,均為中國網際網路新聞中心合法擁有版權或有權使用的作品,未經本網授權不得轉載、摘編或利用其他方式使用上述作品。

電話:0086-10-88828000

傳真:0086-10-88828231

媒體合作:0086-10-88828175

品牌活動合作:0086-10-88828063

廣告合作:0086-10-88825964