![]() |
上海源葉生物科技有限公司
主營(yíng)產(chǎn)品: S30260異硫氰酸胍,30259鹽酸胍,嗜熱菌蛋白酶 |
![](/NewShowStand/style/15/Images/Green/中級(jí)會(huì)員.png)
聯(lián)系電話
15921386130
公司信息
- 聯(lián)系人:
- 何小姐
- 電話:
- 86-021-61559134
- 手機(jī):
- 15921386130
- 傳真:
- 86-021-55068248
- 地址:
- 上海市松江區(qū)長(zhǎng)塔路465號(hào)6幢
- 郵編:
- 200433
- 網(wǎng)址:
- www.shyuanye.com
基因組組裝可縮短至幾分鐘?
2015-7-8 閱讀(434)
基因組就好像是萬(wàn)物的生物學(xué)用戶手冊(cè)。細(xì)胞瞬間讀取DNA,得到有機(jī)體生長(zhǎng)、活動(dòng)和繁殖所必需的指令。但對(duì)于人類來(lái)說(shuō),要破譯這本“生命之書"則較為困難。延伸閱讀:Nature Biotechnology報(bào)道基因組組裝方法。
當(dāng)今,研究人員通常依賴新一代測(cè)序儀,將*的DNA堿基序列(只有四個(gè))翻譯成字母:A,G,C和T。而DNA鏈長(zhǎng)達(dá)數(shù)十億個(gè)堿基,這些機(jī)器可產(chǎn)生非常短的讀數(shù),一次大約50至300個(gè)字符。為了從這些字母中提取信息,科學(xué)家們需要重建基因組的位置——這個(gè)過(guò)程類似于重建一本書中文本片段的句子和段落。
但是,這個(gè)過(guò)程可能很快就變得復(fù)雜和耗時(shí),特別是因?yàn)橐恍┗蚪M是巨大的。例如,人類基因組含有約30億個(gè)堿基,小麥基因組包含近170億個(gè)堿基,松樹基因組包含約230億個(gè)堿基。有時(shí),測(cè)序儀也會(huì)在數(shù)據(jù)集中引入誤差,需要過(guò)濾掉。大多數(shù)時(shí)候,基因組需要從頭組裝。想象一下,這就像將一百億塊拼圖拼在一起,而且沒(méi)有一個(gè)完整的圖片可供參考。
美國(guó)勞倫斯伯克利國(guó)家實(shí)驗(yàn)室計(jì)算研究部(CRD)、聯(lián)合基因組研究所(JGI)和加州大學(xué)伯克利分校(UC Berkeley)的一個(gè)研究小組,通過(guò)把一些新算法、計(jì)算技術(shù)與創(chuàng)新的編程語(yǔ)言Unified Parallel C (UPC),應(yīng)用于的從頭基因組組裝工具M(jìn)eraculous,簡(jiǎn)化和加快了基因組組裝流程,將這個(gè)漫長(zhǎng)的過(guò)程縮短至僅僅幾分鐘。他們主要是通過(guò)“并行化"代碼,利用超級(jí)計(jì)算機(jī)的處理能力,如國(guó)家能源研究科學(xué)計(jì)算中心(NERSC的)愛(ài)迪生系統(tǒng),實(shí)現(xiàn)了這一目標(biāo)。簡(jiǎn)而言之,并行化代碼意味著,分裂工作逐一執(zhí)行,修改或重寫代碼,以在一臺(tái)超級(jí)計(jì)算機(jī)上同時(shí)運(yùn)行許多個(gè)節(jié)點(diǎn)(處理器集群)。
這項(xiàng)研究的*作者、UC Berkeley研究生Evangelos Georganas帶領(lǐng)了并行化Meraculous的工作,他指出:“使用Meraculous的并行版本,我們現(xiàn)在可以使用15,360個(gè)計(jì)算機(jī)處理器核心,在八分鐘內(nèi)組裝整個(gè)人類基因組。有了這個(gè)工具,我們估計(jì),*生物醫(yī)學(xué)測(cè)序機(jī)構(gòu)的輸出,都可以僅僅使用NERSC愛(ài)迪生超級(jí)計(jì)算機(jī)的一部分,而得以組裝。"
CRD的Leonid Oliker計(jì)算機(jī)科學(xué)家說(shuō):“這項(xiàng)工作極大的提高了基因組組裝的速度。新的并行算法,可使裝配計(jì)算能夠進(jìn)行快速。現(xiàn)在,基因組學(xué)研究人員,可以在幾分鐘的時(shí)間內(nèi)組裝小麥和松樹的大基因組,而不是通過(guò)使用NERSC's Edison上的幾百個(gè)節(jié)點(diǎn)——花費(fèi)幾個(gè)月的時(shí)間。"
超級(jí)計(jì)算機(jī):基因組裝配的一次變革
高通量和成本相對(duì)較低的新一代DNA測(cè)序,可讓研究人員尋找所有一切的生物學(xué)解決方案,從產(chǎn)生清潔能源和環(huán)境清理,到識(shí)別基因突變和癌癥之間的。在大多數(shù)情況下,這些機(jī)器可非常準(zhǔn)確的記錄DNA堿基的序列。但有時(shí)會(huì)發(fā)生置換、重復(fù)、替換和遺漏之類的錯(cuò)誤——類似于一本書中的“錯(cuò)別字"。這些錯(cuò)誤使基因組組裝和基因突變的確定,變得更加困難,從而使得分析更加復(fù)雜。它們也可能使研究人員誤解一個(gè)基因的功能。
研究人員經(jīng)常使用一種方法被稱為“槍法測(cè)序"的技術(shù),來(lái)識(shí)別這些錯(cuò)誤。這涉及到,捕獲一個(gè)基因片段的大量拷貝,將它隨機(jī)分成無(wú)數(shù)個(gè)小片段,然后分別對(duì)每一個(gè)片段進(jìn)行測(cè)序。這就產(chǎn)生了一些重疊的短片段,讓科學(xué)家們zui終能夠?qū)⒄麄€(gè)DNA鏈重新裝配起來(lái)。對(duì)同一個(gè)基因鏈進(jìn)行測(cè)序,也有助于識(shí)別錯(cuò)誤。但對(duì)于一個(gè)特別復(fù)雜的基因組來(lái)說(shuō),這個(gè)過(guò)程也會(huì)產(chǎn)生大量的數(shù)據(jù),有時(shí)有幾兆兆字節(jié)。
為了快速而有效地識(shí)別數(shù)據(jù)中的錯(cuò)誤,伯克利實(shí)驗(yàn)室和UC Berkeley團(tuán)隊(duì)依靠“Bloom filters"和大規(guī)模并行超級(jí)計(jì)算機(jī)。在1970年Bloom filters由Burton H. Bloom提出的二進(jìn)制向量數(shù)據(jù)結(jié)構(gòu),可非常有效地確定,一個(gè)元素是不是集合中的一個(gè)成員。因此,研究人員可以依靠這個(gè)工具來(lái)確定一個(gè)堿基是否在適當(dāng)?shù)奈恢蒙?。因?yàn)槲粩?shù)組包含了一個(gè)Bloom filter的基本結(jié)構(gòu),它們也需要相對(duì)較少的內(nèi)存,從而使它們成為查詢大規(guī)模數(shù)據(jù)集的理想選擇。
CRD研究科學(xué)家Aydin Bulu?說(shuō):“將Bloom filters應(yīng)用于基因組組裝問(wèn)題并不新穎,在以前就完成過(guò)。我們這項(xiàng)工作的不同之處在于,讓Bloom filters和分布式存儲(chǔ)系統(tǒng)共同工作。這項(xiàng)任務(wù)非同小可,它需要一些計(jì)算機(jī)專業(yè)知識(shí)才能完成。"
該團(tuán)隊(duì)還開發(fā)了并行數(shù)據(jù)輸入輸出(I/O)的解決方案。開發(fā)這一解決方案的CRD研究科學(xué)家Steven Hofmeyr說(shuō):“當(dāng)你有幾兆兆字節(jié)的數(shù)據(jù)時(shí),只是讓計(jì)算機(jī)讀取你的數(shù)據(jù)并輸出結(jié)果,可能是一個(gè)巨大的瓶頸。通過(guò)讓計(jì)算機(jī)在多個(gè)線程中下載數(shù)據(jù),我們能夠?qū)/O進(jìn)程從幾小時(shí)加快到幾分鐘。"
點(diǎn)擊了解博奧生物基因組與轉(zhuǎn)錄組平臺(tái)
組裝
一旦錯(cuò)誤已被剔除,研究人員就可以開始基因組組裝。這個(gè)過(guò)程依賴計(jì)算機(jī)程序在重疊區(qū)域加入k-mers——由固定數(shù)量(K)的堿基組成的短DNA序列,從而它們形成一個(gè)連續(xù)的序列,或重疊群(contig)。如果基因組之前已經(jīng)被測(cè)序,科學(xué)家可以使用記錄的基因注釋作為參考,來(lái)排列讀數(shù)。如果不是,他們需要進(jìn)行從頭組裝,創(chuàng)造一個(gè)全新的contigs目錄。
從頭組裝十分的內(nèi)存密集型,直到zui近,還沒(méi)有人能成功地弄清如何在分布式內(nèi)存中并行化這個(gè)過(guò)程。所以,許多研究人員使用專門的大容量存儲(chǔ)器節(jié)點(diǎn),有幾兆兆字節(jié)的大小,來(lái)進(jìn)行這項(xiàng)工作。但是,即使市售的zui大的存儲(chǔ)節(jié)點(diǎn),也不足以組裝像小麥或松樹這樣的大規(guī)?;蚪M。盡管以前研究人員試圖用超級(jí)計(jì)算機(jī)克服這種內(nèi)存限制,但低效的代碼意味著,仍然需要幾個(gè)小時(shí)、幾天甚至幾個(gè)月來(lái)組裝一個(gè)單一的基因組。
為了有效利用大規(guī)模并行系統(tǒng),Georganas創(chuàng)造了一種新的從頭組裝算法,利用UPC (Unified Parallel C)編程語(yǔ)言的單邊通信和分區(qū)全局定址空間(PGAS)能力。基本上,PGAS可讓研究人員處理每個(gè)超級(jí)節(jié)點(diǎn)上獨(dú)立的內(nèi)存,這會(huì)減少超級(jí)計(jì)算機(jī)交換節(jié)點(diǎn)之間信息的時(shí)間和精力。
Georganas說(shuō):“Meraculous新的并行版本,呈現(xiàn)出的性能,可在NERSC's Edison超級(jí)計(jì)算機(jī)上按比例放大人類和小麥基因組的15,360個(gè)處理器核心。這一性能的改善,將基因組組裝從幾天時(shí)間提速到了幾秒鐘。"
就像玩拼圖一樣,“缺失的拼圖"可能使基因組組裝更復(fù)雜。這就像有足夠的拼圖拼湊在一起,以使你能對(duì)整幅圖有一個(gè)概念,所有的拼圖都應(yīng)該在適當(dāng)?shù)奈恢?,但是在拼圖中仍有空隙。在基因組組裝中,Meraculous可掃描整個(gè)畫面找出這些空隙,然后用一種既定的技術(shù)來(lái)填補(bǔ)它們。從計(jì)算角度來(lái)說(shuō),這個(gè)過(guò)程是在兩個(gè)階段完成的。在Hofmeyr的幫助下,這兩個(gè)階段都被轉(zhuǎn)換為UPC和并行化。
Hofmeyr說(shuō):“將這部分轉(zhuǎn)換成UPC的結(jié)果是,比zui初Meraculous代碼加快了20到30倍,這是用Perl編寫的。"
開發(fā)Meraculous的Jarrod Chapman說(shuō):“強(qiáng)大的基因組組裝,其價(jià)值是十分明確的。這是表征一個(gè)生物體基因的出發(fā)點(diǎn),可用于進(jìn)行跨物種的比較分析和遺傳變異評(píng)估。這也給我們一個(gè)參考,來(lái)判斷新序列方法的準(zhǔn)確性。"
“在這個(gè)Meraculous版本之前,往往需要較長(zhǎng)的時(shí)間來(lái)計(jì)算分析序列數(shù)據(jù)。因?yàn)橛?jì)算太耗時(shí),我會(huì)基于一些有根據(jù)的推測(cè)選擇一套參數(shù),設(shè)置我的工作。"
現(xiàn)在,計(jì)算不再是一個(gè)瓶頸,Chapman可以嘗試一些不同的參數(shù),并運(yùn)行多個(gè)分析,產(chǎn)生非常準(zhǔn)確的結(jié)果。他還認(rèn)為,這一成就意味著,Meraculous也可以用來(lái)分析宏基因組——直接從環(huán)境樣品中恢復(fù)的微生物群落。這項(xiàng)工作是很重要的,因?yàn)樵S多微生物只存在于自然中,不能在實(shí)驗(yàn)室中生長(zhǎng)。這些生物可能是尋找新藥物或可用能源來(lái)源的關(guān)鍵。
Chapman說(shuō):“分析宏基因組是一個(gè)巨大的任務(wù)。如果組裝一個(gè)基因組——如小麥,就像是拼湊一個(gè)新的拼圖,那么組裝宏基因組數(shù)據(jù)就像是重建國(guó)會(huì)圖書館。使用Meraculous有效地進(jìn)行這些分析,將是一次變革。"