摘要:隨著高通量測序技術(shù)的快速發(fā)展和測序成本的逐漸降低,個(gè)體基因組測序已成為研究不同物種的基因型、變異情況和相關(guān)疾病的重要手段。然而,由于基因組上的大量重復(fù)序列和高變異區(qū)域,日益增大的測序數(shù)據(jù)量以及測序技術(shù)的局限等因素,如何準(zhǔn)確且快速地將大量測序數(shù)據(jù)比對到參考基因組面臨巨大挑戰(zhàn)。闡述基于哈希思想的基因組數(shù)據(jù)的存儲(chǔ)和索引方法。本文說明基于seed-and-extension思想的基本比對思路。本文提出一個(gè)基于de Bruijn圖模型的索引結(jié)構(gòu)DBG-index以及該索引的3層結(jié)構(gòu)數(shù)據(jù)存儲(chǔ)方式。分析該索引結(jié)構(gòu)的特性并提出種子的基本操作方法。該索引結(jié)構(gòu)利用圖模型特性可以有效組織基因組上的重復(fù)序列,從而在整體上減少了候選種子數(shù)量并極大提高了比對速度。
注:因版權(quán)方要求,不能公開全文,如需全文,請咨詢雜志社。
智能計(jì)算機(jī)與應(yīng)用雜志, 月刊,本刊重視學(xué)術(shù)導(dǎo)向,堅(jiān)持科學(xué)性、學(xué)術(shù)性、先進(jìn)性、創(chuàng)新性,刊載內(nèi)容涉及的欄目:學(xué)術(shù)研究與應(yīng)用、系統(tǒng)開發(fā)與應(yīng)用、專題設(shè)計(jì)與應(yīng)用、科技創(chuàng)見與應(yīng)用等。于2011年經(jīng)新聞總署批準(zhǔn)的正規(guī)刊物。