基因测序“黑科技” 给生命来个完整的“数字化解读”

2019-06-28 中国科技网

  “测序技术抓住了生命科学技术的龙头,基因组测序成本从最初的3000万美元下降到1000美元甚至更低,使得每个人都可能为自己进行基因组测序,这将加速生命数字化的进程。”2019年6月21日,2019测序技术和应用高峰论坛上,中国科学院院士杨焕明表示,在高通量测序技术自主化的基础上,不断有新的“黑科技”跟进,这使得人们将获得更加准确的基因序列,作为生命数字化的“蓝本”。

  吐口唾液就能测序,但基因组序列不完整 

  吐口唾液邮寄,一个人的基因组序列就会得到分析。

  “目前从全世界范围来讲,大概有接近2000万人有自己的基因信息。”华大智造首席运营官蒋慧表示,随着这些年测序技术的普及,测序的门槛越来越低,人们越来越容易对自己的基因进行部分测序。

  但并不是所有的测序都是获得完整的基因组序列。蒋慧介绍,大部分此类的测序是对特定区域的测序,而并不是整个基因组序列的测序。

  如果将一个人的基因组比喻成一座奇峰险峻的高山,可以理解为,有些测序只是拍摄了“一线天”“巨石阵”“黑龙潭”这些有代表性的景点;更完整地是,有些测序是把所有的景点拍下来,被称为“功能基因集”;而完整的基因组测序才是把高山全部拍下来,包括像荒草一样丛生的“沙漠基因”或者“无功能基因”等。

  无疑,要实现生命数字化,需要的是把高山全部拍下来的完整的基因组测序。

  但目前的测序,即便是基因组测序,仍旧不能满足生命数字化的需要。“目前无论是数据库构建,还是群体研究、疾病研究,都是采用重测序的方式,是通过与参考基因组的比对获得的,而不是从头组装。”蒋慧说,比如在炎黄基因组研究项目中,科学家找到了大概有4—5兆的区域是个体所特有的,进行测序时就对个体区域比对,形成测序数据,这是受测序效率制约的。

  可以理解为,每一座高山的形状、代表性景点都相似,就先找了最具代表性的山做个详细的“数字化解读”,描述其他山的时候,就用差异来体现。

  “或许每个人拥有属于自己的特点序列,但目前的测序方式难以发现这些独特部分。”蒋慧说,与参考基因组比较获得的基因组测序“密码”不会对这些未知谜题给出答案。

  从头组装,完成整个基因链条的拼接 

  数字化生命实际上需要一个高清、完整的基因组作为“蓝本”。这意味着需要高质量地从头组装基因组。

  “目前最大的难点是获得尽可能长的序列进行组装。”蒋慧说。如果单次测序读长变长,那么获得从头组装基因组的难度就会降低。

  人类基因组长度为30亿个碱基对,而现在单次测序的读长仅为50—70kb(5万到7万个碱基对的长度),这犹如拼一副45000块拼图,其中却有很多重复相似的“小块”,很难拼接完整。不仅需要以参考基因组做对比,还要反复测序。“目前的行业标准是需要30倍的重复测序,以完成整个基因链条的拼接。”蒋慧说。

  如果将短片段加上标签就不一样了。玩过拼图的人都知道,在成千块的拼图背面会有不同的区块标记,提示这些块在同一区域。

  “以专有DNA分子共标签技术为基础的stLFR(单管长片段)技术就是基于这样的原理。”蒋慧说,华大智造的这一自主技术通过将来源于同一DNA长片段的短读长测序片段标记上相同分子标签,能够基于高精度短读长测序获取长片段的DNA信息。

  读长是为了确定他山之石的位置,如果标签可以解决定位问题,将弥补短读长的弱点。基于此,从头组装两条染色体,获取二倍体测序数据也成为可能。

  与此同时,华大智造将执行能得到从头测序基因组的“676”标准。基于这些数据,可以检测所有类型的结构变异,且无需与参考基因组进行比对,将大大提高基因组数据的参考性,最终帮助个体进行复杂疾病的诊断和预测。

  蒋慧介绍:“我们首先会用新的技术、新的标准在全球完成1000个人的基因组测序,希望可以建出来一个模板让大家先试用一下,以在不同人群中创建高质量的参考基因组和更为完整的人类基因组多样性数据库,构建一个全新的数据集。这些数据将免费向研究人员开放。”

 

  作者:冯卫东  

  来源:中国科技网 2019年6月25日    

  http://www.stdaily.com/index/kejixinwen/2019-06/25/content_773784.shtml

  版权声明:除非特别注明,本站所载内容来源于互联网、微信公众号等公开渠道,不代表本站观点,仅供参考、交流之目的。转载的稿件版权归原作者或机构所有,如有侵权,请联系删除。   

  电话:(010)63581767    

  邮箱:zhiku@scimall.org.cn