机器学习发现自闭症中“非编码突变”的秘密
一项最新研究表明,在自闭症当中,基因之间发生的自发突变拥有与固有基因相等的重要作用。
这项研究被发表在5月27日的《自然——遗传学》当中,这也是全球第一项研究这些“非编码”突变对自闭症患者全基因组影响的研究。
过去三年当中,众多团队都在对自闭症患者DNA的基因内部以及不同基因之间关系进行测序。然而,对基因之间数十万种突变进行分类则几乎是一项不可能完成的任务,特别是考虑到研究人员对这些基因片段本身就知之甚少。
此次新研究通过利用机器学习方法克服了这一挑战。研究人员创建了一种算法,能够预测特定的非编码突变是否会产生某种基因表达。其根据每次突变的可能性为每个突变分配一个评分,用以表示其有害性程度。
论文联合作者、新泽西州普林斯顿大学综合基因组学教授Olga Troyanskaya表示,“其中采取的独特方法在于,我们不仅仅是在计算突变,同时也利用基于深度学习的框架研究突变的影响。事实证明,基因突变也有重要与不重要之分,而且引发的效果也不尽相同。”
专家们表示,这项研究的优势在于其能够观察整个基因组中的自发性突变。
并未参与此项研究的芝加哥大学遗传学助理教授Xin He表示,此前对非编码突变的分析工作主要集中在特定区域,且通常是那些与基因最好为接近的区域。
他指出,“在本次研究中,面向的则是全基因组,我们可以看到一个明确的区别性信号。这也代表着一种令人印象深刻的结果。”
约束性条件:
Troyanskaya的团队和她的同事们分析了来自1790个家庭的7097个全基因组,这些家庭都有一个孩子患有自闭症,但同时父母以及至少一个兄弟姐妹则未罹患自闭症。他们在自闭症儿童当中发现了成千上万种自发性突变,但这些突变基本也出现在了未患自闭症的兄弟姐妹当中。他们创建的算法预测了突变破坏控制基因表达的基因组区域的可能性。
在此之后,该研究小组搜索了人类基因突变数据库,检查是否存在任何与医学状况有关的突变,或者其是否同样出现在对照组当中。他们汇总全部相关信息,以便为每一种突变生成影响评分。
研究人员发现,自闭症儿童的非编码突变平均影响评分确实高于未患疾病的兄弟姐妹。
总体而言,此项分析表明,这种突变导致4.3%的患儿罹患自闭症;相比之下,基因之内的有害突变则占比5.4%。
该小组还评估了突变对于信使RNA(mRNA)的影响。集合RNA属于基因与蛋白质之间的中介。他们发现,在自闭症儿童当中,破坏mRNA的突变比影响DNA的突变具有更大的实际影响。
并未参与此项研究的华盛顿州立大学斯波坎生物医学院医学科学助理教授Lucia Peixoto表示,“这是一项值得跟进的有趣事实。我认为很多研究人员并未把RNA处理视为自闭症的一大重要因素。”
研究人员发现,最接近自闭症儿童高影响非编码突变的基因往往具有直接影响脑组织的表达。
并未参与此项研究的英国牛津生物科学企业Genomics公司首席科学官Jeffrey Barrett表示,“很高兴看到有诸多证据支持这一观点,即通过影响正在发育的大脑当中的非编码调控元素,确实有望解决自闭症以及其它神经发育障碍类疾病。”
邻近基因也倾向于参与自闭症中的病变过程,例如神经元信号传导或基因调控。这一途径与编码基因突变造成的破坏完全相同。
该小组还评估了高影响突变对培养细胞中基因表达的影响。他们发现,在大多数情况下,突变似乎都改变了基因的实际表达。
这一名为DeepSEA的算法目前已可在线获取。Troyanskaya及其同事正在将他们发现的方法应用于患有其他疾病的个体全基因组研究,包括先天性心脏病。