新机器学习算法有助药物开发提速
英国剑桥大学研究人员设计出一种新的机器学习算法来寻找药物,其效率已被证明是目前行业标准的两倍,有助新药开发提速。研究成果发表在近期出版的美国《国家科学院院刊》上。
药物发现的关键点是预测分子是否会激活一个特定的生理过程。可以通过搜索激活生理过程的分子之间共享的化学模式来建立统计模型,但是目前构建这些模型的数据十分有限,因为实验成本高且不清楚哪些化学模式具有统计学意义。“机器学习在数据量丰富的计算机视觉等领域已经取得了重大进展。”项目主要负责人、剑桥大学卡文迪许实验室的阿法·李博士说,将其运用到药物发现领域,就是为了解决数据量相对有限的问题。
被称为随机矩阵理论的数学原理,给出了关于随机和噪声数据集统计特性的假定,用这一原理可以将活性和非活性分子化学特征的统计数据进行比较,以确定哪些化学模式对于结合而言是真正重要的,哪些只是偶然的。
根据这一设想,研究团队与辉瑞制药公司合作开发出一种算法,即利用数学运算,将与药理学相关的化学模式从不相关的化学模式中分离开来。重要的是,该算法不仅研究已知具有活性的分子,而且也不放过那些无活性的分子,并且学会识别分子的哪些部分对于药物作用是重要的,而哪些部分是不重要的,使得那些失败的实验(数据)也可以得到有效的利用。
研究人员用222个活性分子开始建模,已能够从计算角度对其他600万个分子进行筛选。由此,研究人员从中筛选出100种最相关的分子,再从这些分子中找到了4种可以激活可能与阿尔茨海默病和精神分裂症有关的CHRM1受体的新分子。
“从600万个分子中筛选出4种活性分子,就像在大海捞针一样,”李博士说,“详细比较显示,新算法效率是行业标准的两倍。”目前研究人员正在完善该算法,预测合成复杂有机分子的方法,以及将机器学习方法扩展到新材料设计领域。