疫情下的IT本色:一切为了你的生命健康
作者:刘沙 | 来源:计算机世界
2020-04-10
晶泰科技之所以能在不到一个月的时间内完成大量高精度的药物模拟计算,就是因为依托了基于领先的量子物理药物模拟算法与人工智能算法的药物发现平台和云平台的高性能计算资源。
“谁家还没个病人,你能保证一辈子不生病吗?”
这是2018年最火爆的电影《我不是药神》里的台词,放在今天来看,依然能直击每个人内心的痛处。尤其是对于生活在新冠肺炎疫情阴影下的我们来说。
如今,我们都不得不面对一个残酷的事实:人类已经研发出来的药物,与现存疾病的数量相比,只是九牛一毛,许多疾病一直都无药可治。而新的疾病、病毒却层出不穷,比如 2020年初暴发的新型冠状病毒。
就在3月11日,世界卫生组织(WHO)宣布,新冠肺炎疫情具有“全球大流行”的特征。此后仅一个月的时间,疫情已影响到全球200多个国家和地区。根据美国约翰斯·霍普金斯大学发布的统计数据显示,截至北京时间4月10日06时30分,全球新冠肺炎确诊病例已经超过158万例。
所有人都想知道,到底什么时候才能有可以治疗新冠肺炎的药物?
而世界卫生组织总干事谭德塞在3月27日已明确表示,新冠肺炎疫苗研制至少还需要12至18个月。
那么,如何才能提升新药研发的效率呢?
为治疗新冠肺炎提升效率
其实,早就有这样一群人,他们希望通过提高药物研发关键环节的效率与成功率、降低研发成本,为患者带来更多优质的药物,并且专门成立了一家公司,一直为此而努力,这家公司就是晶泰科技。
这是一家以计算驱动创新的药物研发科技公司,基于前沿计算物理、量子化学、人工智能与云计算技术,为全球创新药企提供智能化药物研发服务。2014年,晶泰科技创立于麻省理工学院校园,其核心团队来自学术界、IT互联网界和医药产业界的优秀人才。目前,公司总部位于深圳,在北京、波士顿、上海均设有分部。自成立以来,晶泰科技已经成功为来自美国、欧洲、中国、日本的40余家先锋药企提供了药物研发服务。
针对此次的新型冠状病毒,晶泰科技在1月20日就成立了研究小组,基于 NCBI 披露的病毒序列开始建立病毒蛋白结构模拟及同源建模工作,对病毒感染宿主机理提供分子层面的研究,为病毒预警和防治、药物开发提供底层基础研究和数据开源支持。
根据关键蛋白的三维结构模型,晶泰科技对全球已上市的药物小分子及重要分子进行“老药新用”的筛选,找到183个对病毒有潜在治疗效果的药物,并给出活性排序。之后,又经过更加高精度的计算方法,把药物范围缩减到38个。
2月18日,晶泰科技与广东众生药业联合发布了针对氯喹治疗新型冠状病毒作用机理的重要研究进展,并开展体外实验验证。
现在,晶泰科技已经把研究结果都分享到网上,提供给同行免费下载和使用。
据介绍,晶泰科技采取“老药新用”的筛选方式,主要是因为新药研发的过程非常漫长。熟悉医药行业的人都知道,新药研发通常具有两大特点:一是周期特别长;二是体系非常复杂。一个药物的发现,首先需要在生物学上确定可能产生疾病的原因,然后去各种可能的分子中寻找合适的药物,最后还要在医学上做临床测试。平均下来,可能要花费超过10年时间,总体投入超过10亿美元,但是成功率可能还不到10%。所以,最直接找到可用药物的路径就是老药新用。
而晶泰科技之所以能在不到一个月的时间内完成大量高精度的药物模拟计算,就是因为依托了基于领先的量子物理药物模拟算法与人工智能算法的药物发现平台和云平台的高性能计算资源。
为提升效率而上云
由于药物晶型事关药物的稳定性、安全性和专利保护等关键环节,晶泰科技在创业时的切入点就是进行药物晶型的研究和预测。快速、高精度的晶型预测技术可以在2~3周内预测出潜在的药物晶型,不过,快速、高精度的晶型预测服务还需要有前沿的算法和庞大的计算资源支持。
据晶泰科技CTO刘阳透露,晶泰科技的“药物晶型预测平台”最初是在超算中心进行开发和测试的,但是使用了一两周时间后,发现效果并不太理想:超算中心计算资源的管理模式和排队机制不太适合为药企客户提供灵活稳定的计算服务。
而晶泰科技的药物晶型预测算法有很高的并行度,计算一般是按需和突发的,不需要一直维持大量的计算节点。而且有些测试任务需要在几天内得到结果,需要同时调用数千个计算核心。刘阳表示:“对于创业公司来说,不可能购置这么大型的集群。在无法随时申请到大量超算资源的情况下,只有云计算可以满足我们对资源和成本的要求。”
考虑到高弹性的业务特点和成本优势,晶泰科技采用了多云的架构。为了满足需求,晶泰科技选择在Amazon Web Services (AWS)云上构建晶体结构预测平台ID4,以便能够预测分子的重要药物属性。基于AWS的高性能计算(HPC)基础设施,晶泰科技还使用了Amazon Elastic Compute Cloud (Amazon EC2) C4和C5实例,同时还利用Amazon EC2 Spot Instance竞价型实例,与按需实例相比,Spot 实例最高可提供 90% 的价格折扣。
刘阳告诉计算机世界全媒体平台记者,晶泰科技希望这个架构能让计算能力处于最灵活的状态,所以一开始就采用了多云的模式,但AWS是目前使用量最大的。因为:
第一,晶泰科技和客户对于AWS都非常信任,由于晶泰科技的服务是药物研发中非常重要的环节,客户对数据安全非常重视,有很高的安全要求,而AWS 云平台能提供丰富的服务来保证数据的安全性,如CloudTrail、GuardDuty等安全产品,所以晶泰科技会把海外客户的计算数据保存在AWS上。刘阳补充到:“我们还参考了AWS最佳实践的多租户模型,将客户的数据从VPC级或者是从Amazon S3的实例级进行隔离,从根本上预防了数据混乱或者泄露的风险。”
第二,考虑到对算力的支撑,有时晶泰科技需要在十分钟内开启数十万的CPU集群来进行计算,而AWS有着全球最大的计算资源能力,而且其Spot实例产品也非常符合晶泰科技对计算的需求。刘阳告诉记者:“其实在2015年我们上云的时候,全球还没有第二个可用的Spot实例这类产品,只有AWS才有。”
第三,晶泰科技的客户多处于海外,而AWS的云服务在全球范围内是分布最广的。
如今,使用AWS云平台,不仅满足了晶泰科技上述需求,还带来了灵活的扩展性,节省了大量成本。
刘阳表示,根据公司内部的预估,如果自己投入硬件,和用AWS对比,AWS至少能降低一倍以上成本。
为精准数据在云上建“湖”
除了使用云服务,晶泰科技还在AWS上创建了数据湖,用于分析预测的数据,将测试数据存储在Amazon S3中,并使用Amazon RDS作为主要数据库。
据了解,晶泰科技从2015年12月就开始进行较大规模的测试,在测试的过程中发现之前使用的MongoDB的GridFS成为瓶颈,主要体现在吞吐量和无法动态扩容两方面。于是晶泰科技采用了Amazon S3存储计算中间数据,很快解决了这两个问题。
刘阳表示,对于晶泰科技来说,算力是最大的需求,这几年公司积累的数据已经达到PB级规模。而晶泰科技的数据库主要是围绕数据分析计算的场景,所以采用数据湖的模式更为适合。
现在晶泰科技主要的数据治理方式就是围绕S3+RDS这样混合的数据库来做各种各样的分析计算。如做晶型预测时,一款药通常要做上亿级别的晶体空间搜索,每一个晶体都被保存在数据库中,需要随时读取并进行后续的分析聚合等计算。比如,有一个晶体的聚类算法,需要成对比较晶体结构间的相似度,对于上亿的结构来说,这意味着需要做1亿乘1亿次的结构分析计算,所以就需要大规模的数据库的频繁分析、交互,挑战很大。“所以我们主要是组合Amazon S3、Amazon RDS,然后在一些场景上也用了Amazon Redshift等产品。”刘阳补充到。
此外,利用数据湖,晶泰科技还通过在完全托管的机器学习服务Amazon SageMaker上的迭代训练,建立了一个可连续的反馈来修改算法模型。刘阳表示:“由于模型需要反复迭代,SageMaker让晶泰科技的科学家可以快速尝试训练,非常方便。”
晶泰科技首席科学家张佩宇博士补充到,使用人工智能的好处就是可以迅速产生百万量级、甚至千万量级的化学分子或晶型结构,通过量子力学可以把药物与人体内各种各样生物分子之间的相互作用研究清楚,从而提高药物研发的效率,缩短药物研发的时间,打破研发过程中的流程限制,提高成功率,降低成本。
可以预见,在未来,这种智能化的研究方法将会成为一种趋势,它将帮助我们提高应对突发性的公共健康危机的响应速度,更好的保护我们的生命健康。
这是2018年最火爆的电影《我不是药神》里的台词,放在今天来看,依然能直击每个人内心的痛处。尤其是对于生活在新冠肺炎疫情阴影下的我们来说。
如今,我们都不得不面对一个残酷的事实:人类已经研发出来的药物,与现存疾病的数量相比,只是九牛一毛,许多疾病一直都无药可治。而新的疾病、病毒却层出不穷,比如 2020年初暴发的新型冠状病毒。

新型冠状病毒
就在3月11日,世界卫生组织(WHO)宣布,新冠肺炎疫情具有“全球大流行”的特征。此后仅一个月的时间,疫情已影响到全球200多个国家和地区。根据美国约翰斯·霍普金斯大学发布的统计数据显示,截至北京时间4月10日06时30分,全球新冠肺炎确诊病例已经超过158万例。
所有人都想知道,到底什么时候才能有可以治疗新冠肺炎的药物?
而世界卫生组织总干事谭德塞在3月27日已明确表示,新冠肺炎疫苗研制至少还需要12至18个月。
那么,如何才能提升新药研发的效率呢?
为治疗新冠肺炎提升效率
其实,早就有这样一群人,他们希望通过提高药物研发关键环节的效率与成功率、降低研发成本,为患者带来更多优质的药物,并且专门成立了一家公司,一直为此而努力,这家公司就是晶泰科技。
这是一家以计算驱动创新的药物研发科技公司,基于前沿计算物理、量子化学、人工智能与云计算技术,为全球创新药企提供智能化药物研发服务。2014年,晶泰科技创立于麻省理工学院校园,其核心团队来自学术界、IT互联网界和医药产业界的优秀人才。目前,公司总部位于深圳,在北京、波士顿、上海均设有分部。自成立以来,晶泰科技已经成功为来自美国、欧洲、中国、日本的40余家先锋药企提供了药物研发服务。
针对此次的新型冠状病毒,晶泰科技在1月20日就成立了研究小组,基于 NCBI 披露的病毒序列开始建立病毒蛋白结构模拟及同源建模工作,对病毒感染宿主机理提供分子层面的研究,为病毒预警和防治、药物开发提供底层基础研究和数据开源支持。

新冠病毒S蛋白与人类受体的结合模型
根据关键蛋白的三维结构模型,晶泰科技对全球已上市的药物小分子及重要分子进行“老药新用”的筛选,找到183个对病毒有潜在治疗效果的药物,并给出活性排序。之后,又经过更加高精度的计算方法,把药物范围缩减到38个。
2月18日,晶泰科技与广东众生药业联合发布了针对氯喹治疗新型冠状病毒作用机理的重要研究进展,并开展体外实验验证。
现在,晶泰科技已经把研究结果都分享到网上,提供给同行免费下载和使用。
据介绍,晶泰科技采取“老药新用”的筛选方式,主要是因为新药研发的过程非常漫长。熟悉医药行业的人都知道,新药研发通常具有两大特点:一是周期特别长;二是体系非常复杂。一个药物的发现,首先需要在生物学上确定可能产生疾病的原因,然后去各种可能的分子中寻找合适的药物,最后还要在医学上做临床测试。平均下来,可能要花费超过10年时间,总体投入超过10亿美元,但是成功率可能还不到10%。所以,最直接找到可用药物的路径就是老药新用。
而晶泰科技之所以能在不到一个月的时间内完成大量高精度的药物模拟计算,就是因为依托了基于领先的量子物理药物模拟算法与人工智能算法的药物发现平台和云平台的高性能计算资源。
为提升效率而上云
由于药物晶型事关药物的稳定性、安全性和专利保护等关键环节,晶泰科技在创业时的切入点就是进行药物晶型的研究和预测。快速、高精度的晶型预测技术可以在2~3周内预测出潜在的药物晶型,不过,快速、高精度的晶型预测服务还需要有前沿的算法和庞大的计算资源支持。
据晶泰科技CTO刘阳透露,晶泰科技的“药物晶型预测平台”最初是在超算中心进行开发和测试的,但是使用了一两周时间后,发现效果并不太理想:超算中心计算资源的管理模式和排队机制不太适合为药企客户提供灵活稳定的计算服务。

晶泰科技CTO刘阳
而晶泰科技的药物晶型预测算法有很高的并行度,计算一般是按需和突发的,不需要一直维持大量的计算节点。而且有些测试任务需要在几天内得到结果,需要同时调用数千个计算核心。刘阳表示:“对于创业公司来说,不可能购置这么大型的集群。在无法随时申请到大量超算资源的情况下,只有云计算可以满足我们对资源和成本的要求。”
考虑到高弹性的业务特点和成本优势,晶泰科技采用了多云的架构。为了满足需求,晶泰科技选择在Amazon Web Services (AWS)云上构建晶体结构预测平台ID4,以便能够预测分子的重要药物属性。基于AWS的高性能计算(HPC)基础设施,晶泰科技还使用了Amazon Elastic Compute Cloud (Amazon EC2) C4和C5实例,同时还利用Amazon EC2 Spot Instance竞价型实例,与按需实例相比,Spot 实例最高可提供 90% 的价格折扣。
刘阳告诉计算机世界全媒体平台记者,晶泰科技希望这个架构能让计算能力处于最灵活的状态,所以一开始就采用了多云的模式,但AWS是目前使用量最大的。因为:
第一,晶泰科技和客户对于AWS都非常信任,由于晶泰科技的服务是药物研发中非常重要的环节,客户对数据安全非常重视,有很高的安全要求,而AWS 云平台能提供丰富的服务来保证数据的安全性,如CloudTrail、GuardDuty等安全产品,所以晶泰科技会把海外客户的计算数据保存在AWS上。刘阳补充到:“我们还参考了AWS最佳实践的多租户模型,将客户的数据从VPC级或者是从Amazon S3的实例级进行隔离,从根本上预防了数据混乱或者泄露的风险。”
第二,考虑到对算力的支撑,有时晶泰科技需要在十分钟内开启数十万的CPU集群来进行计算,而AWS有着全球最大的计算资源能力,而且其Spot实例产品也非常符合晶泰科技对计算的需求。刘阳告诉记者:“其实在2015年我们上云的时候,全球还没有第二个可用的Spot实例这类产品,只有AWS才有。”
第三,晶泰科技的客户多处于海外,而AWS的云服务在全球范围内是分布最广的。
如今,使用AWS云平台,不仅满足了晶泰科技上述需求,还带来了灵活的扩展性,节省了大量成本。
刘阳表示,根据公司内部的预估,如果自己投入硬件,和用AWS对比,AWS至少能降低一倍以上成本。
为精准数据在云上建“湖”
除了使用云服务,晶泰科技还在AWS上创建了数据湖,用于分析预测的数据,将测试数据存储在Amazon S3中,并使用Amazon RDS作为主要数据库。
据了解,晶泰科技从2015年12月就开始进行较大规模的测试,在测试的过程中发现之前使用的MongoDB的GridFS成为瓶颈,主要体现在吞吐量和无法动态扩容两方面。于是晶泰科技采用了Amazon S3存储计算中间数据,很快解决了这两个问题。
刘阳表示,对于晶泰科技来说,算力是最大的需求,这几年公司积累的数据已经达到PB级规模。而晶泰科技的数据库主要是围绕数据分析计算的场景,所以采用数据湖的模式更为适合。
现在晶泰科技主要的数据治理方式就是围绕S3+RDS这样混合的数据库来做各种各样的分析计算。如做晶型预测时,一款药通常要做上亿级别的晶体空间搜索,每一个晶体都被保存在数据库中,需要随时读取并进行后续的分析聚合等计算。比如,有一个晶体的聚类算法,需要成对比较晶体结构间的相似度,对于上亿的结构来说,这意味着需要做1亿乘1亿次的结构分析计算,所以就需要大规模的数据库的频繁分析、交互,挑战很大。“所以我们主要是组合Amazon S3、Amazon RDS,然后在一些场景上也用了Amazon Redshift等产品。”刘阳补充到。
此外,利用数据湖,晶泰科技还通过在完全托管的机器学习服务Amazon SageMaker上的迭代训练,建立了一个可连续的反馈来修改算法模型。刘阳表示:“由于模型需要反复迭代,SageMaker让晶泰科技的科学家可以快速尝试训练,非常方便。”
晶泰科技首席科学家张佩宇博士补充到,使用人工智能的好处就是可以迅速产生百万量级、甚至千万量级的化学分子或晶型结构,通过量子力学可以把药物与人体内各种各样生物分子之间的相互作用研究清楚,从而提高药物研发的效率,缩短药物研发的时间,打破研发过程中的流程限制,提高成功率,降低成本。

晶泰科技首席科学家张佩宇博士
可以预见,在未来,这种智能化的研究方法将会成为一种趋势,它将帮助我们提高应对突发性的公共健康危机的响应速度,更好的保护我们的生命健康。
责任编辑:刘沙





