2020年底,DeepMind旗下人工智能(AI)系统AlphaFold在蛋白质分子结构预测领域取得了史无前例的进步。这不仅有力推动了生命科学领域的发展,也愈发印证了具备掌握 “暗知识” 能力的AI能够助力人们直接跳过在 “未知” 暗箱中摸索的过程,而直接抵达 “新知” 的彼岸。
因此,也就不难理解近年来日渐成熟且炙手可热的人工智能辅助药物发现 (以下称AIDD: AI Drug Design) 为何在短短数年间就从萌芽发展到几乎参与从药物靶点发现到临床试验等药物研发的全流程。尤其面对新药研发中的靶点筛选、化合物发现等存在人类认知盲区的环节,AIDD正在显著降低对专家知识和海量数据的苛求,并有望改变新药研发 “九死一生” 的困局。
除了AI技术自身进步之外,AIDD的快速普及也离不开“生逢其时”——成熟的云计算技术也恰到其处为AIDD提供必需的数字化基础设施和能力,让药企得以迅速突破存储、算力、机器学习模型等数字化瓶颈,使AIDD得以成为高效的常态化工具。例如,在新冠疫苗研发中,莫德纳(Moderna)通过在亚马逊云科技平台构建的机器学习能力,2 天内就完成了 mRNA COVID-19 疫苗的序列,25天就发布了第一个临床批次。由此预示着药物研发正全面步入 “AI时代” 。
AIDD带来药物研发大提速
新药研发一直是人类科研领域中极具风险和复杂度、且耗时最漫长的技术研究领域之一。根据《自然》(Nature)杂志的数据显示,一款新药的整体成本大约是26亿美元,耗时约10年,成功率却不到十分之一。
自20世纪90年代中期,计算机辅助药物研发(CADD: Computer Aided Drug Design)开始被使用并逐渐成为药企的主流数字化辅助技术。但CADD的能力局限于对已有的知识和数据的筛选与优化,其作用更多是对人力的 “替代” 而非 “突破” ,因此无法触达人类尚未涉足的认知盲区。
相较之下,AIDD能够充分探索未知的分子结构空间,生成现有经验与数据之外的全新分子化合物结构,给药物研发带来了真正的颠覆性变革。通过将AI所拥有的机器学习、深度学习、图像识别、认知计算等能力嵌入药物研发各环节,可预测识别更为准确的疾病靶点,并基于湿实验及CADD模拟数据进行新药分子设计、化合物活性评价、毒性评价等研发过程,大幅降低了对数据量和专家知识的依赖。
AIDD最直观的价值还在于显著减少传统药物研发的高昂资金和时间成本,给研发效率带来巨大飞跃。据Exscientia Company Deck数据显示,使用AI技术可以减少约35%的新药研发成本,研发周期也缩短到了1-2年。
云计算推进AIDD成为常态化工具
2021年,亚马逊云科技客户、AI药物研发公司英矽智能宣布了全球第一款由AI发现并设计的用于特发性肺纤维化治疗的候选药物已进入临床试验阶段。从靶点发现到化合物验证,英矽智能用时不到18个月,花费仅260万美元,降低了约99%的新药研发计算成本。
英矽智能的药物发现引擎建立在亚马逊云科技平台之上,是公司产品组合的核心。该引擎使用数百万个数据样本和多种数据类型来发现疾病生物标志物,确定最有希望的靶点,并设计具有特定属性的小分子化合物。
由于英矽智能的人工智能平台要处理大量的实验和文本数据,所以对于图形处理器 (GPU) 的要求很高。英矽智能的AI工具如PandaOmics™和Chemistry42™都运行于Amazon Elastic Compute Cloud(Amazon EC2 ),以获得具有极具灵活性和可扩展性的云端服务器而无需维护庞大的本地计算集群。另外,英矽智能还使用了对象存储服务Amazon Simple Storage Service (Amazon S3) 存储相关数据,使其分布于6个国家的团队能够轻松访问所需数据并进行跨国合作。
成熟、易用且 “AI友好” 的云平台为各行业创造了迈入AI时代的 “捷径” 。到目前为止,云上超过75%的人工智能应用都基于亚马逊云科技平台开发,也使亚马逊云科技积累了丰富的人工智能和机器学习技术和成功经验。对于AIDD所必需的算力、算法、数据三大数字化基础及安全合规要求,亚马逊云科技都能提供完善的服务与技术支撑:
无需初期基础架构投入,即可获得AIDD所需的高性能GPU/ CPU算力,且按需付费;
提供大量的训练推理和部署工具,支持多种深度学习框架。机构和人员无需深入了解相关知识即可以快速展开研发和试验;
亚马逊云科技Marketplace提供数百种算法和模型。亚马逊公开数据集中也提供多种药物研发所需的科学数据,如ChEMBL,ZINC与Open Target等。
亚马逊云科技的云基础设施通过全球98项安全合规认证,并遵循和支持超过全球50种生命科学合规规范,包括GxP、HIPAA,、HITRUST,以及获得《中国人类遗传资源管理条例》中方单位认证,使团队、机构之间可进行安全无忧的数据合作。
据不完全统计,全球已经有近40款以上利用AI涉及的药物管线已经步入了临床阶段。随着AIDD得到广泛应用,已有国内外的众多企业选择亚马逊云科技作为部署AIDD的云计算平台。而亚马逊云科技不仅能提供AIDD所需的云上基础设施,还可直接助力AI工具的开发和使用,或者使用亚马逊云科技多达92种生命科学公开数据集快速进入模型训练。
近年来,基于亚马逊云科技,阿斯利康开发了由机器学习驱动的病理图像识别检测模型,用于替代以往在候选药物研发时以人工进行样本编目的方式。借助Amazon SageMaker Ground Truth,阿斯利康能够快速注释、收集和分类训练样本,并形成可用于模型训练的数据集,而所用的时间仅为之前的50%。
除了节省时间和人力成本,使用数据集训练的模型还帮助研发人员获得更准确的分析结果。在双方开展的试点中,阿斯利康使用2000个样本来分析造成糖尿病损伤的关键结构,准确率达到95%,使科学家能够快了解药物的安全性和有效性,加速了新药研发和上市的进程。
释放AIDD更大潜力使药物研发全面步入“AI时代"
“开放”是AI技术得以发展与应用的关键要素。要使AIDD在未来得到更充分的开发与探索,势必要让其走出仅赋能单个企业的孤岛。着眼未来,借助公有云对数据安全的保护及合规分享机制,制药企业之间将有机会在确保核心数据安全的前提下,实现跨企业的数据合作,以更开放的生态不断提升AIDD的能力、应用范围和影响力。
早在2019年,亚马逊云科技就与全球十大制药公司共同构建了用于药物发现的联邦学习平台(Federated machine learning for drug discovery on Amazon Web Services) MELLODDY,让药企在安全、合规、确保数据隐私的环境下,进行多方合作,加速整个行业的科研发现进程。当前,MELLODDY 平台以前所未有的规模运行在亚马逊云科技平台上,在数十亿个实验数据点上采用联邦学习方式训练模型,分析了超过 2000 万个化学分子结构及理化性质。而且MELLODDY在企业无需共享专有数据和模型的基础上即可开展机器学习协作,合作训练药物发现模型。这一项目成功证明了制药企业可通过云计算进行合作来加速发现新药物的可行性。
中国的药物研发领域的众多企业在迎来政策激励的同时,也开始发掘AIDD背后的商业潜力。在辅助临床前试验阶段之外,AI技术尚存在更多可发掘的应用潜力,如AI与物联网、数据湖仓等技术融合,可促进数字化实验、多中心临床、智能制造及真实世界分析等药物的全流程改进。越来越多的企业也逐步开始了AIDD的实质性应用,并助推国内药物研发进入新的 “高产” 阶段。
据Data Bridge Market Research分析,亚太地区药物发现市场的AI价值复合年增长率将在2022至2029 年期间达到50.9%,且预计中国将成为该领域主导国家。随着云计算不断为AIDD等AI应用落地铺平道路,国内制药企业将有望完成研发能力跃迁,让上述预测成为最终事实。