AI医疗04:AIDD的柳暗花明

AI医疗04:AIDD的柳暗花明

00:00
06:32

大家好,欢迎来到远川投学苑,我是王佳悦,也是胖猫。上一讲,我们聊了AIDD目前的困境,这一讲,我们来聊下AIDD现在能开出哪些果实。

时候未到

三个标准

王煜全老师归纳了三个标准来判断企业所在行业是否到了广泛引进AI的阶段,都符合才可以叫“AI ready”,AI才有普遍入局影响行业的资格,三个标准如下:

第一是,行业已经积累了丰富的人类经验。

第二是,经验要能被量化,被定义成算法。

第三是,经验要有分级,能判断出好坏来。

按照这个思路去分析,对于药物开发,距离“AI ready”的广泛性使用看起来还具有较长的距离。为什么这么说?我们对照上面的三条标准来看:

首先,药物开发领域虽然积累了海量的信息,但未知的更多。比如人类基因组学计划之后的20年我们解读了人类DNA层面的遗传图谱,DNA转录成RNA再翻译成蛋白质,但我们对大部分蛋白的功能包括蛋白的修饰变化并不完全知晓,对细胞膜上蛋白质的相互作用,对细胞信号通路中各蛋白质、细胞器之前如何“对话”的机制理解局限。化学结构空间广阔,预计评估的化合物数量级在10的60次方,目前我们了解的只是冰山一角,仅对约2亿个类药分子进行了实验表征。AI的本质就是复制并优化人类经验,如果人类经验还很不足,人类对生物对化学都还没充分理解,就很难让AI去操作。

其次,我们对部分疾病进行了较为粗糙的分类量化,但对健康和表型的定量测量刚刚起步。哥伦比亚大学Martin Picard教授在Phenomics曾发表文章“为什么相比健康,我们更关注疾病”,指出我们对导致健康/疾病状态随时间变化的动态过程缺乏了解。如果行业经验很难被数据化,短时间内想用上AI就比较难。高质量的生物医学数据缺乏,数据孤岛是一直难解决的问题。

最后,有一些优劣分级和正负反馈,可以用于优化经验,但还远远不够,且反馈周期长。比如药物在细胞体系表现出的效果,迁移到小动物模型有很大差距,再到更加复杂的人类个体就更不同。有好坏,AI才知道该往哪优化。一个药物是否真正有效,什么样的是“好药”什么样的是“毒药”,只有通过实验、临床反馈来积累经验和数据,这些数据积累的成本高,速度慢,反馈周期太长。

值得期待

综上所述,目前AI药物研发处于发展初期,技术上面临着数据、算法和专业人才方面的挑战;同时,企业商业模式也需要市场进一步验证。

而我国AI药物研发主要应用于药物发现环节临床前研究环节,受生物系统内在复杂性和疾病异质性特征的制约,AI技术尚不能为药物研发的效率和成功率带来革命性改变,整体仍处于探索阶段。

AI在药物发现上的作用仍局限在速度和成本上,而不是决策的质量。比如过多使用替代量度,如靶点活性,而不是与有效性或安全性相关的数据结果。将配体-蛋白质活性、靶点识别以及PK性质等进行综合考虑,依然是所面临的一大挑战。

通过作用机理和适应症来对药物进行标签注释十分困难,我们尚难以理清化合物-蛋白质-作用机理-药效等几方面的联系,这使得AI方法在这种缺少标签的数据集中很难发挥作用。

但AI制药的前景依然值得看好。未来随着算法的更新、算力的突破及大数据的发展,AI技术将深入应用到新药研发的各个环节,在化合物合成、药效预测及自动化研发等阶段扮演越来越重要的角色。

柳暗花明

不做药

AIDD的困难之处,在于药品的研发是一个极度漫长严谨的过程,AI的快和制药的慢有着不可调和的矛盾。在第一个AIDD药物跑完全程之前,无论是科学界还是资本市场都很难完全承认AIDD。

但有一个领域却完全不同,那就是酶工程或者说蛋白质工程。

AI制药在小分子上最大的瓶颈还是数据。在大家都绝望的时候,2021年,AlphaFold 横空出世。AlphaFold 2解决了蛋白的结构预测问题。

1280X1280.PNG


我们之前提到DNA、RNA、蛋白质,我们关心它的序列、结构和功能。不管是DNA层面还是RNA层面,我们通过测序仪——比如illumina或者华大智造——对基因进行测序,ATCG四个字母的排列组合,就决定了最终产物蛋白质的结构和功能。

蛋白质就是由20种氨基酸,按照一定的顺序组成一个肽链,肽链会折叠为三维结构,当它有了结构之后就会有功能。AI可以通过学习已有的蛋白质序列,创造一个跟自然界不存在但具备类似功能的蛋白,但是从序列上讲,和自然界的蛋白序列相似度低于30%。

天然蛋白质经过自然选择,它已经达到了它的性能、稳定性、活性、特异性很优秀的条件。但是我们在工业或者医药在使用时,环境要求是不一样的,需要把蛋白质上在序列上进行突变,把它的氨基酸中 5- 20 个突变成别的氨基酸,使得它在真正的应用环境里达到了最优的性质,这就是蛋白质工程要做的事。主要在稳定性、结合力、亲和力、催化活性、底物选择性等方面优化。

AI for Science

在蛋白质设计方面,以GPT为代表的大模型已经完全碾压了人类。上海交大的洪亮教授,利用海洋所取得的深海蛋白(耐高温)数据,训练大模型,AI就能够轻松设计出具备耐高温目标蛋白。

AI进行蛋白质设计的逻辑和人类完全不同。有些AI找到的好的点位,是违背了人类直觉的,这种反直觉的点也能够提高相应的稳定性。人通过几十年的经验总结是能找出一些规律的,比如蛋白质结构上规律,但这些规律只有相关性,而没有因果性。比如稳定性,它与蛋白质结构规律有相关性,但它不是一个决定后者的完备的因素,并不是一个第一性的东西,但是用了深度学习之后,用高维的向量去描述蛋白质特征的时候,是有可能抓住更本质的因素的。

更深入一些,在某些学科研究上,AI是可能更精准的。人类的科学知识的积累的过程,是从大量的实验观测里面去归纳总结一些低维特征,来构建观测特征和现象结果的关系。像数学、物理这样的学科,其低维特征和最后结果是一对一的,是决定性的完备坐标系。像生物医学、材料工程等学科,人们提取出来的特征太少了,AI通用大模型提取出来的数据是高维的,精度更高,成本更低。

好了,这一节课的内容就到这里,下节课我们再见。


敲黑板

目前AI药物研发处于发展初期,技术上面临着数据、算法和专业人才方面的挑战;同时,企业商业模式也需要市场进一步验证。

AI在药物发现上的作用仍局限在速度和成本上,而不是决策的质量。

AIDD的困难之处,在于药品的研发是一个极度漫长严谨的过程,AI的快和制药的慢有着不可调和的矛盾。在第一个AIDD药物跑完全程之前,无论是科学界还是资本市场都很难完全承认AIDD。

在蛋白质设计方面,以GPT为代表的大模型已经完全碾压了人类。

在某些学科研究上,AI是可能更精准的。




以上内容来自专辑
用户评论

    还没有评论,快来发表第一个评论!