快了一个0!Meta祭出150亿参数蛋白质大模型,碾压AlphaFold2
扫一扫
分享文章到微信
扫一扫
关注99科技网微信公众号
迄今为止规模最大的蛋白质语言模型问世了! 一年前,DeepMind开源AlphaFold2连登Nature、Science,刷爆生物和AI学界。 一年后,Meta带着速度快一个数量级的ESMFold来了。 不光速度快,模型还足足有150亿个参数。 LeCun发推称赞,这是Meta-FAIR蛋白质团队的伟大新成果。 共同一作Zeming Lin透露,30亿参数的大模型在256个GPU上训练了3个星期,而ESMfold在128个GPU上用了10天。至于150亿参数的版本,目前还不清楚。 他还表示,代码随后肯定会开源,敬请关注!
又大又快!
今天,我们的主角是ESMFold,一个从蛋白质个体的序列,直接进行高准确度、端对端、原子层级结构预测的模型。 论文地址:https://www.biorxiv.org/content/10.1101/2022.07.20.500902v1 150亿个参数带来的好处不必多说——通过训练,如今的大模型可以在原子大小的精度上预测蛋白质的三维结构。 从准确度上看,ESMFold和AlphaFold2、RoseTTAFold差不多。 但是,ESMFold推测速度要比AlphaFold2快一个数量级! 一下说数量级可能不好理解三者之间速度的对比,看看下面这张图就懂了。
有啥区别?
虽说AlphaFold2和RoseTTAFold在原子分辨率结构预测问题上取得了突破性的成功,但它们也依赖于使用多序列比对(MSA)和类似的蛋白质结构模板来实现最佳性能。 相比之下,通过利用语言模型的内部表征,ESMFold只用一个序列作为输入就能生成相应的结构预测,从而大大加快了结构预测的速度。 研究人员发现,ESMFold对低复杂度序列的预测与当下最先进的模型相当。 而且,结构预测的准确性与语言模型的复杂度息息相关,也就是说,当语言模型能更好地理解序列时,便可以更好地理解结构。 目前,有数十亿结构和功能未知的蛋白质序列,其中许多来自元基因组测序。 利用ESMFold,研究人员只需6个小时,就能折叠完成100万个元基因组序列的随机样本。 其中很大一部分具有高置信度,并且与任何已知的结构不同(在数据库中没有记录)。 研究人员认为,ESMFold可以帮助理解那些超出现有认知的蛋白质结构。 此外,由于ESMFold的预测速度比现有的模型快一个数量级,因此研究人员便可借助ESMFold来协助填补快速增长的蛋白质序列数据库与进展缓慢的蛋白质结构和功能数据库之间的鸿沟。
99科技网:http://www.99it.com.cn

近日,MetaAI发布了NLLB-200模型,宣布在200多种语言(其中有70%是低资源语言)上
元宇宙2022-08-31
