「几何深度学习」从古希腊到AlphaFold,「图神经网络」起源于物理与化学(6)
扫一扫
分享文章到微信
扫一扫
关注99科技网微信公众号
化学在历史上一直是,现在也是数据最密集的学术学科之一,现代化学在十八世纪的出现导致了已知化合物的快速增长和对其组织的早期需求。
自19世纪中期以来,化学家们已经建立了一种能够普遍被接收的理解方式,通过结构式来指代化合物,表明化合物的原子、它们之间的键,甚至它们的三维几何形状,但这样的结构并不便于检索。
在20世纪上半叶,随着新发现的化合物及其商业用途的快速增长,组织、搜索和比较分子的问题变得至关重要:例如,当一家制药公司试图为一种新药申请专利时,专利局必须核实以前是否有类似的化合物被存入。
为了应对这一挑战,20世纪40年代引入了几个分子索引系统,为后来被称为化学信息学的新学科奠定了基础。其中一个系统以作者Gordon、Kendall和Davison的名字命名为「GKD化学密码」,由英国轮胎公司Dunlop开发,用于早期基于打卡的计算机。从本质上讲,GKD密码是一种将分子结构解析为一个字符串的算法,可以更容易地被人类或计算机查询。
但GKD密码和其他相关方法远远不能令人满意。在化合物中,类似的结构往往会导致类似的属性,化学家们被训练成具有发现这种相似性的直觉,并在比较化合物时寻找它们。
例如,苯环与气味特性的联系是19世纪「芳香族化合物」这一化学类别命名的原因。
另一方面,当一个分子被表示为一个字符串时(如在GKD密码中),单一化学结构的成分可能被映射到密码的不同位置。因此,两个含有类似子结构的分子(因此可能具有类似的性质)可能以非常不同的方式被编码。
99科技网:http://www.99it.com.cn
