自学成才的人工智能显示出与大脑工作方式的相似之处(3)
扫一扫
分享文章到微信
扫一扫
关注99科技网微信公众号
Richards 团队创建了一个自我监督模型来暗示答案。他们训练了一个结合了两种不同神经网络的人工智能:第一个称为 ResNet 架构,专为处理图像而设计;第二个,称为循环网络,可以跟踪一系列先前的输入,以预测下一个预期的输入。为了训练组合 AI,团队从视频中的 10 帧序列开始,然后让 ResNet 一个一个地处理它们。然后循环网络预测第 11 帧的潜在表示,而不是简单地匹配前 10 帧。自监督学习算法将预测与实际值进行比较,并指示神经网络更新其权重以使预测更好。
Richards 团队发现,使用单个 ResNet 训练的 AI 擅长物体识别,但不擅长对运动进行分类。但是,当他们将单个 ResNet 分成两部分(不改变神经元总数),创建两条路径时,人工智能开发了一个表示对象,另一个表示运动,从而能够对这些属性进行下游分类——就像我们的大脑可能做的那样。为了进一步测试人工智能,该团队向它展示了一组视频,西雅图艾伦脑科学研究所的研究人员此前曾向老鼠展示过这些视频。像灵长类动物一样,老鼠的大脑区域专门用于静态图像和运动。当动物观看视频时,艾伦研究人员记录了小鼠视觉皮层的神经活动。
在这里,Richards 团队也发现了人工智能和活体大脑对视频的反应方式的相似之处。在训练期间,人工神经网络中的一条通路变得更类似于小鼠大脑的腹侧、物体检测区域,而另一条通路变得类似于以运动为中心的背侧区域。
Richards 表示,结果表明我们的视觉系统有两条专门的途径,因为它们有助于预测视觉的未来;单一途径是不够的。
人类听觉系统的模型讲述了一个类似的故事。6 月,由 Meta AI 的研究科学家 Jean-Rémi King 领导的一个团队训练了一个名为 Wav2Vec 2.0 的 AI,它使用神经网络将音频转换为潜在表示。研究人员掩盖了其中一些表示,然后将其输入另一个称为 transformer 的组件神经网络。在训练期间,transformer 会预测掩码信息。在这个过程中,整个 AI 学习将声音转化为潜在的表示——同样,不需要标签。该团队使用了大约 600 小时的语音数据来训练网络,「这大约是一个孩子在前两年的经验中所能得到的。」King 说。
一旦系统接受了训练,研究人员就会播放英语、法语和普通话的有声读物部分。然后,研究人员将 AI 的性能与 412 人的数据进行了比较——这些人混合了三种语言的母语人士,他们在 fMRI 扫描仪中对大脑进行成像时听过相同的音频片段。
King 说,尽管 fMRI 图像嘈杂且分辨率低,但他的神经网络和人类大脑「不仅相互关联,而且以系统的方式关联」:人工智能早期层的活动与初级听觉皮层的活动一致,而人工智能最深层的活动与大脑中较高层的活动一致,在这种情况下是前额叶皮层。
99科技网:http://www.99it.com.cn
