Meta发布全新检索增强语言模型Atlas,110亿参数反超5400亿的PaLM(2)
扫一扫
分享文章到微信
扫一扫
关注99科技网微信公众号
再突破! 曹原新年首篇Nature
Atlas遵循文本到文本的框架,也就是说,系统会得到一个文本查询作为输入,并生成一个文本输出。 例如,在回答问题的情况下,查询与问题相对应,模型需要生成答案。在分类任务中,查询对应于文本输入,模型生成词汇化的类别标签,即标签所对应的词。 Atlas基于两个子模型:检索器和语言模型。 当执行一项任务时,模型首先用检索器从大型文本语料库中检索出前k个相关文档。然后,这些文档和查询一起被送入语言模型,再由语言模型生成输出。检索器和语言模型都是基于预训练的Transformer网络。 检索器模块基于Contriever,一种基于连续密集嵌入的信息检索技术。Contriever使用一个双编码器结构,其中查询和文档由一个变换器编码器独立嵌入。在最后一层的输出上应用平均池化,以获得每个查询或文档的一个向量表示。然后,通过计算查询和每个文档的相应嵌入之间的点积,得到查询和每个文档之间的相似度分数。Contriever模型使用MoCo对比损失进行预训练,并且只使用无监督的数据。 密集检索器的一个优点是,查询和文档编码器都可以在没有文档注释的情况下,利用如梯度下降和蒸馏等技术进行训练。 语言模型依靠序列到序列模型的Fusion-in-Decoder modification,并在编码器中独立处理每个文档。然后,将对应于不同文档的编码器的输出连接起来,并在解码器中对这一单一序列进行交叉注意。在语言模型中处理检索到的文档的另一种方法是将查询和所有的文档连接起来,并将这个长序列作为模型的输入。
再突破! 曹原新年首篇Nature
具体来说,作者使用Perplexity Distillation目标函数,以及掩码语言建模作为前置任务。并使用维基百科和Common Crawl的混合数据对这些模型进行预训练,用于训练数据和索引的内容。 作者检索了20个文档,每2500步更新一次索引,并对前100个文档进行重新排名。并使用AdamW对模型进行10,000次迭代的预训练,批大小为128。
99科技网:http://www.99it.com.cn
