全能不如专精!微软发布Z-code++屠榜文本摘要,参数量仅为PaLM的1/600(4)
扫一扫
分享文章到微信
扫一扫
关注99科技网微信公众号
Z-code++也是采用两阶段训练方法,分别为language model pre-training和grounded pretraining阶段,主要灵感来源为GODEL模型,其主要用于为文本生成任务预训练模型。
在第一阶段, Z-code++的预训练由两个语言模型任务组成:replaced token detection(RTD)和corrupted span prediction (CSP).
RTD任务使用一个经过MLM训练的生成器来生成一个不明确的标记,以取代原始输入X中的标记,然后用判别器来确定该标记是来自X还是由生成器生成的。
CSP任务广泛用于优化编码器-解码器预训练语言模型,如T5等。给定输入字符串X,首先通过随机选择X中的一个起始位置和一个平均长度为3的span来选择一个连续span。重复这个过程,直到被替换的标记达到X中所有标记的15%。最后将corrupted的输入送入编码器,训练编码器-解码器模型以从上下文中恢复选中的span。
如果将corrupted span限制为一个完整的句子,则CSP等同于GSG任务,模拟了抽取式摘要的过程,已经被证明对于训练抽象式摘要模型来说很有效。
研究人员发现CSP作为gap sentences generation(GSG)的一种更通用的形式,在许多自然语言的理解和生成任务中,包括文本摘要,效果更好。
在第二阶段的grounded预训练中,Z-Code++不断地在一系列文本摘要数据集上进行预训练,数据集由(文档,摘要)对组成,以更好地支持下游摘要任务的低资源微调。
研究人员还为每个训练对添加一个摘要任务的自然语言指令。
另一个优化技巧是在DeBERTa中使用的disentangled attention(DA),扩展了基础的自注意力机制。DA用两个独立的向量表示每个输入词,分别表示内容和位置,词之间的注意力权重是通过对其内容和相对位置的分解矩阵来计算的。
99科技网:http://www.99it.com.cn
