主页 > 快资讯 > 正文

全能不如专精!微软发布Z-code++屠榜文本摘要,参数量仅为PaLM的1/600(4)

2022-09-15 13:24来源:未知编辑:admin

扫一扫

分享文章到微信

扫一扫

关注99科技网微信公众号

Z-code++也是采用两阶段训练方法,分别为language model pre-training和grounded pretraining阶段,主要灵感来源为GODEL模型,其主要用于为文本生成任务预训练模型。

在第一阶段, Z-code++的预训练由两个语言模型任务组成:replaced token detection(RTD)和corrupted span prediction (CSP).

RTD任务使用一个经过MLM训练的生成器来生成一个不明确的标记,以取代原始输入X中的标记,然后用判别器来确定该标记是来自X还是由生成器生成的。

CSP任务广泛用于优化编码器-解码器预训练语言模型,如T5等。给定输入字符串X,首先通过随机选择X中的一个起始位置和一个平均长度为3的span来选择一个连续span。重复这个过程,直到被替换的标记达到X中所有标记的15%。最后将corrupted的输入送入编码器,训练编码器-解码器模型以从上下文中恢复选中的span。

如果将corrupted span限制为一个完整的句子,则CSP等同于GSG任务,模拟了抽取式摘要的过程,已经被证明对于训练抽象式摘要模型来说很有效。

研究人员发现CSP作为gap sentences generation(GSG)的一种更通用的形式,在许多自然语言的理解和生成任务中,包括文本摘要,效果更好。

在第二阶段的grounded预训练中,Z-Code++不断地在一系列文本摘要数据集上进行预训练,数据集由(文档,摘要)对组成,以更好地支持下游摘要任务的低资源微调。

研究人员还为每个训练对添加一个摘要任务的自然语言指令。

另一个优化技巧是在DeBERTa中使用的disentangled attention(DA),扩展了基础的自注意力机制。DA用两个独立的向量表示每个输入词,分别表示内容和位置,词之间的注意力权重是通过对其内容和相对位置的分解矩阵来计算的。

99科技网:http://www.99it.com.cn

相关推荐
杉川深耕机器人领域多年 荣获国家级专精特新“小巨人” 杉川深耕机器人领域多年 荣获国家级专精特新“小巨人”

近期,北京市经济和信息化局发布了工业和信息化部组织的《第四批专精特新小

快资讯2022-08-30

全能不如专精!微软发布Z-code++屠榜文本摘要,参数量仅为PaLM的1/600 全能不如专精!微软发布Z-code++屠榜文本摘要,参数量仅为PaLM的1/600

超大规模预训练模型混战之后,NLP模型该走向何方?

快资讯2022-08-25

特斯拉的车机这么拉胯?马斯克公开吐槽:还不如5年前的iPad 特斯拉的车机这么拉胯?马斯克公开吐槽:还不如5年前的iPad

近日,特斯拉创始人埃隆·马斯克公开吐槽了特斯拉的车机系统,他表示,特斯

快资讯2022-08-06

八成专精特新未上市,哪些能成为“北交所后备军”? 八成专精特新未上市,哪些能成为“北交所后备军”?

深耕专业领域的专精特新企业,已从昔日的坐足冷板凳发展到如今广受认可。不

快资讯2022-08-01

大力培育“专精特新”企业 大力培育“专精特新”企业

近年来,我国不断加大“专精特新”企业培育力度,推动“专精特新”企业在产

快资讯2022-07-30

中国足球是时候抛弃“技不如人”这个借口了 中国足球是时候抛弃“技不如人”这个借口了

中国男足选拔队在普遍不被看好的情况下,逼平主场作战的日本队,让人颇感意

快资讯2022-07-25

618高性价比、全能轻薄本怎么选?这篇文章说清楚 618高性价比、全能轻薄本怎么选?这篇文章说清楚

今年的618促销依然是如火如荼,笔记本电脑市场更是出现了许多好价好产品,不

快资讯2022-07-23

第四批专精特新“小巨人”企业培育工作启动 第四批专精特新“小巨人”企业培育工作启动

记者从工信部获悉,工信部6月15日印发通知,组织开展第四批专精特新“小巨人

快资讯2022-07-21

建设“专精尖”大学是教育高质量发展的应有之义 建设“专精尖”大学是教育高质量发展的应有之义

  近日,在“2021高等教育国际论坛年会”上,中国高等教育学会会长杜玉波

快资讯2022-07-21

格力空调全能王i尊自动清洗功能怎么用 格力空调全能王i尊自动清洗功能怎么用

内机的话可以开启制冷模式,用内机清洗剂清洗。只需要喷到需要清洗的地方,

快资讯2022-07-21