全能不如专精!微软发布Z-code++屠榜文本摘要,参数量仅为PaLM的1/600(2)
扫一扫
分享文章到微信
扫一扫
关注99科技网微信公众号
Z-Code++采用 两阶段预训练 提升模型在低资源摘要任务上的性能:首先使用大规模文本语料库进行预训练,提升模型的语言理解能力;然后再摘要语料库上针对文本生成任务继续预训练。
在模型设计上,Z-code++将编码器中的自注意力层换成了 disentangled注意力层 ,每个词的表征包含 两个向量 用来编码内容和位置。模型还使用fusion-in-encoder方法以层次化的方式提升处理长序列的效率。
文章的第一作者 贺鹏程 在微软认知服务团队中进行自然语言处理研发工作,专注于顶级深度学习算法和系统的研究,包括大规模训练的语言模型、对抗性训练,问答和其他相关的NLP问题。
黄学东博士 是IEEE/ACM Fellow,微软首位华人「全球技术院士」、微软云计算人工智能首席技术官。他先后获得湖南大学学士学位,清华大学硕士学位和英国爱丁堡大学博士学位。
从通用回归专用
今年初,微软开发了一类全新的AI模型Z-Code,通过迁移学习利用跨多种语言的共享语言元素,将知识从一项任务应用到另一项相关任务,旨在提高机器翻译和其他语言理解任务的质量,并将这些功能扩展到其他小众的语言上。
Z-Code的基本思想很直观:与传统的神经机器翻译方法不同,Z-Code不仅使用多语言的数据在机器翻译任务上进行训练,同时使用单语言数据作为补充,在掩码语言模型(MLM)任务上训练。使用多任务学习,同时优化多个目标函数。模型结构使用标准Transformer的编码器和解码器。
99科技网:http://www.99it.com.cn
