华为云摘得NLPCC轻量级预训练中文语言模型测评桂冠

本题目:华为云戴得NLPCC 沉量级预练习中文言语模子军事测评桂冠
远日,华为云AI团队取得第9届国际天然言语处置取中文计较集会NLPCC 2020 沉量级预练习中文言语模子测评第一位.

NLPCC 由中国计较机教会主理,是天然言语处置(NLP)战中文计较(CC)范畴的顶级国际前沿集会,每一年集会皆承袭国际化战一流化的严厉规范去停止天然言语处置义务的开放评测,推进相干义务的研讨战开展.NLPCC 2020吸收了康奈我年夜教.伦敦年夜教.普林斯顿年夜教等海外中远600位天然言语处置范畴的专家及教者参与年夜会,此中400余位专家教者正在现场配合睹证开放评测义务第一位的降生.
当下,预练习言语模子曾经成为NLP的支流办法,正在多项NLP义务上皆获得了分明的结果晋升.可是预练习言语模子常常比拟年夜,限定了预练习言语模子的使用场景.因而,若何构建沉量级的预练习言语模子便成了一个要害成绩.

预练习言语模子呈现以去开展得十分敏捷,今朝曾经演变构成了一个家属
中文沉量级预练习言语模子才能评测义务的目标正在于让参赛团队增加言语模子巨细的同时尽量包管模子结果.本次竞赛包括四个义务,辨别是指代消解,要害词辨认两个句子级别分类义务,真体辨认序列标注义务,MRC浏览了解义务,从分歧角度评测模子的语义表达才能.同时,竞赛请求模子的参数目低于bert-base模子的1/9,模子推理速率到达bert-base模子的8倍,那便请求模子运转快,体积小,结果好.

普通去道,能够经过量化.剪枝.蒸馏等办法去紧缩年夜预练习言语模子去取得沉量级模子.华为云取诺亚圆船尝试室结合团队基于自研的NEZHA中文预练习模子经过常识蒸馏失掉tiny-NEZHA沉量级模子戴得桂冠.

比拟其他模子,华为的模子正在构造上找到了一个较好的均衡面,接纳TinyBERT两步蒸馏的体例让模子更好天教就任务相干的常识,蒸馏进程顶用言语模子猜测并交换局部token的体例停止数据加强能够使小模子具有更强泛化性.
TinyBERT常识蒸馏的丧失函数中一个主要环节是让两头层来进教育修埋没形态战attention背量
同时,华为自研的NEZHA预练习言语模子接纳绝对地位编码交换BERT的参数化相对地位编码,能更间接天建模token间的绝对地位干系,从而晋升言语模子的表达才能.
正在过来的2020年里,华为云AI正在野生智能范畴的研收成果斐然,斩获十两项包括WSDM.WebVision.CCKS篇章级事情抽与手艺评测冠军.野生智能金炼奖.德国白面正在内的国际国际榜单冠军战奖项.华为云AI将持续夯真手艺劣势,做智能天下的”乌地盘”,继续践止普惠AI,将AI效劳触及每位开辟者.每个企业,助力各止各业进进野生智能新时期.前往new.jpwyj.com,检查更多

未经允许不得转载:新资讯 » 华为云摘得NLPCC轻量级预训练中文语言模型测评桂冠

赞 (0)

评论 0

评论前必须登录!

登陆 注册