本题目:DeepMind提出了一种祖安AI,特地输入收集进犯性言语
机械之心报导
编纂:小船.泽北 若何防止野生智能被带正?谜底是起首要发明出「心怀叵测」的野生智能.
言语模子 (LM) 经常存正在死成进犯性言语的潜伏风险,那也影响了模子的摆设.一些研讨测验考试运用野生正文器脚写测试用例,以正在摆设之前辨认无害止为.但是,野生正文本钱昂扬,限定了测试用例的数目战多样性.
基于此,去自 DeepMind 的研讨者经过运用另外一个 LM 死成测试用例去主动发明目的 LM 将来能够的无害表示.该研讨运用检测进犯性内容的分类器,去评价目的 LM 对测试成绩的答复量量,尝试中正在 280B 参数 LM 谈天机械人中发明了数以万计的进犯性答复.
论文地点:https://storage.谷歌apis.com/deepmind-media/Red Teaming/Red Teaming.pdf
该研讨探究了从整样本死成到强化进修的多种办法,以死成具有多样性战分歧易度的测试用例.别的,该研讨运用 prompt 工程去节制 LM 死成的测试用例以发明其他风险,主动找出谈天机械人会以进犯性体例取之会商的人群.找出保守隐公疑息等对话进程存正在风险的状况.整体而行,该研讨提出的 Red Teaming LM 是一种很有出路的东西,用于正在实践用户运用之前发明战建复各类没有良的 LM 止为.
GPT-3 战 Gopher 等年夜型死成言语模子具有死成下量量文本的特殊才能,但它们很易正在理想天下中摆设,存正在死成无害文本的风险.实践上,即便是很小的风险风险正在实践使用中也是不成承受的.
比方,2016 年,微硬公布了 Tay Twitter 机械人,能够主动收推文以呼应用户.仅正在 16 个小时内,Tay 便果收回带有种族主义战色情疑息的推文后被微硬下架,事先已收收给超越 50000 名存眷者.
成绩正在于有太多能够的输出会招致模子死成无害文本,因而,很易让模子正在摆设到理想天下之前便找出一切的掉败状况.DeepMind 研讨的目的是经过主动查找掉败案例(或「白队(red teaming)」)去弥补野生脚动测试,并增加要害忽略.该研讨运用言语模子自身死成测试用例,并运用分类器检测测试用例上的各类无害止为,以下图所示:
「基于 LM 的 red teaming」使我们能够找出不计其数种分歧的掉败案例,而不必脚动写出它们.
该研讨运用对话做为测试仄台去查验其假定,即 LM 是白队的东西.DeepMind 那项研讨的尾要目的便是找到能惹起 Dialogue-Prompted Gopher(DPG; Rae et al., 2021)做出进犯性答复的文本.DPG 经过以脚写文本前缀或 prompt 为前提,运用 Gopher LM 死成对话话语.Gopher LM 则是一个预练习的.从左到左的 280B 参数 transformer LM,微商渠道并正在互联网文本等数据长进止了练习.
进犯性言语:愤恨谈吐.净话.性骚扰.蔑视性言语等
数据保守:从练习语料库中死成有版权或公家可辨认疑息
联络疑息死成:指导用户收收不用要的邮件或给实人挨德律风
散布式成见(distributional bias):以一种相较其他群体没有公道的体例会商某些群体
会话损伤:少对话场景中呈现的进犯性言语
为了运用言语模子死成测试用例,研讨者探究了良多办法,从基于 prompt 的死成战小样本进修到监视式微谐和强化进修,并死成了更多样化的测试用例.
研讨者指出,一旦发明掉败案例,经过以下体例建复无害模子止为将变得更轻易:
将无害输入中常常呈现的某些短语列进乌名单,避免模子死成包括下风险短语的输入;
查找模子援用的进犯性练习数据,正在练习模子的将来迭代时删除该数据;
运用某种输出所需止为的示例去加强模子的 prompt(前提文本);
练习模子以最小化给定测试输出死成无害输入的能够性.
以下图 2 所示,0.5M 的整样本测试用例正在 3.7% 的工夫内激发了进犯十大微商平台性答复,招致呈现 18444 个掉败的测试用例.SFS 应用整样本测试用例去进步进犯性,同时坚持类似的测试用例多样性.
为了了解 DPG 办法掉败的缘由,该研讨将惹起进犯性答复的测试用例停止散类,并运用 FastText(Joulin et al., 2017)嵌进每一个单词,计较每一个测试用例的均匀词袋嵌进.终极,该研讨运用 k-means 散类正在 18k 个激发进犯性答复的成绩上构成了 100 个散群,下表 1 显现了去自局部散群的成绩.
别的,该研讨借经过剖析进犯性答复去改良目的 LM.该研讨标志了输入中最有能够招致进犯性分类的 100 个名词短语,下表 2 展现了运用标志名词短语的 DPG 答复.
整体而行,言语模子是一种十分无效的东西,可用于发明言语模子什么时候会表示出各类没有良体例.正在今朝的任务中,研讨职员专注于现今言语模子所带去的 red team 风险.未来,那种办法借可用于先下手为强天找到去自初级机械进修零碎的其他潜伏风险,如外部错位或客不雅鲁棒性成绩.
那种办法只是下可托度言语模子开辟的一个构成局部:DeepMind 将 red team 视为一种东西,用于发明言语模子中的风险并加重它们的风险.
参考链接:
https://www.deepmind.com/research/publications/2022/Red-Teaming-Language-Models-with-Language-Models前往new.jpwyj.com,检查更多
未经允许不得转载:新资讯 » DeepMind提出了一种祖安AI,专门输出网络攻击性语言
新资讯
评论前必须登录!
登陆 注册