本题目:舞蹈四肢举动没有和谐?不妨,微视用AI挨制您我的舞林年夜会,一张照片便能够
机械之心本创
做者:杜伟 继让老照片动起去.唱歌以后,腾讯微视又解锁了照片的舞蹈技艺.
80.90 后的小同伴,该当很熟习喷鼻港歌脚陈慧琳的抢手歌直<>吧,歌词中的「谈天没有如舞蹈,道爱情没有如舞蹈……」风行了街头巷尾,使良多人爱上了舞蹈.遗憾的是,关于一些手脚没有和谐的小同伴,正在人前舞蹈无同于一种熬煎.可是,没有会跳其实不意味着看没有到本人舞蹈的模样.
跟着计较机视觉战死成对立收集的疾速开展,人体举措迁徙手艺的呈现使那些出有舞蹈先天的小同伴也无机会展现本人的舞姿.复杂去讲,给定一段他人舞蹈的视频战用户的一张照片,经过人体 3D 重修取人体联系手艺.布景建复战 GAN 死成手艺,能够完成用户静态照片随驱动跳舞动起去,并到达实在.调和.以假治实的姿势死效果果.
但是,教界远年提出的一些人体姿势迁徙计划,如 DanceNet 等,皆存正在着必然水平的缺乏,如死成后果恍惚.肢体外形没有完好.跳舞举措生硬等.别的,那些计划关于通俗用户而行手艺门坎太高,真操性没有强,招致介入度没有下.降天坚苦,亟须改动.
远日,腾讯微视 APP 上线的「搞笑照片会舞蹈」新殊效弄法完成了人体姿势迁徙手艺的实正降天,让没有会舞蹈的您也能正在脚机上舞动起去.
弄法十分复杂,用户只需下载微视 APP,上传单人 / 多人齐身正里照,零碎即主动比较片停止 3D 建模,死成以假治实的实拟抽象;接着挑选舞种,经过教育手艺才能使实拟抽象依照选定的跳舞模板「舞动」起去,模仿结果非常传神,举措也流利天然.
单人跳舞选 1 张照片,多人跳舞选 2-3 张照片.
今朝,用户能够正在「照片会舞蹈」当选择 10 种跳舞模板,涵盖了广场舞(筷子兄弟小苹果.八神摇).宅舞.炫舞(迈克我杰克逊 Beat It).齐国中小先生播送体操(2002 年第两套<>)战童谣(沙鱼宝宝)等多品种型,更有收集上传达甚广的魔性蹦迪「接着吹打接着舞」.
局部跳舞模板,从左至左顺次是夹腿舞.两只山君.Bangbangbang 战微风吹.
舞蹈静态结果怎样样呢?赏识下魔性的「小苹果」战蹦迪神直「接着吹打接着舞」:
新弄法上线以去,便吸收了少量的微视用户,相干视频数十多万,播放量更是到达5000余万.用户纷繁秀出了本人狂放没有羁的舞姿,也有明星参加到了那场「跳舞狂悲」中.那没有,硬核年夜叔腾格我背「最强舞者」倡议了应战:
据理解,那是腾讯微视正在前段工夫水遍齐网的「蚂蚁牙乌」脸色迁徙弄法的根底上推出的 APP 端单人或多人舞蹈举措迁徙弄法,也是腾讯光影研讨室针对人体姿势迁徙手艺研讨的打破性降天.
今朝支流的人体姿势迁徙手艺为了到达较好的举措迁徙死效果果,和减缓自遮挡成绩引进的纹理不成睹成绩,普通需求用户上传多张分歧姿势的齐身图片或一段视频,而且需求较少工夫的背景微调解理.
QQ 影象中间手艺团队颠末对人体 3D 重修手艺.GAN 收集的不时发掘取劣化,最初完成了运用单张用户图,便能到达业界需求庞大手艺圆可完成的人体姿势迁徙结果.同时借撑持更下分辩率的输入,处理了举措生硬等成绩,既包管了跳舞素材的举措精确性,也使举措愈加连接天然.
支流人体姿势迁徙计划有哪些缺乏?
正在人体举措迁徙完成进程中,举措跨度年夜.像素搬移多.纹理庞大.举措自在度下战自遮挡频仍等搅扰要素招致死成指定姿势的人体不断比拟坚苦.
今朝,教界处理人体姿势迁徙的支流计划依然需求本初姿势到目的姿势的 warp 操纵,分为像素级别战特性图(feature map)级别.依据运用的手艺计划分歧,warp 操纵又能够分为 2D warp 战 3D warp.
2D warp 计划中具有代表性的是 NeurIPS 2019 论文<>中提出的中心模子「First Order Motion」,此中猜测 warp 流的收集需求输出用户图取目的姿势图的 2D 要害面疑息,然后应用 warp 流失掉目的姿势下舆图,GAN 收集对 warp 后的图片(或特性)停止建复.固然死成的举措较为调和天然,但 warp 流不敷准确取波动,招致后果恍惚.肢体外形没有完好.纹理复原度没有下.
白框内助脸恍惚没有浑.图源:https://arxiv.org/pdf/2003.00196.pdf
3D warp 计划借助 3D 重修出的用户图 mesh 取目的图 3D mesh,并依据那两个 3D mesh 停止 warp 流的计较,同时 warp 用户图,最初异样经过 GAN 收集对 warp 后的后果图停止粗建失掉终极后果.因为接纳 3D 人体重修,重修后根据 3D mesh 结构 warp 流,因而 warp 流的精密度下,终极后果的纹理明晰度下.复原度下.但因为目的姿势依靠 3D 人体重修,因而受限于 3D 重修手艺,死成的跳舞举措稍隐生硬.
教术界借有一些没有依靠 warp 的处理计划,比方 FAIR 提出的「Single-Shot Freestyle Dance Reenactment」.此计划起首猜测用户图的剖析(parsing) 图的驱动后果图,即依据用户图本初姿势下的 parsing 猜测目的姿势下的 parsing 图;接着借助人体 parsing map,将人体各个部位的纹理分化开,失掉纹理的 embedding.纹理背量拼接成人体纹理背量,然后取目的姿势下的 parsing 图借助 SPADE 图到图框架死成目的姿势后果.关于自遮挡用户图表示较好,但其纹理死成来历于纹理 embedding,招致正在庞大纹理前提下复原度没有下.
FAIR「Single-Shot Freestyle Dance Reenactment」办法的跳舞举措迁徙结果,稍隐没有天然.
图源:
https://arxiv.org/pdf/2012.01158.pdf
因而,因为支流计划本身存正在的各种缺乏,并已实正降天于实践贸易消费使用.
腾讯人体姿势迁徙计划有哪些独到的地方?
针对上述 2D warp.3D warp 战没有依靠 warp 的计划的缺乏,并思索到实践营业场景下,多图或视频输出的姿势迁徙办法因为输出图片多.用户运用门坎下.独自练习模子招致本钱较下,团队基于对教界手艺计划的探究取理论,接纳基于多角度用户图的 3D 人体重修.并连系人体联系手艺取 GAN 死成手艺的计划道路.
本计划正在以下三圆里完成了主要的手艺打破:
起首,单张用户图完成姿势迁徙,没有需求正在线微调.支流计划多用户图战视频输出和正在线微调的体例极年夜添加了用户交互易度,等候工夫暂,可玩性低.团队颠末对人体 3D 重修手艺的不时发掘取劣化.GAN 收集劣化,终极运用单张用户图便可到达业界办法正在线微调后的结果.
其次,死成明晰度下,纹理复原度下,撑持更下分辩率输入(1024×1024).
最初,改进 3D warp 计划中举措生硬成绩.基于 3D 的手艺计划轻易碰到举措生硬的成绩,经过光滑战略.2D 面辅佐劣化等战略,既包管了跳舞素材的举措精确性,也使举措愈加连接天然.
基于多角度用户图的人体 3D 重修算法
传统的姿势迁徙办法多挑选人体骨骼要害面做为人体姿势的重暗示,但骨骼要害面掩盖的人体部位较少,多以枢纽.五民为主,因而姿势迁徙易度比拟年夜,死成量量也较低.比拟之下,用户图 3D 取驱动图 3D 模子对姿势的暗示愈加丰厚.
但应看到,3D 人体重修易度十分年夜.一圆里,数据获得本钱很下,取得下量量人体 3D mesh 数据十分坚苦,一些开源数据散掩盖的场景比拟无限;另外一圆里,人体肢体举措较多,存正在自遮挡战自扭转等各类成绩,那也给 3D 重修带去十分年夜的应战.一些开源的 3D mesh 数据库,如减州年夜教伯克利分校等开源的端到端框架 HMR,结果易以使人称心.
团队研收了一套基于多角度用户图的人体 3D 重修算法,并针对人面部分独自建模,使得 warp 图正在人面部分能够坚持较好的纹理细节取 ID 疑息,终极依据用户供给的图象死成 3D 模子.其明面正在于,单张用户图便可死成精确的 3D 模子,用户供给的视角越齐,重修的结果越好.
基于多角度用户图的人体 3D 重修算法分为人体 mesh 重修.人体纹理重修和人脸 mesh 战纹理重修三年夜局部,此中人体 mesh 重修起首经过步调 1 战步调 2 完成:
1.提与多角度用户图的 2D 人体要害面战人体 mask,使重修的姿势战投影更精确;
2.基于参数化人体模子,拟开人体 mesh,确保正在统一团体体 shape 下.仅经过改动姿势,令人体 mesh 的要害面投影战每张输出图象的 2D 人体要害面相反,mesh 投影战每张输出图象的人体 mask 相反;
接着,人体纹理重修经过步调 3 战步调 4 完成:
3.基于步调 2 失掉的人体 mesh,从各自对应的图象中提与可睹纹理;
4.基于多张可睹纹理,运用夹杂下斯模子交融可睹纹理.对交融后仍然缺掉的局部,再依据人体部位各自做挖充;
然后,人脸 mesh 战纹理重修经过步调 5 完成:
5.基于步调 1 中提与的人脸要害面,提与一张正里人脸图象,输出人脸重修收集,同时重修人脸 mesh 战纹理.
最初,交融步调 2.5 取得的人体战人脸 mesh,再交融步调 4.5 取得的人体战人脸纹理,失掉终极的用户 3D 重修模子.全体流程以下图所示:
人体联系取布景挖充
图象联系是计较机视觉范畴的主要研讨标的目的,跟着远年去 GAN 等深度进修手艺的逐渐深化,图象联系手艺有了日新月异的开展.人体前布景联系是该范畴的主要分收之一.
借助精密的人体联系,人体死成量量能够更下.详细天,人体联系能够来除庞大的布景,低落 GAN 死成易度.粗准的人体联系借能够更好天协助布景 inpainting 收集完成布景建补.因而,人体联系能够做为姿势迁徙 GAN 收集的多义务监视之一,更好天束缚用户图正在目的姿势下的 shape 死成.
目的姿势下的人体死成
正在 3D 模块将用户图 warp 到目的姿势后,3D 建模是「赤身」的,短少衣服.收饰等建模疑息,因而 warp 后的用户图存正在鞋子缺掉.出有头收等良多成绩.别的,目的姿势的 3D 模子借有能够存正在用户图出有的部位和被遮挡的部位,比方用户是正里,目的姿势是侧身,此时 warp 侧身纹理被推扯或许毛病.
基于上述成绩,GAN 模块的感化是进一步润色 warp 图,一圆里将 warp 图「多来少补」,另外一圆里添加调和度.团队采纳的计划是应用用户图的纹理疑息,将用户疑息取 warp 图疑息正在 GAN 收集中交融,死成天然的目的姿势的用户图.
GAN 收集又分为两个子收集:重修收集取姿势死成收集.死成收集的死成步调详细以下:
重修收集自编码器构造,将用户图重修,收集两头层特性图具有组成用户图的一切疑息;
目的姿势死成收集输出细粒度 warp 图,正在收集两头层接纳重修收集的特性图,停止特性交融,失掉新的特性图.此时特性图具有了 warp 图丧失的细节疑息;
特性图进进解码器(decoder),将特性图颠末卷积层死成具有目的姿势的 RGB 图取 mask 图;
mask 图取 RGB 图交融失掉远景,连系用户的布景图,失掉终极输入图.
全体流程图以下所示:
得益于多角度用户图 3D 人体重修.人体联系取 GAN 死成手艺三者开一的人体姿势迁徙计划,才有了「照片会舞蹈」新殊效弄法顶用户跳舞的完满出现.
从人脸到人体,腾讯不时探究迁徙手艺,立异视频殊效弄法
从人脸到人体举措迁徙,腾讯微视正一步步深挖迁徙手艺正在爆款交际弄法上的延展空间,并继续探究前沿 AI 战 CV 算法正在内容消费战消耗范畴的使用战降天.
人脸举措迁徙是指将一段人脸视频中的里部举措,包罗头部地位战晨背.里部脸色.五民举措等,迁徙至另外一张静态人脸图片中,使得静态图片出现出相反里部举措的结果.往年 3 月,微视上线了一种基于人脸图象建复战人脸举措迁徙手艺的殊效弄法「会动的老照片」,不只能够一键建复老照片.让照片中的人物动起去,借能经过脚机及时节制死成图象的里部举措,完成人脸举措迁徙.
取此同时,做为从属于腾讯仄台取内容奇迹群(PCG)的手艺团队,光影尝试室(Tencent GY-Lab)为传神殊效的完成供给了脆真的手艺支持,努力于将前沿的 AI 才能.3D 衬着手艺和进步前辈的弄法赋能产物.光影手艺团队正在语义联系.目的检测.分类辨认.GAN 死成对立等圆里均有深沉的手艺积聚,正在 AI 死成范畴曾经停止了相干算法的研收战降天任务.
今朝,QQ.微视等 20 多款营业产物中均有光影研讨室手艺的身影,如脚机 QQ 相机里的抢手 AI 弄法——漫绘脸,和微视 APP 的王者变脸.迪士僧童话脸等.此中,QQ 相机漫绘脸殊效运用的手艺是光影尝试室自研算法 GYSeg,该算法正在 MIT 场景剖析国际比赛(Scene Parsing Benchmark)中斩获冠军;微视 APP 中的迪士僧童话脸殊效则是齐球尾家正在脚机上为用户供给及时特性化 3D 卡通化抽象.
光影尝试室也不断努力于人体姿势迁徙手艺的研讨,此次「照片会舞蹈」恰是针对该手艺的实正降天.取支流人体姿势迁徙手艺计划比拟,用户介入愈加复杂,可玩性更下,完成结果也更好.别的,做为从人脸举措迁徙到人体姿势迁徙的宏大逾越,新删舞蹈功用使得用户正在微视 APP 中的体验愈加丰厚风趣,同时也为用户之间的交换供给了更丰厚的内容.
参考链接:
https://www.sohu.com/a/447487081_114877
https://www.thepaper.cn/newsDetail_forward_8875767
https://www.163.com/news/article/FSRQUCEL00019OH3.html前往new.jpwyj.com,检查更多
未经允许不得转载:新资讯 » 跳舞手脚不协调?没关系,微视用AI打造你我的舞林大会,一张照片就可以
新资讯
评论前必须登录!
登陆 注册