本题目:ICCV2021 | 快脚结合北年夜提出多条理比照进修的跨模态检索办法
机械之心专栏
机械之心编纂部 远年去,互联网情况中的多媒体内容少量添加,若何经过视频文底细互检索,晋升用户获得疑息的服从,知足分歧的用户对多媒体内容的消耗需供变得非常主要.跟着短视频内容社区的衰亡,多媒体内容的创做门坎变低,UGC 内容成为支流,视频文本检索义务面对愈加庞大战坚苦的应战.本文针对视频文本检索义务提出条理化比照进修的跨模态检索思绪,完成了愈加下效且粗准的视频文资讯本检索办法,今朝该论文曾经被 ICCV2021 接纳.
论文链接:https://arxiv.org/abs/2103.15049
以后支流的视频文本检索模子根本上皆接纳了基于 Transformer[1] 的多模态进修框架,次要能够分红 3 类:
Two-stream,文本战视觉疑息辨别经过自力的 Vision Transformer 战 Text Transformer,然后正在多模态 Transformer 中交融,代表办法比方 ViLBERT[2].LXMERT[3] 等.
Single-stream,文本战视觉疑息只经过一个多模态 Transformer 停止交融,代表办法比方 VisualBERT[4].Unicoder-VL[5] 等.
Dual-stream,文本战视觉疑息仅仅辨别经过自力的 Vision Transformer 战 Text Transformer,代表办法比方 COOT[6].T2VLAD[7] 等.
因为种别 1 战种别 2 办法正在工夫开支上的限定,本文提出的 HiT( Hierarchical Transformer with Momentum Contrast for Video-Text Retrieval)[8] 模子接纳了种别 3 Dual-stream 的 Transformer 框架,以知足年夜范围视频文本检索的需供.但是现有基于 Transformer 的多模态进修办法会有两个范围性:
Transformer 分歧收集层的输入具有分歧条理的特征,而现无方法并出有充沛应用那一特征;
端到端模子遭到隐存容量的限定,没法正在一个 batch 内应用较多的背样本.
针对上述 2 个范围,本文提出(1)条理跨模态比照婚配(Hierarchical Cross-modal Contrast Matching,HCM),对 Transformer 的底层收集战下层收集辨别停止比照婚配,处理范围 1 的成绩;(2)引进 MoCo[9] 的动量更新机造到跨模态比照婚配中,使跨模态比照婚配的进程中能充沛应用更多的背样本,处理范围 2 的成绩.尝试标明 HiT 正在多个视频-文本检索数据散上获得 SOTA 的结果.
HiT 模子次要有两个立异面:
提出条理跨模态比照婚配 HCM.Transformer 的底层战下层偏重编码分歧条理的疑息,以文本输出战 BERT[10] 模子为例,底层 Transformer 偏重于编码绝对复杂的根本语法疑息,而下层 Transformer 则偏重于编码绝对庞大的初级语义疑息.因而运用 HCM 停止屡次比照婚配,能够应用 Transformer 那一条理特征,从而失掉更好的视频文本检干脆能;
引进 MoCo 的动量更新机造到跨模态比照婚配中,提出动量跨模态比照 MCC.MCC 为文本疑息战视觉疑息辨别保护了一个容量很年夜而且表征分歧的背样本行列,从而克制端到端练习办法遭到隐存容量的限定,只能正在一个绝对较小的 batch 内寻觅背样本那一缺陷,应用更多的背例,从而失掉更好的视频战文本表征.
办法
HiT 模子全体流程如图所示.输出视频颠末视频编码器,输出文本颠末文本编码器,然后正在 2 种收集层级(特性底层.语义下层)上辨别运用 2 种检索体例(文本检索视频.视频检索文本)共完成 4 次跨模态比照婚配.此中编码器皆是基于 Transformer 构造,4 次跨模态比照婚配均运用上文提到的 MCC,构建了 4 个背样本行列战对应基于动量更新的 Key 编码器.
编码器
本文提出的 HiT 模子中,编码器有视频编码器战文本编码器两种,视频编码器接纳 4 层 Transformer 构造,文本编码器接纳 12 层 Transformer 构造.模子的视觉输出包罗视觉特性Embedding.视觉Segment Mask.Position Embedding战Expert Embedding.抽与视频编码器的第一层输入做为视频低层特性,最初一层的输入做为视频下层特性.后文有尝试比照拔取分歧的收集层输入对终极后果的影响.
动量跨模态比照(MCC)
现有的端到端多模态进修办法遭到隐存容量的限定,正在参数更新的进程中,只能正在以后 batch 内拔取很少的背样本停止交互,假如能正在那一进程中参加更多的背样本介入计较,对模子失掉更好的视频战文本表征是有协助的.因而,本文引进 MoCo 的动量更新机造到 HiT 模子中.
以特性搞笑层的比照婚配为例,以下图所示,对视频战文天职别构建背样本行列,对应图中的 Memory Bank,Memory Bank 中存储的表征去自于 Key 编码器.正在特性层共停止了两次比照婚配:(1)文本 Query 编码器取视觉 Memory Bank 比照婚配(2)视觉 Query 编码器取文本 Memory Bank 比照婚配.正在参数更新的进程中,Query 编码器的参数经过梯度降落更新,文本 Key 编码器的参数基于文本 Query 编码器的参数停止动量更新,视觉 Key 编码器的参数基于视觉 Query 编码器的参数停止动量更新.
取单模态的 MoCo 只保护两个相反构造的编码器分歧,本文提出的 MCC 为视觉疑息战文本疑息辨别构建了分歧构造的编码器,并设想了新奇的参数更新体例,处理分歧模态疑息之间因为模态差别而带去的易以劣化的成绩.
条理跨模态比照婚配(HCM)
关于普通的特性提与收集,底层构造倾向于提与输出疑息的低层特性,比方输出文本的根本语法构造;下层收集构造则倾向于提与下层特性,比方输出文本的语义疑息.基于那个特性,本文提出条理跨模态比照婚配,让视频-文天职别正在特性战语义两个条理长进止两次比照婚配,以下图所示.模子共完成 4 次跨模态比照婚配,辨别对应 2 个收集层级(特性层,语义层)战 2 种检索体例(文本检索视频.视频检索文本).每次比照婚配运用 InfoNCE 做为丧失函数,因而终极丧失函数是 4 个 InfoNCE 的减权乞降,本文中权重超参数均设置为 1.
尝试
研讨停止了融化尝试,考证提出的各个模子组件.和分歧参数值对终极后果的影响.
模子正在 MSR-VTT.ActivityNet Captions 战 LSMDC 数据上取其他办法的比照:
考证 MCC 的感化,模子运用 MCC.运用分歧参数的 MCC 对终极后果的影响.能够看出运用 MCC 的 rsum 后果皆劣于已运用 MCC 的模子,而且较为风趣的是,跟着背样本行列 Memory Bank 容量的删年夜,rsum 后果先晋升后降落,由此能够看出,Memory Bank 的容量没有宜设置太年夜.
本文立异天提出条理比照婚配 HCM,尝试比照了分歧的 HCM 战略对终极后果的影响.不外那些战略全体的思绪是相反的,皆是间接拔取文本战视觉编码器某一层的输入,对两者停止比照婚配,那里能否能够有其他的 HCM 战略能够更好天时用 Transformer 的条理特征,有待后绝研讨.
HiT:本文提出的根底 HiT 模子,正在特性层(底层)战语义层(下层)停止了 2 个条理上的比照婚配,特性层婚配拔取 (Video Encoder-Layer-1, Text Encoder Layer-1),语义层婚配拔取 (Video Encoder-Layer-4, Text Encoder Layer-12)
HiT-sl:仅运用语义层的比照婚配
HiT-fl:仅运用特性层的比照婚配
HiT-4-level:除根底 HiT 的 2 个条理中,新删 2 个条理的比照婚配,辨别是(Video Encoder-Layer-2,Text Encoder Layer-5)战(Video Encoder-Layer-3,Text Encoder Layer-9)
HiT-3-level-a:除根底 HiT 的 2 个条理中,新删 1 个条理的比照婚配,对应(Video Encoder-Layer-3,Text Encoder Layer-9)
HiT-3-level-b:除根底 HiT 的 2 个条理中,新删 1 个条理的比照婚配,对应(Video Encoder-Layer-2,Text Encoder Layer-5)
样本行列的 Key 编码器运用基于动量更新的编码器,比照假如运用战 Query 编码器相反的梯度更新战略,能够看出基于动量更新的 Key 编码器更劣:
比照婚配中运用 InfoNCE 战 Triplet Loss,能够看出 InfoNCE 更劣:
模子的视觉输出运用分歧 Expert embedding:
运用分歧特性交融体例,全体均匀池化更劣:
总结
本文将 MoCo 办法引进到视频文本检索的跨模态比照进修义务中,经过构建 MMC 模块既完成视觉战文本编码器的交互拖动更新,同时又完成了年夜范围的背样本比照进修.值得一提的是本文经过 HCM 模块探访了分歧条理的特性婚配的结果,扩宽了支流办法仅运用单一条理维度停止跨模态比照进修的思绪.
HiT 已使用正在快脚多个营业场景中,经过 HiT 发生的embedding,晋升了多模态模子表征才能,对视频检索.图文相干性判别.视频内容了解等模子皆带去了结果的晋升,正在视频智能考核.视频热启动.智能创做等营业场景中发扬主要感化.
参考文献
[1] Attention Is All You Need
[2] ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks
[3] LXMERT: Learning Cross-Modality Encoder Representations from Transformers
[4] VisualBERT: A Simple and Performant Baseline for Vision and Language
[5] Unicoder-VL: A Universal Encoder for Vision and Language by Cross-modal Pre-training
[6] COOT: cooperative hierarchical trans- former for video-text representation learning
[7] T2VLAD: Global-Local Sequence Alignment for Text-Video Retrieval
[8] HiT: Hierarchical Transformer with Momentum Contrast for Video-Text Retrieval
[9] Momentum contrast for unsupervised visual representation learning
[10] BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding前往new.jpwyj.com,检查更多
未经允许不得转载:新资讯 » ICCV2021|快手联合北大提出多层次对比学习的跨模态检索方法
新资讯
评论前必须登录!
登陆 注册