深研院信息工程学院邹月娴教授课题组在人工智能顶级会议AAAI上发表论文

最近,88js.com:视觉和语言的多模态任务,例如图像字幕和视觉问题解答(VQA),引起了学术界和工业界的广泛兴趣。但是,大多数现有的模型都专注于单个任务。深圳研究生院信息工程学院邹月娴教授课题组研究发现,这些任务存在一定的相似性,因此认为如果模型可以同时考虑这些多模态问题,则可以共同学习来自不同任务的不同知识,并且很有可能提高每个任务的效能。

近日,邹月娴课题组的研究“Federated Learning for Vision-and-Language Grounding Problems”被在美国纽约举行的第34届人工智能发展协会(AAAI)人工智能会议(AAAI Conference on Artificial Intelligence, AAAI 2020)接收发表并以口头汇报(Oral)的形式进行了展示。该研究成果提出了一种联邦学习框架,可以从不同的任务中获得各种类型的图像表示,然后将它们融合在一起以形成细粒度的图像表示。这些图像表示融合了来自不同视觉和语言的多模态问题的有用图像表示,因此在单个任务中比单独的原始图像表示强大得多。为了学习这种图像表示,该课题组提出了对齐(Aligning)、集成(Integrating)和映射(Mapping)、网络(aimNet)。aimNet由一个对齐模块,一个集成模块和一个映射模块组成(如下图)。

2019级硕士生刘峰林为该论文第一作者,邹月娴为通讯作者,该工作得到了数字视频编解码技术国家工程实验室、深圳市发改委(数据科学与智能计算学科发展计划)和Aoto-PKUSZ联合实验室的支持。

转载本网文章请注明出处

加博国际网 k7娱乐城会员开户 msc41.com tt私网代理最高占成 登峰娱乐开户送88元
39suncity.com 189msc.com 169msc.com 358tyc.com 176tyc.com
115tyc.com sbc94.com sun671.com msc635.com sb281.com
金博士网上直营 551sb.com 申博现金网登入 38.sb yh4.com