7月6日下午,美国罗切斯特大学计算机科学系罗杰波教授应邀访问了自动化所,并做了“视频与语言”的学术报告。此次报告会由模式识别国家重点实验室副主任王亮研究员主持召开。
在此次报告会中,罗杰波教授与自动化所师生分享了他在计算机视觉中多模态理解的研究成果和心得。他首先介绍了计算机视觉与数据挖掘中的一些经典问题和视频理解的问题背景。其次从视觉行为分类问题开始,介绍了他们团队在CVPR 2009提出的一个行为识别模型,该模型是当时第一个做实际视频识别任务的,其中提出的UCF11数据集是目前广泛应用于视频行为识别学术研究UFC101的前身;然后介绍了无监督下自然文本与视频行为的匹配模型,该模型利用经典的CRF方法建立视频中区域和文本关键词的联系;接着,罗杰波教授介绍了其团队在CVPR 2016上提出的利用语义注意机制解决图像描述的模型,这一模型首先利用大量web图像描述数据,预先训练了一个图像语义检测器。通过CNN作为图像编码器,LSTM作为文本解码器,以及语义注意模型机制,最终提出的模型在当时Microsoft Coco竞赛上取得了第一名的成绩;然后介绍了其团队发布的TGIF视频描述数据集,与之前的视频描述数据集相比,该数据集在视频数量和视频内容的动态性上都有了较大的优势;最后,罗杰波教授总结当前人工智能的发展水平,并对未来人工智能的发展做了进一步的预估和分析。
在报告会提问环节,场内师生对罗杰波教授的研究领域表现出了浓厚的兴趣,并对相关研究方向上的问题做了进一步的提问,罗教授也对所提问题进行了认真的回复。此次研究报告让大家对视频与语言的多模态问题了有了进一步的理解,也给大家今后的研究方向和方法带来了新的启发。