活动类别:中国计算机学会青年计算机科技论坛
活动时间:14:00-17:00
活动日期:2021年4月24日
论坛名称:计算机视觉与自然语言处理如何1+1>2?
地点:欧博官网手机版长安校区 文津楼三段3412(ABG欧博网平台登录学术报告厅)
CCF YOCSEF 西安主办,欧博官网手机版、CCF西安、ACM西安协办
活动日程安排:
报告题目一:跨视觉语言模态的联合语义建模
报告时间:14:00-14:20
报告人:魏忠钰,副教授,博士生导师
报告摘要: 跨视觉语言模态的语义理解和生成是结合计算机视觉和自然语言处理的一个重要课题,有广阔的应用需求,包括图片检索,视力障碍人士的辅助工具以及低龄学童教育支持等。视觉和语言是我们感知和理解外部环境的重要方式,某种程度上说,它们是同一个客观世界的两套表示方法,并且互有侧重。如何在建模时捕捉二者的交互关系和共同的语义表达式一个非常值得研究的课题。在本次报告中,讲者将介绍他们课题组在跨模态语义联合建模方面的一些探索工作。
报告人简介:魏忠钰,复旦大学大数据学院副教授,博士生导师,复旦大学数据智能与社会计算实验室(Fudan-DISC)负责人,自然语言处理实验室(Fudan-NLP)团队成员,现任中文信息学会情感计算专委会(筹)副秘书长,社交媒体处理专委会常务委员兼秘书,青年工作委员会执行委员。主要研究领域为自然语言处理,机器学习和社会媒体处理,专注于结合语言和视觉的多模态信息理解与生成、论辩挖掘和交叉学科应用研究。在自然语言处理、人工智能领域的国际会议、期刊如CL,ACL,SIGIR,EMNLP,ICML, ICLR, AAAI,IJCAI, Bioinformatics等发表学术论文70余篇。担任多个重要国际会议及期刊评审,是EMNLP 2020 多模态领域主席。获得2017年度上海市青年扬帆计划,2019年度中国中文信息学会社会媒体处理新锐奖,2020年华为公司优秀成果奖。
报告题目二:Few-Shot Image and Sentence Matching via Aligned Cross-Modal Memory
报告时间:14:20-14:40
报告人:黄岩 副研究员
报告摘要: The task of image and sentence matching has attracted much attention recently, and many effective methods have been proposed to deal with it. But its intrinsic few-shot problem, i.e., uncommonly appeared instances and words in images and sentences cannot be well associated, is usually ignored and seldom studied, which has become a bottleneck for further performance improvement in real applications. This talk will introduce our recent work on the few-shot image and sentence matching, by proposing an Aligned Cross-Modal Memory (ACMM) model to handle it.
报告人简介:中科院自动化所副研究员,研究方向为视觉语言理解和视频分析。在相关领域的国际期刊和会议上发表论文共计60余篇,曾获CVPR Workshop最佳论文奖、ICPR最佳学生论文奖等。担任CVPR2020和ICCV2019上3次多模态主题研讨会共同组织主席。曾获得中国科学院院长特别奖、中国人工智能学会优秀博士论文奖、百度奖学金、NVIDIA创新研究奖。入选北京市科技新星计划和微软铸星计划。
报告题目三:视频与文本的相关性学习
报告时间:14:40-15:00
报告人:朱霖潮 博士 讲师
报告摘要:近年来,视频与语言学习受到了广泛关注,并取得了许多进展。报告将介绍近期视频语言特征学习中的几种流行的方法,讨论视频与文本相关性学习的进展。报告将讨论多模态建模中几种可行的研究模型,以及这些模型在视频与语言的任务上的创新点。
报告人简介:朱霖潮,悉尼科技大学讲师。分别于浙江大学和悉尼科技大学获得本科与博士学位,2015年和2016年于卡内基梅隆大学访学。曾获得美国国家标准总局TRECVID比赛冠军,EPIC-Kitchens,THUMOS动作识别比赛冠军。2021年获Google Research Scholar奖(在机器感知领域仅有七个获奖者)。研究方向包括视频与语言建模,自监督学习等。
报告题目四:认知启发的视觉-语言技术研究
报告时间:15:00-15:20
报告人:于静 博士 助理研究员
报告摘要:随着网络中海量多媒体数据的快速增长,如何跨越视觉、语言等不同模态数据实现对现实世界更加泛化的分析和推理,对于提升计算机的智能水平至关重要。因此,结合视觉与语言(Vision and Language)是近年来非常热门的一个研究领域。目前解决视觉-语言问题的主流深度学习方法主要依靠观察大量数据“归纳”出输入与输出的关联关系。而我们认为解决这些问题的本质在于让机器真正具有人的“认知”能力,这个报告中,我会基于现有的认知框架,通过介绍我们近期的几个工作,来阐述如何通过改变表征方式、模型架构、任务目标等方法,来探索认知机理启发的视觉-语言技术及挑战。
报告人简介:于静,中国科学院信息工程研究所助理研究员,CCF YOCSEF总部候任AC。于静博士于2019年在中国科学院大学获得博士学位,致力于计算机视觉领域研究,尤其关注于计算机视觉-自然语言相关领域的研究。于静博士在TIP, TMM, PR, AAAI, ACM MM, IJCAI等多个顶级国际期刊和会议发表论文三十余篇,于静博士亦担任TMM, PR, CVPR, ICCV, AAAI, IJCAI等顶级学术期刊会议审稿人。
思辨环节:
时间:15:20-17:00
思辨内容:
1. Transformer在CV和NLP领域各种屠榜,未来能否成为跨模态大一统模型?
2. CV和NLP领域下一个结合点在哪里?
3. 从“大训模型”到“训大模型”,如何做低碳的视觉+语言研究?