设计应用

基于X-Linear和语义嵌入的视频描述算法

作者:李亚杰,关胜晓,倪长好
发布日期:2021-02-23
来源:信息技术与网络安全

0 引言

         视频描述任务是将计算机视觉信息转换为人类能够理解的自然语言句子的描述。将计算机视觉内容理解和自然语言处理两个领域相结合用于解决视频描述是一项极具挑战性的任务。视频描述涉及对许多实体的理解,这些实体包括场景、人物、物体、人的动作、人与物体的交互、人与人的交互、其他事件以及事件发生的顺序等。所有这些信息必须使用自然语言处理(Natural Language Processing,NLP)技术,以一种可压缩的、语法正确的文本表达出来。视频描述任务可以应用于很多领域,如智能安防、盲人导航、视频检索、人机交互等。




本文详细内容请下载:http://www.chinaaet.com/resource/share/2000003378




作者信息:

李亚杰,关胜晓,倪长好

(中国科学技术大学 微电子学院,安徽 合肥230026)

此内容为AET网站原创,未经授权禁止转载。
视频描述 语义嵌入 X-Linear注意力 XLSNet