引言
视频预测[1]旨在通过分析现有的视频帧来预测未来帧的内容,是一项逐像素的预测任务。视频预测对于自动驾驶[2]、动作预测[3]、天气预测[4]等领域具有重要研究意义。与图像分类和目标检测等传统的计算机视觉任务不同,视频预测要求模型在时间和空间维度上双重建模,从而捕捉到场景的动态变化和长期的依赖关系。然而,视频中物体突然变化的运动轨迹以及复杂多样的背景信息使得预测任务变得困难。
以往的视频预测模型主要是基于卷积长短期记忆网络(Convolutional Long Short-Term Memory, ConvLSTM)[4]及其一系列变体来建模时空特性。ConvLSTM通过在长短期记忆网络(LSTM)单元中引入卷积运算,有效地捕捉了时空数据中的局部空间特征和全局时间动态。其变体PredRNN[5] (Predictive RNN) 提出了一种新的时空记忆单元,并将状态信息沿之字形进行水平和垂直方向的传递和更新。PredRNN++[6]在PredRNN基础上进行改进,提出了因果长短时记忆单元(Causal LSTM)和梯度高速公路单元(Gradient Highway Unit, GHU)来对长短期时空依赖进行自适应学习,并缓解梯度消失问题。同样采用此递归循环策略来进行模型推理的还有MIM (Memory In Memory)[7] 、 E3D-LSTM(Eidetic 3D LSTM)[8]、MAU (Motion-Aware Unit)[9]、MotionRNN (Motion Recurrent Neural Network)[10] 等。这些递归模型通过学习历史信息的隐藏状态来生成预测帧,当前帧的生成依赖于上一帧的预测帧。然而,随着预测帧序列的长度增加,早期预测帧中的误差会被逐步传递和累积,导致后续预测帧的质量和准确性逐渐下降。
近年来的方法中,SimVP(Simpler yet better Video Prediction)[11]打破了这种依靠循环神经网络(RNN)堆叠的单帧输入单帧输出架构的局限性。该方法完全依赖卷积来建模时空相关性,采用多帧输入多帧输出(MIMO)的架构,将所有输入一次性输入到编码器中,并从解码器输出所有预测帧。后续相关工作进一步改进了时间注意力单元(Temporal Attention Unit,TAU)[12],专注于帧内和帧间相关性。朱俊宏等[13]也提出了一种卷积与内卷算子结合的中间模块,让模型拥有多个不同大小的感受野,来提高模型的准确性。李卫军等[14]通过建立门控时空注意力机制来学习时空变化特征,取得一定效果。虽然此类方法取得了一定研究进展,但仍然存在一些需要改进的问题。例如,此类方法都采用编码器、翻译器、解码器结构,将高维的视频序列通过卷积下采样转换为低维的潜在表示,再经过翻译器进行时空的学习,最后由解码器完成对视频序列的预测。此过程通过跨步卷积下采样实现降维,会造成像素的丢失,导致图像细节被忽略,从而导致预测帧细节不够清晰的问题。其次,翻译器在捕捉时空信息方面的不足是导致视频预测效果不理想的关键因素。
针对以上问题,本文提出了基于边缘增强和多尺度时空重组的视频预测方法,具体贡献如下:
(1)引入小波变换分离高低频特征并实现下采样操作,避免了卷积下采样造成的像素信息丢失的问题,有效地保留了图像的细节特征。
(2)设计了一种高频边缘增强模块,通过一阶 Sobel 卷积算子提取垂直和水平边缘信息,并结合小核卷积对边缘特征进行精细化增强处理,提升模型对高频信息中细节和纹理特征的敏感性。
(3)设计了一种多尺度时空重组模块,采用不同尺度的卷积核对视频的时空信息进行提取,并通过交叉连接进行交互式特征重组,强化了不同感受野下时空信息的融合能力,实现更丰富的时空特征表达。
本文详细内容请下载:
http://www.chinaaet.com/resource/share/2000006373
作者信息:
吴孔贤,郑明魁
(福州大学 物理与信息工程学院,福建福州350108)