采用无监督学习的方法,用深度摘要网络总结视频

2022-10-08 22:22:33 第一文档网 [ 字体：小中大 ] [ 阅读： ] [

【#第一文档网# 导语】以下是®第一文档网的小编为您整理的《采用无监督学习的方法,用深度摘要网络总结视频》，欢迎阅读！
深度,摘要,采用,监督,总结
采用无监督学习的方法，用深度摘要网络总结视频

随着在线视频数量的爆炸式增长，想从茫茫网络世界中找到自己想要的视频

可是要费一番功夫。于是有人就想到，何不也给视频创作一份摘要呢？就像书的简介一样，观众只需要看看摘要，就了解视频的大概内容了。

这的确是个好方法，不过面对如此庞大的视频库，如何大批量处理它们呢？在此之前，许多研究者提出了不同的方法为视频大规模创建摘要，例如循环神经网络（RNN）、长短期记忆（LSTM）、双向长短期记忆网络（bidirectional LSTM）和行列式点处理（DPP）模块结合的方式等等。但都是需要监督的总结方式，其中并没有一个针对所有视频的标准答案（ground truth）。所以仍然需要无监督的摘要生成方式。

中科院和英国伦敦大学玛丽女王学院的研究人员就生成视频摘要提出了一种新方法，采用无监督学习的方法，用深度摘要网络（Deep Summarization Network，DSN）总结视频。整个过程为连续决策过程（sequential decision-making process），DSN为编码-解码结构，其中编码器是一个能够提取视频帧特征的卷积神经网络，解码器是一个双向LSTM网络，能够基于被选中的动作生成概率。在训练过程中，研究人员设计了新颖的多样性-代表性奖励（diversity-representativeness reward）函数，可以直接判断生成视频摘要的多样化和代表化。下图是该模型学习过程的图示：

深度摘要网络（DSN）

DSN的编码器是一个卷积神经网络，它从输入的长度为T的视频框架{vt}t=1T中提取视觉特征{xt}t=1T。解码器是一个双向循环神经网络（BiRNN），最上面是完全连接层。将提取的{xt}t=1T输入到解码器后，生成相应的隐藏状态{ht}t=1T。每个ht都是前隐藏状态htf和后隐藏状态htb的连接。在实践中，研究人员采用GoogLeNet当做CNN模型，并且用LSTM训练提升RNN的性能。多样性-代表性奖励函数

在训练时，DSN会接收到一个奖励R(S)，来评估生成的摘要。而DSN的目标是不断生成