作者:
(1) Dinesh Kumar Vishwakarma,印度德里理工大学信息技术系生物特征识别研究实验室;
(2) Mayank Jindal,印度德里理工大学信息技术系生物特征识别研究实验室
(3)阿尤什·米塔尔(Ayush Mittal),印度德里理工大学信息技术系生物识别研究实验室
(4)阿迪亚·夏尔马(Aditya Sharma),印度德里理工大学信息技术系生物识别研究实验室
电影情节/描述是描述电影的重要特征。在大多数情况下,上映电影中提到的情节要么太短,要么在某些情况下没有提及。考虑到这一点,我们选择使用从电影预告片中提取的对话与描述相结合来最终预测电影类型,如第 4.2 节详细讨论的那样。描述是从 IMDB 网站获取的元数据,如第 3 节所述。
在本节中,我们提出了一种架构来处理预告片音频中的对话列表(将描述/情节连接到对话),以预测电影类型。此流程的重要步骤包括:(1)从电影预告片中提取语音(对话)和(2)设计一个模型,根据语音和元数据预测类型。
从 (.mp4) 视频预告片中提取 (.wav) 格式的音频文件。接下来,将音频文件分成小的音频片段,并按照 [17] 中提出的方式转换为对话。收集所有文本以形成输入语料库。描述/情节(如果在元数据中可用)也会合并到这个语料库中。我们的研究仅针对英语预告片。就像电影情节一样,从预告片中提取的语音可以作为我们文本语料库的补充,有助于更好地理解文本上下文和电影类型之间的关系。在我们的训练/测试阶段为每个预告片生成一个记录的语料库后,进行了以下预处理步骤:将所有文本转换为小写,删除数字、标点符号、停用词和网络链接。上面获得的文本用于作为模型/预训练模型的输入进行训练/测试。
为了构建基于认知的体裁检测架构,需要通过模型学习文本语料库形式的预告片的关键特征。这可以通过结合使用嵌入层和 CNN(卷积神经网络)层来实现。表 3 中描述了多标签分类网络的各层。嵌入是 NLP 问题中常用的技术之一,用于将单词转换为数字向量形式的数学表示。
在实际将输入发送到架构之前,需要设计词汇表,并确定每个数据点的语料库的大小。设计一个大小为 10,395 个单词的词汇表,并将每个语料库中单词的最大长度设置为我们训练语料库中最长句子的长度,在我们的例子中是 330。如果语料库中的单词数小于最大长度,则用 0 填充语料库。对于 2-3 分钟的电影预告片,330 个单词就足够了,因为预告片的某些部分可能没有语音(可能只有人声)。
现在,对于输入数据中的每个语料库,我们都有一个形状为 (330,) 的输入(330 是每个数据点中的单词数),该输入被馈送到我们架构的第一层(如图 2 所示),即嵌入层。嵌入层给出维度为 (330, 64,) 的输出,因为在我们提出的架构中,每个单词的嵌入长度为 64。
在嵌入层之后,嵌入层的输出被输入到 1-D 卷积层。同样,卷积层的输出形状为 (330, 64,)。为了获得相同的输出,我们将填充均匀地应用于卷积层的输入。接下来,使用最大池化层将数据的维度从 (330, 64,) 降低到 (165, 64,)。架构之后是平坦层,用于将二维数据转换为一维数据,以进一步将输出发送到密集层。
如表 3 所示,扁平层的输出形状为 (10560,),该输出被馈送到密集层作为输入,并产生 (32,) 的输出形状。最后,将最终密集层应用于架构,返回表示我们五种类型的输出形状 (5,)。在我们架构的最终密集层中,我们使用“Sigmoid”作为最适合我们的多标签分类问题的激活函数。
本节包括我们针对电影预告片的视觉特征提出的工作。此流程的主要步骤包括:(1) 从预告片中获取视频帧,(2) 从帧中提取场景,(3) 构建架构以最终将预告片分类为不同类型。
提出了一种新颖的基于情境的视频分析模型,通过从视频中提取的每一帧来提取情境和事件作为视觉特征。因此,通过将它们收集在一起来创建语料库以训练/测试模型。
据我们所知,我们提出了一个新颖的框架,通过融合情境、事件和对话分析来进行体裁分类。有关该框架的更多详细信息将在以下部分中描述。
经过使用一些电影预告片子集进行各种实验后,发现每 10𝑡ℎ 帧取一个有利于避免帧冗余(视频中的连续帧看起来相似)。因此,在丢弃冗余帧后,最终考虑的视频帧可以表示为等式 (9):
在后续章节中,我们将考虑每个预告片的这些帧。
而情况S属于图像I的概率可以表示为如式(11)所示。
𝛼 表示我们的神经网络的参数。现在,我们可以按特定顺序定义图像中的语义角色。因此,进一步将等式 (12) 简化为等式 (13)。
公式(13)可进一步简化为公式(14)。
对于给定的特定图像/帧,将考虑该图像具有公式 (14) 中定义的最大值概率的情况。
现在,该任务已转换为文本分类任务,我们将针对该任务提出模型架构,如后面几节所述。在进行下一步之前,先进行文本预处理:将所有文本转换为小写,消除数字、标点符号和停用词,如第 4.2.1 节所述。在测试过程中执行相同的步骤以预测电影预告片类型。
提取视觉特征后,需要一个强大的架构来对预告片的最终类型进行分类。该模型与我们在对话流中提出的模型不同。这里提出了 TFAnet(词频人工神经网络),它由一个密集层和 dropout 层的深度网络组成,如图 4 所示。
在介绍所提出的架构之前,我们将先讨论一下 [19] 中如何使用 TF-IDF 进行文本表示。对于这种架构,建议使用每个数据点语料库中的字数。因此,我们使用语料库中的字数作为对电影预告片类型进行分类的特征。为了将大量单词作为特征纳入我们的词汇集,我们在 EMTD 中使用了来自大量上映日期的预告片,以便在训练模型时获得庞大的语料库。我们使用语料库中的一元词、二元词和三元词的组合作为特征,并使用 TF-IDF(词频-逆文档频率)算法将我们的文本表示为数字形式。总共采用的 n-gram 特征约为 34,684。现在,我们基于文本的特征被转换成数学形式,因此接下来训练(人工神经网络)对预告片的类型进行分类。
TFAnet(词频人工神经网络)的架构如表 4 所示。如上所述,输入形状为 (34684,)。此输入被提供给一个密集层,该层给出形状为 (64,) 的输出。然后应用一个 dropout 层以减少过度拟合,其速率为 0.4。再次应用一个密集层,我们得到形状为 (32,) 的输出,然后是一个速率为 0.2 的 dropout 层。最后,应用一个密集层,该层给出形状为 (5,) 的输出,最终以 sigmoid 作为激活函数预测五种类型。
MSD模型训练阶段的算法写为算法1。