多模态视频分类系列：简单综述-轻识

大家好，我是DASOU；

最近在做多模态视频分类，有一些感悟会通过文章分享给大家，今天先发一个简单的综述；

对我朋友圈的朋友可以加我微信【dasounlp】或者公众号主页右下角点击【联系我】，我随时发一些我看过的论文或者感悟，比如下面这种：

然后我插一句哈，有些时候问我问题我没回复不是我高冷~~

一般三种情况，1. 是真的没时间，2. 信息太多我忘了回复，现在每天问我问题的每天几十个信息，有些时候看完没回之后就忘了回复了，3.我觉得问题很简单百度一下就知道；

我也是有工作的，而且贼忙，也比较菜，不是啥都会的，大家也见谅一下~~~~

正文开始：

先从单模态视频分类说起，它分为三个方向去掌握：

上面谈到的这三种方式，其实比较适合很短的视频；

我自己的应用场景其实是长视频，十几分钟甚至几十分钟的视频；视频时间长了，抽取的帧就会相应的变多，那么处理起来就会相当的麻烦

在工业界用到的长视频分类的方法，据我所知，大体是两个重点，一个重点是使用多模态，最重要的是加上文本信息，有的也会加上音频信息；

这点其实很好理解，比如一个【母婴育儿】方向的视频，抽取的帧最好包含母亲或者婴儿或者一些相关物品，才可能会被判定为【母婴育儿】的领域；

但是文字可能就简简单单的几个字就能把【母婴育儿】这个领域的概率拉上去；

所以基于我自己的应用场景，一定要明确一个概念，视频信息只能作为一种补充信息，而不是主要信息来源；

而在推理的时候，我也只会用到哪些 hard examples 进到多模态视频分类这一支网络；

第二个重点也很类似，因为视频信息只能作为补充，所以视频这边的网络最大的作用就是能更好的融合视频信息；

如果视频长度长达几十分钟，资源有限，为了提高推理速度，抽取的帧数也不能太多，比如控制在50个，其实光流信息基本就没啥了，RGBDiff这种基本也没啥了，唯一剩下点的就是时间信息，可能还不多；

所以重点就要放在提取帧的图像信息上，外加看能不能通过网络再把时间信息补充进来，有最好，没有感觉就转为了多模态图片分类；

所以帧的融合方式就会变得很重要；

简单来说，我这个文章的重点就是说，针对长视频，帧数控制在不太大的情况下，常规的网络基本不太实用，要把重点放在图像特征的提取和帧的融合；

特征提取一般就是CNN预训练模型，帧的融合一般就是使用lstm或者NetVlad等；

这个文章算是多模态视频分类的一个开篇，后续会把一些论文文章分享一下，transformer在图像和视频的应用这一块我也在慢慢看一些论文，后续有时间会试试效果。