動画のフレームに対して、時間軸アテンションと空間軸アテンションと呼ばれる2つのパッチを別々に適応して動画を認識します。
2~3秒程度の動画に映っている人物の、動作を識別するための機械学習モデル。Video Vision Transformer:ViViTで動画を分類する #深層学習 - Qiita
TimeSformerを画像認識に拡張したのがVision Transfomer (ViT) で、それを動画認識に拡張したのがViViTです。
動作検出をできるツールです。GitHub - open-mmlab/mmaction2: OpenMMLab's Next Generation Video Understanding Toolbox and Benchmark