動画認識 (video recognition)

TensorFlowによる動画分類

TimeSformer

動画のフレームに対して、時間軸アテンションと空間軸アテンションと呼ばれる2つのパッチを別々に適応して動画を認識します。

  • 時間軸アテンション … 同じ場所にある別フレームのパッチを比較
  • 空間軸アテンション … 同じフレーム内のパッチを比較
Let's 動画分類! #Python - Qiita

ViViT (Video Vision Transformer)

2~3秒程度の動画に映っている人物の、動作を識別するための機械学習モデル。Video Vision Transformer:ViViTで動画を分類する #深層学習 - Qiita

TimeSformerを画像認識に拡張したのがVision Transfomer (ViT) で、それを動画認識に拡張したのがViViTです。

動作検出 (action detection)

MMAction2

動作検出をできるツールです。GitHub - open-mmlab/mmaction2: OpenMMLab's Next Generation Video Understanding Toolbox and Benchmark

読唇術 (lip reading)

複数の技術系サイトから、まとめて検索