Desktopアプリケーション開発の技術情報

動画認識 (video recognition)

TensorFlowによる動画分類

TimeSformer

動画のフレームに対して、時間軸アテンションと空間軸アテンションと呼ばれる2つのパッチを別々に適応して動画を認識します。

時間軸アテンション … 同じ場所にある別フレームのパッチを比較
空間軸アテンション … 同じフレーム内のパッチを比較

Let's 動画分類！ #Python - Qiita

ViViT (Video Vision Transformer)

2～3秒程度の動画に映っている人物の、動作を識別するための機械学習モデル。Video Vision Transformer:ViViTで動画を分類する #深層学習 - Qiita

TimeSformerを画像認識に拡張したのがVision Transfomer (ViT) で、それを動画認識に拡張したのがViViTです。

参考

FAIRがTransformerを利用した新たな動画解析モデルTimeSformerを発表！ | DeepSquare (2021/03/26)

動作検出 (action detection)

MMAction2

動作検出をできるツールです。GitHub - open-mmlab/mmaction2: OpenMMLab's Next Generation Video Understanding Toolbox and Benchmark

読唇術 (lip reading)

LipNet 機械の読唇術精度が人間を遙かに上回る93.4%を達成～オックスフォード大やGoogleが共同開発。難聴の人向けサービスにも応用可能 - PC Watch 若杉紀彦 (2016/11/08)
AV-HuBERT Metaが進める「AIによる読唇術」その方法とは（１） - BRIDGE（ブリッジ） (2022/01/09)

複数の技術系サイトから、まとめて検索