Au doigt mouillé (et en regardant les petites imperfections), je dirais :
- enregistrement de la vidéo originale avec une boîte de jeu normale (éventuellement avec des motifs de repère collés dessus, pour faciliter le tracking - mais c'est pas indispensable vu qu'il n'y a que 4 points à extraire)
- estimation et extraction des positions de la boîte et de la caméra avec un logiciel de motion tracking
- détourage des différents plans depuis des graphismes 2D
- recréation d'une géométrie 3D "basique" avec plaquage des plans extraits comme textures
- ajout de quelques éléments en "vraie" 3D (les flèches à l'avant-plan)
- ajout des effets (fumée, flammes)
- rendu de la scène 3D conformément aux positions de la boîte et de la caméra extraites
- compositing (soit en plaquant le rendu 2D "au-dessus" de la boîte, soit en rendant transparente la boîte pour faire apparaître la scène 3D "en-dessous" - ça revient au même, mais ça change la façon de calculer les coordonnées 3D)
Mais c'est très loin de ce que je suis capable de faire en pratique, alors je dis peut-être des conneries
