Sommaire
A propos de l'auteur
Max Kalmykov est vice-président des médias et du divertissement chez DataArt.
Les radiodiffuseurs et les studios de cinéma commencent à explorer le potentiel énorme des technologies modernes pour apporter une nouvelle génération de divertissement filmé à nos téléviseurs et nos cinémas. L'intelligence artificielle, l'apprentissage automatique et l'apprentissage en profondeur sont les mots-clés qui enthousiasment les dirigeants vidéo en leur promettant de nouvelles capacités révolutionnaires pour la création et le montage de vidéos.
L’apprentissage en profondeur, en particulier, est la nouvelle frontière de l’industrie de la vidéo, permettant aux professionnels de la vidéo de faire automatiquement des choses qui auraient pris des semaines de travail dans le passé, ainsi que des choses qui n’auraient pas du tout été possibles. En quoi l'apprentissage en profondeur est-il différent des autres algorithmes d'apprentissage automatique? Et quelles sont ses applications pratiques pour la diffusion et le divertissement filmé? Quelles sont la science et ses ramifications commerciales?
Intelligence artificielle, apprentissage automatique et apprentissage en profondeur
L'intelligence artificielle est toute tentative visant à faire apparaître un ordinateur comme doté d'une intelligence. On peut dire à l'ordinateur exactement quoi faire dans une situation donnée, auquel cas il n'a rien appris. L'apprentissage automatique cherche à permettre à l'ordinateur d'apprendre à effectuer certaines tâches. Il existe différentes méthodes pour le faire, et presque toutes reposent sur l’ordinateur qui modifie les paramètres de manière répétée au moyen d’un processus d’essais et d’erreurs. L’une des manières les plus complexes de procéder consiste à imiter les neurones d’un cerveau biologique. Lorsque nous fabriquons ces cerveaux artificiels, ou réseaux de neurones, plus complexes, nous acquérons un apprentissage en profondeur.
L'apprentissage en profondeur permet à un ordinateur de prendre quelque chose de complexe en entrée, tel que tous les pixels d'une image vidéo, et de produire quelque chose d'aussi complexe, tel que tous les pixels d'une nouvelle image de vidéo altérée. Par exemple, les images contenant des grains non désirés peuvent être affichées et leur sortie doit être comparée à des images non modifiées. Par essais et erreurs, il apprend à supprimer le grain de l’entrée. Au fur et à mesure que les images passent, il peut apprendre à faire la même chose pour des images qu’il n’a jamais montrées.
Peut-être la première utilisation impressionnante de l'apprentissage en profondeur a-t-elle eu lieu lorsque Google a formé un réseau de neurones pour jouer à Go, le célèbre jeu de plateau difficile et complexe. Le jeu est beaucoup trop complexe pour que les instructions humaines créent un adversaire viable, et un réseau de neurones à une seule couche n'aurait jamais été suffisant. L'apprentissage en profondeur a rendu cela possible.
L'apprentissage en profondeur est également utilisé pour une grande variété de tâches. Il est utilisé pour faire correspondre la parole générée avec la parole humaine, de sorte que les programmes de synthèse vocale paraissent plus naturels. Dans une tâche similaire, il est utilisé par les entreprises de traduction pour enseigner aux ordinateurs comment traduire d'une langue à une autre. Les voitures autonomes sur lesquelles travaillent plusieurs entreprises sont entraînées par un apprentissage en profondeur. Les services marketing l'utilisent pour connaître les habitudes des clients et deviner le comportement d'un client donné et les stratégies auxquelles ils répondront le mieux. Les assistants numériques l'utilisent pour mieux comprendre les demandes que nous en faisons.
Apprendre en profondeur pour la télévision et le divertissement filmé
Il existe de nombreuses possibilités d'appliquer des techniques d'apprentissage approfondi dans le domaine de la production vidéo, du montage et du catalogage. Mais la technologie ne se limite pas à l’automatisation de tâches répétitives; il peut également améliorer le processus de création, améliorer la diffusion vidéo et aider à préserver les archives vidéo gigantesques conservées par de nombreux studios.
Génération et montage de vidéos
Warner Bros. a récemment dû dépenser 25 millions de dollars en rediffusions pour la «Justice League». Une partie de cet argent a été consacrée à l'élimination numérique d'une moustache que la star Henry Cavill avait développée et ne pouvait pas raser en raison d'un engagement qui se chevauchait. Il ne s’agit pas uniquement de «Justice League» – la phase de post-production de tout film prend du temps et coûte cher. L'apprentissage en profondeur changera la donne pour ces types de tâches.
Des solutions simples à utiliser, telles que Flo, vous permettent d'utiliser l'apprentissage en profondeur pour créer automatiquement une vidéo en décrivant ce que vous souhaitez. Le logiciel trouvera les vidéos pertinentes de votre bibliothèque et les éditera ensemble automatiquement.
Google possède un réseau de neurones pouvant séparer automatiquement le premier plan et l'arrière-plan d'une vidéo. Ce qui nécessitait auparavant un écran vert peut maintenant être réalisé sans équipement spécial.
Deepfakes a beaucoup fait les manchettes récemment – quand le visage d'une personne est mis sur une vidéo d'une autre, de même que des portraits profonds qui appliquent du mouvement à des images fixes comme la Mona Lisa. Les utilisations potentielles de cette technologie dans les effets spéciaux sont vastes.
Par exemple, le problème de la moustache chez Warner Bros, qui a entraîné Henry Cavill dans une controverse avec les fans. Cavill avait besoin de faire pousser une moustache pour Mission: Impossible – Fallout, et en même temps, de reprendre des photos pour Justice League. Cavill avait la moustache pour Fallout, mais devait être rasé de près pour Superman. Il a choisi de garder la moustache. L’équipe de rédaction de la Justice League a donc dû retirer numériquement la lèvre poilue de chaque scène qu’il avait filmée.
Malheureusement, cela a été remarqué par les fans et cela a provoqué beaucoup d'histoires. Si les amateurs travaillant à domicile peuvent mettre Nicholas Cage dans des films qu’il n’avait jamais utilisés avec des outils d’apprentissage approfondis, on ne peut que deviner combien de temps et d’argent auraient pu économiser à remplacer Henry Cavill par Henry West.
Restauration vidéo
Selon les archives cinématographiques et télévisuelles de l'UCLA, près de la moitié des films produits avant 1950 ont disparu. Pire encore, 90% des copies de film classiques existantes sont en mauvais état. Le processus de restauration de ces films est long, fastidieux et coûteux. C'est un domaine dans lequel l'apprentissage en profondeur va faire une différence majeure.
Le processus de colorisation des images en noir et blanc a toujours été long. Il y a des milliers d'images dans un film et leur coloration prend beaucoup de temps. Même avec des outils avancés, le processus peut seulement être automatisé. Grâce à Nvidia, l'apprentissage en profondeur peut désormais considérablement accélérer le processus, avec des outils qui ne nécessitent qu'un artiste pour colorier une image d'une scène. À partir de là, le réseau d'apprentissage en profondeur gère automatiquement le reste.
Un problème antérieur à la démonstration était celui des images manquantes ou endommagées d'une vidéo. Vous ne pouvez pas effectuer de nouvelles prises de vue sur quelque chose qui s'est passé il y a des années.
Restaurer ce type de film avant signifiait éditer les images manquantes. À présent, les réseaux d'apprentissage en profondeur de Google visent à changer cela. Ils ont développé une technologie capable de recréer de manière réaliste une partie de la scène en fonction des images de début et de fin.
Reconnaissance de visage / objet
En détectant les visages de chacun dans une vidéo, l'apprentissage en profondeur peut vous permettre de classer rapidement une collection de vidéos. Vous pouvez, par exemple, rechercher un clip ou un film ayant un artiste donné. Vous pouvez également utiliser la technologie pour compter le temps d'écran exact de chaque acteur dans une vidéo. Sky News a récemment utilisé la reconnaissance faciale pour identifier des visages célèbres lors du mariage royal.
La technologie ne se limite pas à la détection de simples visages. Les émissions sportives s'appuient sur des caméramans pour suivre les mouvements de la balle ou pour identifier d'autres éléments clés du jeu, tels que l'objectif. À l'aide de la reconnaissance d'objets, des outils à base d'IA peuvent être utilisés pour automatiser la production d'une émission sportive.
Analyse vidéo
Bien que Flo puisse identifier le sujet d’une scène et utiliser ces données pour générer une vidéo sur ce que vous voulez, cette même technologie peut également être utilisée pour trier et classer les vidéos afin de faciliter la recherche d’un morceau de film particulier en recherchant simplement des personnes ou des vidéos. les actions qui y figurent.
Cela pourrait être utilisé pour détecter et supprimer les contenus indésirables des vidéos afin de s'assurer qu'ils restent adaptés à un public cible. Dans le même ordre d'idées, il pourrait être utilisé pour faire correspondre de nouvelles vidéos avec d'anciennes vidéos qui intéressent une personne et lui fournir une liste de recommandations personnalisées.
Mieux Streaming
Alors que nous passons au streaming 4k et que les fabricants de téléviseurs commencent à déployer des écrans 8k, le streaming utilise plus de données que jamais auparavant. Quiconque a une mauvaise connexion sait à quel point cela peut être un problème. L'utilité d'un écran 4K brillant est affaiblie si votre connexion Internet ne parvient pas à gérer la bande passante pour en tirer pleinement parti. Grâce aux réseaux de neurones capables de recréer des trames haute définition à partir d'une entrée basse définition, nous pourrions bientôt diffuser des flux basse définition sur notre connexion Internet, tout en profitant de la gloire haute définition dont nos écrans sont capables.
L'avenir
L’apprentissage en profondeur dans les films et les émissions n’a que commencé à grignoter ce qu’il sera utilisé à l’avenir. Je pense que son avenir dans le secteur de la vidéo est particulièrement prometteur. Cependant, comme pour toutes les nouvelles technologies, l’apprentissage en profondeur n’est pas sans inconvénient. Comme pour deepfakes ou l'utilisation abusive de la reconnaissance du visage, l'évolution rapide de cette technologie soulève des préoccupations légitimes en matière de confidentialité et de confiance.
Comme pour toute nouvelle technologie, l’industrie doit résoudre divers problèmes. L’industrie de la vidéo et les experts techniques doivent s’unir pour élaborer les normes de ce à quoi pourrait ressembler la nouvelle normalité de demain. Cependant, avec la bonne approche, les avantages de cet ajout à la boîte à outils seront plus importants qu'on ne l'imagine maintenant, et, tout comme l'avènement des "talkies" et du film couleur, l'apprentissage en profondeur apportera le film et la télévision à un tout autre monde. nouveau niveau.
Max Kalmykov est vice-président des médias et du divertissement chez DataArt.