Dans le cadre des séminaires de l’équipe Cornet, Andrea Fox (LIA) présentera son travail de recherche sur Safe Reinforcement Learning for Video Admission Control, le 8 décembre 2023 à 11h35 en salle de réunion.
Résumé : Les caméras vidéo mobiles sont devenues une commodité omniprésente et représentent une source candidate importante pour améliorer les applications d’analyse vidéo. Cependant, bien qu’abondantes en quantité, les limites de l’infrastructure informatique périphérique nécessitent une sélection minutieuse des flux vidéo à traiter à tout moment pour maximiser la quantité d’informations extraites par les applications déployées. Dans cet article, nous présentons un schéma de contrôle d’admission pour les flux vidéo mobiles provenant de différentes zones et envoyés à plusieurs serveurs de traitement sur une infrastructure informatique périphérique. Nous introduisons un modèle ancré dans la théorie des Processus de Décision Markoviens Contraints (CMDP) qui capture le problème d’assurer une couverture adéquate des zones pour les applications, tout en tenant compte des contraintes des serveurs périphériques et de la capacité du réseau d’accès. Sur la base de ce modèle, nous développons deux nouvelles politiques basées sur des méthodes spécialisées d’apprentissage par renforcement contraintes primal-dual qui résolvent le problème de contrôle d’admission optimal. La première, appelée DR-CPO, adopte la décomposition des récompenses de l’apprentissage par renforcement. Cette technique atténue efficacement l’explosion de l’espace d’état, atteint l’optimalité et accélère significativement le processus de convergence par rapport aux bases existantes. La deuxième, appelée AS-CPO, utilise des méthodes spécialisées d’approximation de fonction, à savoir l’agrégation d’états, pour obtenir des gains supplémentaires en temps de convergence. Cela se fait au prix de la sous-optimalité, mais dépasse encore les bases standard d’apprentissage par renforcement profond. Des résultats approfondis montrent que notre solution obtient une récompense 13 % plus élevée que les bases dans une grande variété d’environnements, nécessitant en moyenne seulement 9 % du temps pour converger vers l’optimalité.