Dans le cadre des séminaires de l’équipe Cornet, Omar Boufous (OrangeLabs) présentera son travail de recherche sur Learning a Correlated Equilibrium with Perturbed Regret Minimization, le 1er juillet 2022 à 11h35 en salle de réunion.
Résumé : Nous examinons le problème de l’apprentissage d’un équilibre corrélé d’un jeu non coopératif fini et présentons une nouvelle procédure d’apprentissage, appelée Minimisation du Regret Perturbé Corrélié (CPRM), à cette fin. CPRM utilise une variante perturbée de la minimisation du regret pour approcher l’ensemble des distributions d’équilibre corrélé et un dispositif de corrélation simple pour stabiliser la distribution empirique de probabilité des profils d’action. Des expériences numériques fournissent des preuves de la convergence à long terme des trajectoires d’échantillonnage réalisées vers des points dans l’ensemble des distributions d’équilibre corrélé approximatives. Des résultats de simulation supplémentaires suggèrent que CPRM s’adapte aux changements dans le jeu, tels que les départs ou les arrivées de joueurs.