Aux manettes de la mission "intelligence artificielle" du groupe Les Échos - Le Parisien, Violette Chomier en est également sa Chief data officer. Pour Décideurs, elle revient sur le chantier de transformation digitale basé sur l’IA mené par ses équipes.

Décideurs. Quel a été le cheminement du groupe en matière d’IA ?

Violette Chomier. La vague de l’IA générative a fait ré-émerger des sujets d’IA plus classiques que nous menions déjà en interne. Dans un groupe de presse comme le nôtre, l’IA reposait jusqu’alors sur du machine learning, avec du clustering d’audience pour analyser le comportement des lecteurs. Le topic analysis nous sert, quant à lui, à identifier quels contenus convertissent le plus vers un abonnement. Enfin, comme n’importe quel service d’abonnement, les algorithmes de prédiction sont essentiels pour connaître notre churn [terme anglais qui désigne la perte de clients ou d'abonnés, ndlr], la propension à s’abonner ou la détection de fraude.

Comment avez-vous intégré l’IA générative (IAG) à vos process ?

Très tôt, notre CEO, Pierre Louette, a été conscient de la façon dont l’IA pouvait transformer notre industrie. Nous avons donc lancé des task forces pour prioriser les cas d’usage favorisant un ROI élevé. Le groupe de travail consacré à l’IA, dont j’ai la charge, anime une communauté où tous les métiers du groupe sont représentés. C’est également l’occasion pour nos développeurs de tester les nouvelles solutions d’IA disponibles sur le marché. Sur le plan éditorial, nous avons rapidement convenu que nous ne souhaitions pas utiliser l’IA sans supervision humaine dans le cadre d’un contrat de confiance avec nos lecteurs. Preuve en est, nous avons été le premier groupe de presse français à diffuser une charte dédiée. Excepté dans nos rédactions, nous utilisons l’IAG pour consolider nos bases de données. À titre d’exemple, elle peut nous aider à améliorer la diffusion en créant du multimédia de façon native avec du speech to text ou du text to video. Une aide précieuse pour adapter de multiples contenus à différentes plateformes de diffusion.

Parmi vos multiples projets, vous avez décidé d’améliorer la qualité de vos bases de données. Quelle en a été la genèse ?

Le point de départ du projet repose sur une question de notre CEO de savoir "qui sont nos 100 clients VIP groupe ?". Nous étions en incapacité de répondre à cette interrogation "100% data" puisque nous n’avions jamais regroupé les interactions entre nos différentes structures. Avec 35 marques consacrées, entre autres, à l’événementiel ou la radio, notre groupe va bien au-delà de la presse.

"Sur le plan éditorial, nous ne souhaitions pas utiliser l’IA sans supervision humaine dans le cadre d’un contrat de confiance avec nos lecteurs"

Après notre passage sur une architecture tech simple et au niveau du marché, nous avons travaillé sur la phase d’ingestion pour mettre en place un système d’architecture de données le plus fluide possible. Il contient trois particularités : l’absorption de données en temps réel, la vérification de la validité des adresses e-mail et postales en notre possession et une architecture ELT (extract, load, transform) plutôt qu’ETL. Ce dernier élément signifie que nous transformons les données en bout de course pour permettre aux métiers d’adapter leurs cas d’usage à la dernière minute, le plus près possible des outils d’activation comme le mail, le SMS ou le push. En vérifiant nos données d’envoi, nous avons également rectifié 12% de nos adresses postales, utiles pour un média papier comme le nôtre. Lorsque l’on passe de deux à trois moyens de contact, on baisse le taux de churn.

Enfin, la phase de déduplication a été cruciale. Elle nécessite de bien comprendre les données, les business models et cas d’usage. Si vous êtes cinq personnes abonnées aux Échos par le biais de votre entreprise qui avait renseigné le nom "service achat", il nous fallait prendre en compte que la règle du "nom et prénom" ne fonctionnait pas dans ce cas précis. À l’inverse, quand des concouristes indiquent plusieurs adresses mail avec des noms, prénoms et adresse postale identiques pour gagner cinq places à Disneyland Paris, nous avons intérêt à bien les dédupliquer. Les cas d’usage se déclinent donc par centaines.

De quelle façon l’IA générative vous a-t-elle aidé à mener ce grand projet ?

Nous avons utilisé de l’IAG dès l’étape de l’harmonisation des données. Fin 2022, nous avons lancé une gouvernance de la donnée au niveau groupe. Avec toutes nos entités, nous avons déterminé la quinzaine de données les plus monétisables. Les données métiers sont apparues être les plus intéressantes au vu de notre empreinte BtoB. Problème, certaines marques avaient historiquement laissé un champ libre dans le renseignement des sections, ce qui a entraîné le référencement d’environ 6000 métiers. ChatGPT nous a aidé à catégoriser les métiers en fonction des catégories que nous avions prédéfinies.

"Fin 2022, nous avons lancé une gouvernance de la donnée au niveau groupe"

Puis, dernière phase, celle de l’enrichissement. En fonction des cas d’usage, nous affinons nos bases de données. Désirons-nous identifier les cent clients les plus sensibles à l’art ou les cent qui génèrent le plus de chiffre d’affaires au groupe ? Sur la base d’un exemple illustratif, imaginons que de 21 millions de lignes au départ, celles-ci soient rattachées à 15 millions de profils, puis à 13 000 après la déduplication. Soit 13 000 profils avec un métier et une fine appétence de navigation que l’on peut filtrer en cent clients hyper qualifiés. Ce travail titanesque n’a pas uniquement servi à répondre à notre CEO. À travers différents cas d’usage, nous pouvons vendre de la publicité au mieux, créer des événements sur mesure, qualifier nos algorithmes ou acheter des bases de données plus pertinentes. À l’avenir, nous pourrions même détecter des opportunités de cross-sell.

Vous pensez-vous mature sur ces sujets de transformation digitale ?

À mon arrivée il y a cinq ans, j’avais en tête le "puzzle" de ce que voulais faire du pôle Data. Les pièces s’assemblent plutôt bien actuellement. L’équipe que je conduis est mature, notre "stack technique" [l’ensemble des technologies utilisées pour faire fonctionner un process dans une entreprise, ndlr] est au niveau sur toutes les briques. Nos outils sont performants… En somme, les planètes s’alignent. Notre prochain défi sera de travailler sur des cas d’usage d’autant plus massifs.

Mon objectif est de faire entrer mon pôle dans l’ère de la performance. Symbole de cette dynamique, notre département CRM est devenu le pôle Activation, pour détenir des KPI solides, tels que nos envois ou sollicitations clients. Depuis mon arrivée, je mets en place les conditions pour prioriser les indicateurs de qualité et la multicanalité. Pour le premier point, l’un des exemples repose sur la désinscription des abonnés des sollicitations éditoriales et commerciales au bout d’un certain temps d’inactivité. Pour le second, nos outils d’activation vont du mail au SMS en passant par les push sur nos applications, et bientôt sur les réseaux sociaux. En somme, je pense que nous avons su avancer relativement vite dans une approche assez "industrielle" pour un groupe de presse.

Propos recueillis par Léa Pierre-Joseph