Aller au contenu principal

Data Science : Comment dépasser le stade du POC?

Quels sont les freins à l’industrialisation d’un projet Data Science ? Convictions et retours d’expérience

Cela fait maintenant une dizaine d’années que la Data Science a émergé au sein des entreprises suite à l’explosion du volume de données valorisables notamment. Un chiffre en donne la mesure : plus de 90% des données mondiales ont été créées ces deux dernières années. Cette explosion promet de nombreuses nouvelles opportunités business à condition d’adopter une organisation adaptée.

Depuis maintenant 5 ans, Sia Partners investit massivement dans une équipe intégralement dédiée à l’application de compétences Data Science aux problématiques business de nos clients. Ces années nous ont permis d’effectuer un double constat :  les initiatives Data Science se sont multipliées mais seule une faible partie d’entre elles arrivent à un stade industrialisé.

Ce double constat nous a amené d’une part à comprendre les freins à l’industrialisation des projets Data Science et d’autre part à instaurer des bonnes pratiques à respecter pour les contourner.

Nous sommes intervenus sur ce sujet lors de la session du mois de décembre de la conférence AI&Society afin de partager nos convictions et notre expérience face à un public toujours plus intéressé et averti sur ces questions.

Le POC, à la genèse des projets Data Science

Le Proof of Concept – POC (en français : « Preuve de concept »), est un projet de taille réduite servant à expérimenter un cas d’usage. Il a pour objectif de creuser plusieurs solutions et d’apporter une preuve concrète de leur faisabilité et de leur efficacité.

Utilisé en amont d’un projet plus large, le POC permet de fédérer autour d’une idée et de la concrétiser rapidement sur un périmètre restreint.

Il doit par ailleurs amener les différents acteurs d’un projet à :

  1. Prendre une décision quant à la généralisation et l’industrialisation de l’idée à plus large échelle ;
  2. Permettre de réorienter les efforts en fonction des contraintes techniques identifiées d’une part et de la valeur ajoutée business d’autre part.

La Data Science est un domaine nouveau pour de nombreux acteurs, d’une complexité technique importante et en perpétuelle évolution technologique. De plus, il s’agit d’un domaine transverse rassemblant de nombreux acteurs aux profils variés.

Dans ce contexte, le POC est une étape préliminaire à la réalisation d’un projet Data Science particulièrement adaptée et nécessaire.

Cette étape est primordiale afin d’embarquer des métiers n’ayant que peu de connaissances théoriques sur le sujet. Elle leur permet de tester une version réduite mais concrète de l’outil, de donner leurs retours aux équipes Data Science et de convenir ensemble des ajustements à apporter au prototype développé.

Au delà de son caractère expérimental, de son intérêt en tant que démonstrateur et d’outil d’aide à la décision ; le POC favorise donc le partage et la diffusion d’une culture Data Science au sein d’un département ou d’une entreprise.

Les quatre piliers de succès d'un POC

Au cours des 5 dernières années, nous avons eu l’occasion de développer de nombreux POCs Data Science pour nos différents clients provenant de tout type d’industrie.

Ces expériences nous ont permis d’acquérir des convictions quant aux éléments primordiaux à garantir ou mettre en place pour maximiser les avantages de cette étape préliminaire :

 

  • Le POC doit être centré autour d’un cas d’usage métier précis et cadré  
    Un des facteurs d’échec dans la réalisation de POCs Data Science consiste à vouloir développer une solution sans besoin fonctionnel identifié, en le centrant uniquement autour d’enjeux techniques par exemple. Le produit final sera alors déphasé du besoin métier et peinera à trouver son public d'utilisateurs. Il est fondamental d’intégrer un sponsor métier dès la phase de cadrage assurant la bonne prise en compte des besoins fonctionnels utilisateurs.
  • Définir des KPIs et limiter le POC dans le temps
    Comme évoqué ci-dessus, l’objectif premier d’un POC est de prendre une décision concernant l’industrialisation d’un cas d’usage Data Science identifié. Nous avons pu observer de nombreux POCs qui n’aboutissent pas et s’étalent dans le temps par manque d’éléments concrets qui permettent d’apporter cette réponse.
    Il est donc important de définir en amont des indicateurs techniques et fonctionnels d’une part et une date butoir d’autre part à laquelle une évaluation de la réussite du POC sera menée par rapport aux objectifs fixés en amont.
  • Anticiper les contraintes techniques opérationnelles
    Bien que l’objectif d’un POC soit d’évaluer la faisabilité d’un cas d’usage sur un périmètre restreint, il est important d’anticiper les contraintes techniques opérationnelles : accessibilité et qualité de la donnée, complexité des modèles (calibration et estimation), attentes des utilisateurs quant à l’interface, spécificités de l’architecture SI dans laquelle l’outil devra être industrialisé, etc.
  • Les risques éthiques liés au POC doivent être considérés
    A mesure que l’IA prend un poids croissant dans l’innovation et la stratégie marketing des entreprises, son “bon usage” se trouve placé sous le feu des projecteurs. A mesure que se multiplient les appels pour une IA éthique, les lignes directrices émergent et se traduiront dans un avenir proche en réglementations européennes à l’image du RGPD.
    Prendre en compte la dimension éthique dans la production et le développement des projets d’IA nécessite de naviguer entre deux écueils :
  • Les risques éthiques liés au POC doivent être considérés
    A mesure que l’IA prend un poids croissant dans l’innovation et la stratégie marketing des entreprises, son “bon usage” se trouve placé sous le feu des projecteurs. A mesure que se multiplient les appels pour une IA éthique, les lignes directrices émergent et se traduiront dans un avenir proche en réglementations européennes à l’image du RGPD.
    Prendre en compte la dimension éthique dans la production et le développement des projets d’IA nécessite de naviguer entre deux écueils :
    • Freiner les évolutions liées à l’IA en élaborant un cadre de régulation trop lourd compte tenu du périmètre à organiser, du flux de données à surveiller et de la vitesse de leur évolution.
    • Avoir un rapport trop « mathématiques » à l’IA et accorder la primeur aux enjeux de compétitivité, sous le prétexte que d’autres pays, moins regardant, développeront ces applications si nous ne le faisons pas. 

En cela, nous proposons à nos clients, avec notre département Compliance, un cadre et des outils permettant l’évaluation du risque éthique inhérent aux projets d’IA, sa remédiation, ainsi que des pistes de réflexion autour de la gouvernance à mettre en place pour garantir la prise en compte de l’impact individuel, social, sociétal et environnemental des évolutions liées à l’IA.

Lorsque cette phase préliminaire de POC est un succès, il convient d’envisager la généralisation et la mise en production du cas d’usage identifié. Cependant, nous avons observé que cette phase d’industrialisation de projets Data Science faisait face à d’importants obstacles.

Quels sont les freins à l'industrialisation d’un POC Data Science ?

Comme évoqué précédemment, nous sommes convaincus que la réussite d’un projet Data Science passe nécessairement par la définition d’un cas d’usage business. Il doit également être au coeur des problématiques d’industrialisation. Toutes les contraintes, y compris techniques, doivent être abordées à travers le prisme du besoin métier.

Nous avons listé ci-dessous les principaux freins à l’industrialisation de ce type de projet et partageons quelques clés pour les contourner :

La donnée, le nerf de la guerre

La donnée est primordiale dans la mise en place d’un projet Data Science. Elle sera le facteur déterminant de la qualité des modèles développés. Il est donc fondamental qu’elle soit de bonne qualité et disponible en conditions opérationnelles pour alimenter les modèles d’un projet Data Science.

Dans de nombreux cas, nous avons observé un écart trop important entre la qualité des données utilisées lors de la phase de POC de celles utilisées en conditions opérationnelles.

Dans cette phase d'industrialisation, il conviendra donc de mettre en place les flux de données adéquats et des dispositifs de test et de monitoring permettant d’en garantir la qualité.

Aussi, comme évoqué précédemment, un projet Data Science peut et doit être une opportunité de diffusion de la culture Data en entreprise. Lorsqu’il est un succès, il est important de le promouvoir en en faisant un projet référent dans son domaine et en permettant d’en exploiter les résultats.

Pour cela, nous promouvons l’usage de la technologie API qui permet de centraliser, normaliser, documenter et sécuriser l’accès à la donnée. Ainsi, les données et les résultats d’un projet Data Science à succès pourront être réutilisés par d’autres utilisateurs et faire émerger de nouveaux cas d’usage. L’usage de l’API facilite également les échanges entre les différentes briques SI d’une entreprise.

Éviter l’effet boîte noire pour faciliter l’adoption

Les utilisateurs métiers d’un projet Data Science sont les garants de la cohérence de l’outil et des fonctionnalités qui le composent. Il est donc fondamental pour l’adoption de l’outil que ceux-ci adhèrent à son développement et aux méthodologies mises en place.

Les modèles de Machine Learning (et de Deep Learning) sont des modèles complexes d’un point de vue technique qui présentent un effet boîte noire important pour leurs utilisateurs. Cela se révèle être un obstacle fort à leur adoption.

Il conviendra d’une part de faciliter l’interprétabilité des modèles :

  • par l’utilisation de modèles plus transparents (linéaires du type GLM ou GAM par exemple) qui nécessitent une phase de calibration plus fine mais permettent d’obtenir d’excellentes performances et une meilleure compréhension des anomalies dans les résultats ;
  • par la mise en place de représentations graphiques du fonctionnement d’un modèle (shapley values, indicateurs qualité, …)

D’autre part, les futurs utilisateurs de l’outil doivent d’être “embarqués” dès la phase de cadrage et tout au long du développement. De cette manière, ils sont acteurs du développement de l’outil. La méthode Agile, par son organisation en sprints courts et réguliers ponctués de “démo”, est une méthodologie particulièrement adaptée pour co-construire un projet Data Science entre équipe projet et utilisateurs métiers.

Data Engineering, les compétences clés pour l’industrialisation d’un projet Data Science

Au cours des 10 dernières années, des investissements majeurs ont été réalisés dans le domaine de la Data Science, à la fois en termes d’outils et de compétences, ce qui a permis l’émergence de nombreux POCs innovants et à forte valeur ajoutée business.

Cependant, par leur complexité, les projets Data Science présentent des spécificités techniques (calibration, validation et estimation de modèles notamment) qui complexifient leur intégration dans un système SI existant. Il est donc nécessaire d’acquérir des compétences et de mettre en place des outils adaptés à ces contraintes particulières : le Data Engineering.

C’est pourquoi, depuis un an, nous avons constitué une équipe de Data Engineers et investi dans le développement d’une plateforme Data Science : Heka. Cette équipe et cet outil nous permettent, d’une part, de mettre rapidement (en quelques minutes) à disposition de nos Data Scientists des environnements de développement pour la réalisation de POCs. D’autre part, grâce aux choix technologiques qui ont été faits (Cloud, Kubernetes, Docker notamment), nous sommes en mesure de mettre en production quasi-instantanément les projets ainsi développés, que ce soit au sein de nos environnements ou ceux de nos clients.

 

Nous sommes convaincus que l’accès aux compétences de Data Engineering est et sera l’enjeu au coeur du développement des projets Data Science.

 

Si vous souhaitez en savoir plus sur nos solutions d'IA, rendez-vous sur notre site web Heka : https://heka.sia-partners.com/

 

Contact : david.martineau@sia-partners.com