Data scientist, le job le plus sexy du 21e siècle

Vous croyez qu’il existe une solution rapide, simple et toute faite pour le traitement des données ? Détrompez-vous ! La science des données (data science) est un processus créatif qui implique souvent de procéder par essai-erreur. L’analyse de données ne repose pas uniquement sur des compétences techniques. Au contraire, des aspects humains, commerciaux et de recherche sont également en jeu.

Les données sont omniprésentes et bénéficient d’un véritable engouement, comme en atteste l’émergence de formations, de séminaires et de belles réussites dans le domaine des (big) data. Tout le monde cherche la perle rare : un data scientist aux talents multiples et aux compétences uniques, capable de résoudre n’importe quel problème, aussi complexe soit-il, en un clin d'œil. Dans leur quête, beaucoup semblent sous-estimer ce qui est véritablement nécessaire pour résoudre de tels problèmes.

Résolution de problèmes dans le monde réel

Un data scientist n’est pas nécessairement un expert en installation d’outils de traitement de données. L’installation et la configuration de plates-formes, de bibliothèques et d’outils ne sont que des préalables à l’innovation dans ce domaine. La data science sert à résoudre des problèmes dans le monde réel, et pas uniquement à appliquer des algorithmes. Même l’algorithme le plus intelligent ne sera d’aucune utilité sans une certaine compréhension préalable du domaine d’application et sans les bonnes données à analyser. Tout part en fait d’une bonne compréhension du business : il convient d’adopter le bon angle d’attaque afin d’appréhender les objectifs et les exigences de chaque projet. Il faut aussi être capable de traduire ces objectifs en solution de data science.

Immersion

La compréhension découle de l’exploration des données et de l’immersion dans le phénomène étudié, ce qui implique d’émettre des suppositions à propos des mécanismes et procédés sous-jacents pour générer des hypothèses.

Les changements que la data science peut entraîner trouvent parfois leur origine dans les plus petits détails. La stratégie déployée avec succès par la société de livraison de colis UPS en est un bel exemple : UPS voulait utiliser des algorithmes pour optimiser ses itinéraires de livraison. L’idée était d’éviter aux conducteurs de tourner à gauche. Résultat ? Pas moins de 38 millions de litres de carburant économisés par an. Et par conséquent, une réduction de 20.000 tonnes des émissions de CO2.

Des compétences analytiques, par la force de l’expérience

La data science requiert des compétences analytiques. Il ne suffit pas de maîtriser des algorithmes. La capacité à résumer et conceptualiser des solutions algorithmiques constitue un prérequis à leur généralisation dans des contextes d’application plus larges.

Par exemple, en février 2013, la revue scientifique Nature a comparé le nombre de visites médicales pour cause d’état grippal prévues par GFT (Google Flu Trends) et par les Centers for Disease Control and Prevention (CDC), l’organisation du gouvernement américain responsable du dépistage, du traitement et de la prévention des maladies. Verdict ? Plus du double du côté de chez GFT. Google a trouvé les meilleures correspondances parmi 50 millions de mots-clés, équivalant à 1.152 points de données. Il y a une forte probabilité de trouver des mots-clés qui semblent indiquer des cas de grippe, mais qui ne permettent pas d’établir des pronostics fiables en raison de l’absence de lien structurel. Pour de plus amples informations, reportez-vous à cet article.

Moralité ? Ce n’est pas parce que les données sont disponibles en nombre qu’on peut faire fi des problèmes fondamentaux de mesure et de construction valide de données. Sans compter que l’arrogance et l’ignorance peuvent être lourdes de conséquences quand elles conduisent à assimiler différents types de données.

Des besoins à identifier

Il est crucial de cibler les besoins en matière de données. L’utilisation de capteurs mesurant divers paramètres opérationnels permet souvent d’obtenir une masse de données historiques (séries chronologiques). Mais il manque les métadonnées essentielles, comme par exemple quelles sont les périodes opérationnelles dépourvues d’anomalies et d’erreurs.

Le 1er février 2003, la navette spatiale Columbia s’est désintégrée à son entrée dans l’atmosphère terrestre. À la suite de la catastrophe, la NASA a publié en 2004 un rapport technique sur une nouvelle méthode de surveillance d’état baptisée Inductive System Health Monitoring (ISHM). Des données ont été extraites de précédents vols où la navette était arrivée à bon port. Elles ont permis de caractériser le comportement normal du système, avec pour objectif de tester la capacité de détecter des anomalies dans les données du dernier vol.

Cette méthode peut être déployée plus largement, notamment pour surveiller le comportement opérationnel d’installations industrielles. Les applications difficiles à modéliser (simuler) par ordinateur sont visées en particulier, tout comme celles qui nécessitent des modèles informatiques trop complexes pour une surveillance en temps réel. Un parc éolien, par exemple.

Des compétences acquises par l’expérience

Un data scientist ne doit (presque) jamais désespérer. Il n’y a pas de solution toute faite à des défis industriels complexes qui ne relèvent pas de la simple agrégation de données et de statistiques. L’innovation en matière de données requiert dès lors une approche professionnelle, artisanale et itérative qui pourrait s’apparenter à de la magie noire. Une compétence qui ne s’acquiert évidemment pas dans un manuel, mais grâce à l’expérience.

Dans le domaine des données, un projet d’innovation ne s’attarde pas sur l’apprentissage automatique standard. La majeure partie du temps est consacrée à la collecte, à l’intégration, au nettoyage et au prétraitement de données. On procède aussi beaucoup par essai-erreur pour la sélection des algorithmes, un processus qui consiste à répéter le schéma 'modéliser > évaluer > raffiner' jusqu’à ce que le résultat soit satisfaisant.

La clé ? Une équipe !

Les données en tant que telles n’ont pas réponse à tout, et le facteur humain restera toujours essentiel dans le processus d’innovation. Tout ne peut pas être automatisé et le bon sens est de mise pour vérifier et valider les résultats. La valeur des données et des algorithmes dépend des décisions humaines qui les accompagnent.

L’innovation en matière de données requiert une combinaison unique de connaissances et d’aptitudes telles que la maîtrise du domaine, la créativité, la réflexion analytique, les statistiques et les systèmes autodidactes, la programmation, la visualisation, etc. Sans oublier une équipe complémentaire, car il est rare qu'une personne réunisse toutes ces qualités.

À TechBoost, un événement organisé le 27 avril par l’association des anciens de l’Université de Gand, Elena Tsiporkova, qui pilote l’Innovation Lab EluciDATA chez Sirris, a brossé le portrait du job le plus sexy du 21e siècle. Son ambition ? Démontrer que les concepts de 'big data' et de 'data scientist’ sont bien plus que des phénomènes de mode.

Un reportage photo (http://www.flickr.com/photos/techboost2017/) et une vidéo (https://www.youtube.com/watch?v=zbEHFO9JaCA) sont disponibles en ligne.