Décryptage: le métier de data scientist

par | Juil 1, 2021 | Décryptage, Entretien expert, Interviews | 0 commentaires

Jeune diplomé de l’école d’ingénieurs ESME Sudria et de l’Université de Paris-Salcay en computer science, intelligence artificielle et data mining, Fabien Lionti a rejoint les rangs de Psycle Research comme Data Scientist depuis Février 2021. Pour indusmakers, il décrypte son métier de Data Scientist. 

Peux-tu nous présenter le métier de Data Scientist?

 

Le métier de Data Scientist consiste à mettre au point des méthodes permettant de comprendre et de traiter de grandes quantités d’information avec des outils informatiques et statistiques.

Ce métier a émergé face à l’augmentation fulgurante de la quantité de données et la puissance de calcul disponible dans le monde au cours de ces dernières années. Jusqu’à présent, ces données représentaient un levier d’innovation et d’optimisation inexploitées pour les entreprises et ce dans tous les secteurs d’activités.

Un Data Scientist est capable d’analyser et de tirer des informations pertinentes à partir de ces masses de données, voire de modéliser des phénomènes de causalités à travers des méthodes de machine learning.

Je pense qu’il y a un grand engouement autour du métier de Data Scientist car aujourd’hui ces algorithmes de machine learning sont capables sur certaines problématiques bien définies de traiter l’information avec un niveau de cognition égal voir supérieur à l’homme (Alpha Go, Les algorithmes de recommandations de Netflix, les voitures autonomes … ).

Credit: Joshua Sortino Unsplash

 

Comment un algorithme d’IA fonctionne-t-il ?

 

Le principe général d’un algorithme d’intelligence artificielle est le suivant :

On lui présente une donnée (une image, un texte, une ligne de tableur excel …) et il nous répond avec une prédiction. Dans le cas d’une image, il peut par exemple nous dire si celle-ci contient une voiture ou un camion. Dans le cas d’un texte, il peut nous dire si celui-ci est porteur d’un message positif ou négatif, et dans le cas d’une ligne de tableur Excel, il est capable de nous dire si notre business se porte bien ou mal (avec beaucoup de simplification).

Un algorithme d’intelligence artificielle est composé d’un nombre plus ou moins grand de paramètres en fonction de sa capacité d’apprentissage. Plus le nombre de paramètres est grand, plus l’algorithme est capable d’apprendre des choses complexes. Cependant, plus le nombre de paramètres est grand et plus il faut une grande quantité de données pour que l’algorithme apprenne correctement.

L’algorithme va se servir de ces données qui représentent le comportement que l’on souhaite lui faire apprendre. Sachant que le comportement de l’algorithme d’intelligence artificielle est complètement conditionné par l’ensemble des paramètres qui le constituent. L’apprentissage va consister à progressivement mettre à jour les paramètres en prenant en compte les données d’exemple, jusqu’à ce que l’algorithme adopte le comportement voulu.

Credit: indusmakers

 

 

Quelle est la différence entre un algorithme d’IA et un programme informatique classique ?

 

Dans les deux cas ce sont des algorithmes, la principale différence est que l’algorithme d’IA est capable d’apprendre des règles très complexes et de raisonner dans un contexte d’incertitude (comme l’homme) la ou l’algorithme « classique » ne peut que raisonner dans un contexte parfaitement définie et répondre soit par oui ou par non a partir de règle logique définie par l’homme.

Pour essayer de comprendre l’avantage qu’a l’algorithme d’intelligence artificielle par rapport à un algorithme classique, je vous invite à vous poser et essayer de réfléchir à quels sont les éléments qui caractérisent un chien plutôt qu’un chat sur une image par exemple. L’objectif est d’essayer d’élaborer un ensemble de règles permettant de décrire de manière plus précise les caractéristiques à identifiées pour aboutir à cette décision.

Credit: Yan Laurichesse – Unsplash

À priori un chien a des oreilles qui tombent la ou le chat à les oreilles qui pointent vers le haut. Maintenant, que l’on a constaté cela, il faut être capable de définir ce qu’est une oreille. Une oreille, c’est … ? Un ensemble de pixels sur une image qui tendent à mettre en avant plus fondamentalement une forme triangulaire (ce n’est pas très précis on voit pourquoi il faut raisonner dans un contexte d’incertitude). Une forme triangulaire, c’est trois segments qui sont reliés, et un segment c’est des pixels qui sont disposées en ligne …

À travers cet exemple très simpliste, j’espère vous permettre de mieux comprendre pourquoi il est vraiment difficile d’établir des règles logiques permettant de décrire fondamentalement, c’est quoi un chien quand on doit tout décrire à l’ordinateur jusqu’à l’échelle du pixel.

L’algorithme d’IA va être capable d’apprendre des règles de décision flexible pour pouvoir différencier des images de chien et de chats qu’il n’a jamais vu lors de son apprentissage, là où l’algorithme « classique » pourra uniquement dire si cette photo contient un chat ou un chien en regardant si cette image correspond exactement, au pixel près à une image qu’il possède déjà dans sa base de données (on retourne sur une logique « oui » ou « non »). On dit que l’algorithme d’intelligence artificielle à une capacité de généralisation sur de nouvelles données.

 

Y-a-t-il une limite aux algorithmes d’IA?

Il y a effectivement des limites aux algorithmes d’intelligence artificielle. Plus la tâche à réaliser est complexe, plus la puissance de calcul à mettre en place et la quantité de données disponible doivent être importantes pour pouvoir espérer entraîner un algorithme à réaliser cette tâche.

À titre d’exemple, on peut citer le modèle de traitement du langage GTP-3 d’Open AI qui a été entraîné sur une grande partie du web et est aujourd’hui capable d’écrire des tweets très réalistes pouvant berner l’attention de l’homme. Ce modèle à été entraîné dans le cloud sur plusieurs centaines de cartes graphiques, le coût d’un seul entraînement à été estimé à 12 millions d’euros. Ce modèle est aujourd’hui l’un des plus gros jamais entraîné avec 175 milliards de paramètres. (Source : Venture Beat

Je pense qu’il y a aujourd’hui une course dans le monde à la puissance de calcul et à celui ou celle qui entraînera le plus gros modèle d’intelligence artificielle. En effet, ces technologies sont stratégiques pour les gouvernements et les entreprises.

Récemment, on a appris que la Chine a entraîné un modèle nommé « Wu Dao 2.0 » capable d’écrire des poèmes, de comprendre des images … Ce modèle est constitué de plus de 1750 milliards de paramètres. À titre de comparaison, le cerveau humain est composé de 10 000 milliards de synapses. (Source: industrywired.com)

Je pense donc que tous les investissements seront faits pour repousser les limites de l’intelligence artificielle.

0 commentaires

Soumettre un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *