• Arnaud Mauduit

Les nouveaux métiers de la data pour les consultants Microsoft BI


Vous êtes un consultant Microsoft Business Intelligence et vous commencez à vous intéresser de plus en plus à l’intelligence artificielle et à Microsoft Azure, notamment au Machine Learning (ML) ? Vous êtes perdu parmi ces nouveaux métiers autour de la data : “data analyst” “data mining” “data scientist” etc… ?


Vous vous posez des questions à ce sujet et vous trouvez des réponses, parfois trop techniques, parfois trop commerciales ou encore trop de mots pour ne rien dire.


Cet article a pour objectif de vous donner un petit aperçu de la data science d’un point de vue pragmatique, simple, compréhensible et sans discours marketing ou business. Pour cela un petit rappel sur les statistiques est nécessaire.


Les statistiques classiques


Probabilités : Lois des probabilités, c’est l’étude des données, des variables aléatoires, quantification du hasard, loi normale.

  • Exemple : lancé de dé non truqué avec la probabilité d’obtenir un 4

Statistiques descriptives : On ne fait que décrire les données avec quelques mesures : moyenne, variance etc… mais aussi des graphiques pour analyser deux variables à la fois.

  • Exemple : les graphiques Power BI, Excel, reporting services, etc.

Analyses de données : Des techniques pour obtenir des statistiques descriptives avec trois variables ou plus à la fois.

  • Exemple : l’analyse de composantes principales qui permet de « mélanger » plusieurs variables V1, V2, V3 … afin de créer deux nouvelles variables X, Y. C’est toujours plus simple d’analyser une ou deux variables.

Statistique inférentielle : déterminez les caractéristiques d’une population à partir d’un échantillon, c’est à dire faire des conclusions selon votre échantillon. Puis vous généralisez vos conclusions à toute la population, grâce à des tests, vous mesurez ainsi le risque d’erreur. Pour cela, vous allez utiliser les statistiques descriptives et des probabilités.

  • Exemple : 10 copains vous affirment qu’ils aiment le canard, pourriez-vous affirmer que tous vos copains sont mangeurs des canards ? Vous risquez de vous tromper bien sûr mais accepteriez-vous de prendre ce risque ?

Data Mining


C’est l’utilisation des algorithmes sur les données des DataWarehouse afin de les décrire ou faire des prédictions. Ces algorithmes sont des algorithmes statistiques classiques qui existent depuis des décennies. Pour comprendre la logique derrière ces algorithmes une très bonne maîtrise des statistiques et de mathématiques est indispensable. La création des nouveaux algorithmes est du domaine de la recherche, par contre l’utilisation est relativement simple. Dans SQL Server Analysis Services par exemple, vous avez la possibilité de faire du data mining et cela depuis la version 2000.


Machine Learning


C’est le data mining dernier cri avec Python, Scikit-learn, R, BigData, cloud computing, deep learning.

Le data mining, c’est le machine learning avant l’explosion des données et l’apparition des outils du big data, python, etc.


D’un point de point de vue conceptuel, le Data Mining et le machine Learning sont les mêmes ; on peut voir le Machine Learning comme la version 2.0 du Data Mining et qu’un changement de nom a été nécessaire afin de distinguer le nouveau de l’ancien.


Intelligence artificielle


C’est une « discipline » de l’informatique pour la création de machines intelligentes, c’est plutôt de la recherche informatique.


Les métiers de la data


Un consultant BI : travaille plutôt côté « statistique descriptive » mais très basique, c’est-à-dire, il créé des datamarts/datawarehouse, il réalise la collecte des données, la data quality, et génère des datasets où les colonnes sont des variables qualitatives ou quantitatives. Côté calculs, il met en place des KPIs, des agrégations, des ratios, etc. Pour pour avoir à la fin des rapports avec des graphiques X vs Y qui permettent de faire une analyse bivariée. Si c’est avec des outils de dataviz tels que Power BI, on appelle cela « data analytics » sinon ça reste de la BI classique.


L’objectif de la BI c’est l’industrialisation de la génération des rapports et de la data visualisation. D’un point de vue statistique, elle se limite à calculer des mesures très basiques comme la moyenne, pas de variance ni déviation standard, moins encore les quantiles et la corrélation linéaire.


Un Data analyst : c’est un utilisateur métier mais plutôt « avancé » qui utilise directement les données du datawarehouse ou datamart pour mettre en place ses propres graphiques et ses calculs statistiques.


Il fait aussi un petit peu de BI mais il n’a pas pour vocation de construire des datamarts ou datawarehouse, il consomme plutôt les données et utilise Python/R pour faire des calculs des probabilités, des statistiques descriptives, de statistique inférentielle.


Data Engineer : Si vous êtes consultant BI vous faites l’ETL. Un data Engineer le fait également, mais sur des données massives et il traite tous types de données grâce aux technologies telles que hadoop, spark. Un consultant BI quant à lui traite des données plutôt issues des bases de données relationnelles, voire des fichiers csv ou excel.


Data Scientist : Pour faire simple on va dire que c’est celui qui sait exploiter les données avec du Machine Learning. Grâce à cela il est capable d’apporter des solutions aux besoins métiers d’une organisation.


Le marketing dans le retail est le métier où on dispose très facilement de données pour faire du Machine Learning. Grâce à ces techniques vous allez être en mesure de répondre à des besoins métiers tels que :

  • La création des modèles de scoring d’appétences: cela veut dire par exemple la mise en place d’un algorithme qui va recevoir les données des individus et va donner un résultat du genre élevé/moyen/faible.

  • La création des systèmes de recommandations : cela veut dire la mise en place d’un algorithme qui va recevoir des données des films et des clients, et qui va retourner un résultat « Like » or « Not Like ».

Dans les deux cas le Data Scientist utilise des algorithmes sur des données afin d’avoir un résultat. D’un point de vue métier, ces solutions seront appelées modèlr de scoring d’appétence, systèmr de recommandation, etc.


Microsoft Azure et Machine Learning


Selon le dernier Magic Quadrant du Gartner, l’offre Microsoft Azure est plus ou moins bien placée et l’un de ses points faibles c’est la cohérence :


“Coherence: Although the Azure ecosystem offers diverse tools and approaches for data science, many users find the number of components overwhelming and are frustrated by the overall user experience.”


Chez Microsoft Azure on trouve une large variété de services pour créer des modèles de Machine Learning:

  • Azure ML Service: C’est la version « Enterprise » avec plusieurs fonctionnalités.

  • Azure ML Studio: C’est la version plutôt « Student »

  • Data Science VM : il vise à remplacer votre poste de travail physique pour un poste de travail dans le cloud prêt à l’emploi pour le ML. Ce sont des images de machines virtuelles avec des outils préinstallés pour faire du ML.

  • Microsoft ML Server: c’est une plateforme « on-premise » pour faire du ML en local, donc pas dans le cloud.

  • Azure Notebooks : c’est la version cloud de l’outil Jupyter dans Azure.

  • SQL Server Machine Learning Services : C’est un composant dans SQL Server qui va vous permettre de faire du ML dans votre base de données.

  • ML.Net: c’est une bibliothèque pour faire du ML directement dans C#, donc vous n’avez plus besoin de python.

Cognitive Services ne permet pas de créer des modèles ML. Dans Cognitives Services vous avez déjà des modèles ML préfabriqués et prêts à l’emploi, il suffit d’envoyer vos données pour obtenir les prédictions.


Azure Databricks et Azure HDInsight sont aussi des solutions bigdata dans lesquelles vous pouvez faire du ML aussi.


Pour finir, parmi les outils Azure qu’il faut connaitre et qui ne sont pas pour faire du ML, mais plutôt pour le traitement des données, nous avons :

  • Azure Data Lake Analytics : pour réaliser des requêtes « U-SQL » sur des fichiers, le résultat est stocké dans un autre fichier: File=> U-SQL=>File

  • Azure Data Factory : ça rassemble à SSIS, data integration & orchestration

  • Azure SQL Database: C’est un serveur SQL Server dans le cloud pour les applications OLTP

  • Azure SQL Data Warehouse: C’est un serveur SQL pour les applications OLAP mais ultra puissant « Massive parallel processing »

Références : https://docs.microsoft.com/fr-fr/analysis-services/data-mining/data-mining-ssas

https://www.gartner.com/doc/reprints?id=1-65WC0O1&ct=190128&st=sb

https://towardsdatascience.com/recommendation-systems-models-and-evaluation-84944a84fb8e

https://www.leslivresblancs.fr/dossier/le-marketing-predictif-le-machine-learning-au-service-de-la-donnee




32 vues

Posts récents

Voir tout