
Introduction à la préparation des données améliorée
Accélérez le délai d’obtention d’informations de votre société avec l Machine Learning et d’autres analyses améliorées.
Qu’est-ce que la préparation des données améliorée ?
Autrement dit, la préparation des données améliorée permet aux commerciaux et aux autres collaborateurs sans expertise approfondie en science et analyse des données de créer des jeux de données enrichis et fiables à des fins d’analyse. Optimisés par le Machine Learning (ML) et l’intelligence artificielle (IA) et fournis sur une plateforme en libre service et automatisée, les outils de préparation des données améliorée transforment le processus de recherche et d’évaluation des données brutes et les convertissent dans des formats consommables. Ils ne remplacent par l’intelligence humaine et la conscience contextuelle : ils les améliorent.
Pour bénéficier d’un avantage compétitif, les directeurs, les responsables métier, les partenaires et autres s’appuient sur le décisionnel et les analyses pour obtenir des informations au bon moment, précises et pertinentes. Grâce à la préparation des données améliorée, votre société peut décentraliser et démocratiser la préparation des données afin que davantage d’employés puissent créer ce type d’informations.
Comment les outils de préparation des données améliorée sont-ils utilisés ?
Les outils de préparation des données améliorée rationalisent la première et peut-être la plus importe des étapes du traitement de données : la création des jeux de données nécessaires pour générer, tester et effectuer l’apprentissage des modèles d’analyse.
Généralement, la préparation des données étaient du ressort des équipes techniques qui écrivaient du code et utilisaient des logiciels spécialisés pour extraire des données de systèmes opérationnels internes, les nettoyer et les structurer, et les charger dans des entrepôts de données. Appelés ETL (extraction, transformation et chargement de données), ces processus pouvaient être complexes, chronophages et sujets à des erreurs.
La plupart des utilisateurs métier communs ne disposaient pas des compétences ou du temps nécessaires pour effectuer eux-mêmes les tâches ETL. Mêmes les scientifiques des données citoyens (analystes métier, développeurs et autres manquant de formation formelle à la science des données mais qui effectuent certaines tâches d’analyses avancées) se sont retrouvés à s’appuyer sur les ingénieurs des données et autres professionnels des données pour décider des données à analyser et comment.
Les temps ont changé. Désormais, les organisations stockent des volumes considérables de données structurées, semi-structurées et non structurées, y compris du texte et des images, dans de multiples applications et systèmes compartimentés. Il est rare que les équipes de gestion des données et informatiques centralisées aient le temps et les ressources pour rassembler et préparer les données, encore moins pour les modéliser et les étudier, afin de prendre en charge toutes les initiatives d’analyses variées d’une entreprise.
Grâce aux outils de préparation des données améliorée, les utilisateurs sont plus nombreux à pouvoir participer à ces activités. Avec le pointer-cliquer, les interfaces conversationnelles, les outils guident les utilisateurs de manière régulière quand ils doivent prendre des décisions relatives aux données dans le cadre de la préparation de celles-ci.
Quelles sont les étapes de la préparation des données ?
Également appelé « data wrangling » ou « munging », le processus de préparation des données se compose d’une série d’activités séquentielles pour intégrer, structurer et organiser les données. Les étapes de préparation des données, décrites ci-dessous dans les catégories couramment utilisées, aboutissent à la création d’un jeu de données approuvé unique visant à fournir des informations sur un ou plusieurs cas d’utilisation spécifiques :
- Collection. Guidée par les objectifs des analyses dont elle a la charge, l’équipe d’analyses identifie et extrait les données pertinentes de sources de données internes et externes. Par exemple, si l’objectif consiste à isoler les préférences en matière de produits des clients, l’équipe peut obtenir des données quantitatives et qualitatives du CRM et des applications de ventes,des enquêtes sur les clients et des commentaires sur les réseaux sociaux. Pendant cette phase, l’équipe doit consulter toutes les parties prenantes et utiliser des jeux de données fiables ou prendre le risque d’obtenir des résultats biaisés ou faussés.
- Détection et profilage. Pendant les phases itératives d’exploration et d’analyse, l’équipe passe en revue les données brutes collectées pour mieux comprendre la structure générale d’un contenu individuel au sein de chaque jeu de données. Elle examine également les relations existant entre les jeux de données. Le profilage des données lui permet aussi de collecter et de synthétiser des statistiques sur les anomalies, les incohérences, les écarts et d’autres problèmes à traiter avant d’utiliser les données data pour développer et effectuer l’apprentissage des modèles d’analyses. Par exemple, les jeux de données sur les clients, les patients, etc. contenant des noms et des adresses stockés dans les systèmes, varient souvent dans leur orthographe, entre autres.
- Nettoyage. À cette phase, l’équipe doit corriger méticuleusement tous les problèmes de qualité des données. Le nettoyage implique des activités telles que le renseignement de valeurs manquantes, la correction ou la suppression de données défectueuses, le filtrage de données non pertinentes et le masquage de données confidentielles. Chronophage et laborieuse, cette étape de préparation des données est indispensable pour s’assurer que les données sont précises et cohérentes. Le nettoyage est particulièrement important avec le Big Data, dans le sens où les volumes de données importants doivent être harmonisés.
- Structuration. Cette étape consiste à développer un schéma de base de données qui décrite l’organisation des données sous forme de tables afin de favoriser un accès simplifié à l’aide d’outils de modélisation. Ce schéma peut être considéré comme une structure permanente qui hébergera les données en évolution constante de manière unifiée. Tous les composants schématiques sont définis.
- Transformation et enrichissement. Une fois le schéma défini, l’équipe vérifier que toutes les données sont conformes. Certains formats de données existants devront être modifiés, par exemple en ajustant les hiérarchies et en ajoutant, en fusionnant ou en supprimant des colonnes et des champs. L’équipe peut également améliorer les données grâce à des informations comportementales, démographiques, géographiques et d’autres contextes extraites de sources internes et externes à l’organisation. Un jeu de données enrichi permet d’effectuer l’apprentissage des modèles d’analyses avec des jeux de données plus complets et ainsi obtenir des informations de valeur plus précises.
- Validation. Désormais, l’équipe doit utiliser des scripts écrits ou des outils pour vérifier la qualité et la précision de son jeu de données. De plus, elle confirme que la structure et le format des données s’aligne sur les besoins du projet afin que les utilisateurs et les outils de modélisation de projet accèdent facilement aux données. En fonction de la taille du jeu de données, l’équipe peut choisir de tester un échantillon de données plutôt que le jeu de données complet. Elle doit résoudre tous les problèmes existants avant de passer à l’étape finale du processus de préparation des données.
- Publication. Quand l’équipe est sûre que ses données sont de qualité élevée, elle les transfère à l’entrepôt de données, au lac de données ou à un autre référentiel. De là, l’équipe et les autres utilisateurs de l’organisation peuvent y accéder pour développer et tester des modèles d’analyses.
En quoi le Machine Learning améliore-t-il la préparation des données et la modélisation ?
Les analyses de données améliorées sont rendues possibles par analyse améliorée,, y compris le ML, l’automatisation, la génération de langage naturel (NLG) et la visualisation des données. Par exemple, la détection de données améliorée s’appuie considérablement sur le ML, un type d’IA qui utilise des algorithmes et des modèles statistiques pour tirer des informations des données et s’adapter sans intervention humaine.
Grâce au ML, les outils de détection appliquent leurs connaissances apprises pour décider des types de jeux de données nécessaires selon le problème que modèle doit résoudre et l’hypothèse à tester. Ils doivent également tenir compte du contexte dans lequel les jeux de données ont été constitués. Enfin, les outils analysent rapidement et tirent des inférences de mécanismes dans les jeux de données, et suggèrent de manière intelligente lesquels combiner.
La détection de données améliorée non seulement utilise le ML mais favorise également une préparation des données efficace pour les modèles de Machine Learning. Par exemple, les outils de détection utilisent les algorithmes du ML pour générer des recommandations pour les utilisateurs sur le processus de nettoyage et d’enrichissement des données et pour les transformer en un format approprié pour l’analyse de modèle ML.
Comment votre entreprise peut-elle tirer parti de la préparation des données améliorée ?
Les chefs d’entreprises et les équipes de tous les secteurs d’activité identifient quotidiennement de nouvelles stratégies pour capitaliser sur les data. Grâce à la préparation des données améliorée, elles peuvent influencer des idées novatrices pour les projets d’analyse sans dépendre des informaticiens.
Les avantages de la préparation des données améliorée se répercutent dans l’ensemble de l’organisation :
- Stimule la productivité : Grâce à des interfaces utilisateur graphiques et intuitives dotées d’outils automatisés en libre service, les utilisateurs métier compétents peuvent collecter rapidement des données auprès de sources nombreuses et distinctes, et les soumettre au processus de profilage, de nettoyage et autres fonctions de préparation des données clés. La préparation des données améliorée permet également de limiter ou d’éliminer les tâches chronophages pour les professionnels de l’informatique et des données.
- Fournit des données de qualité supérieure Pendant la préparation des données manuelle, même les scientifiques des données chevronnés peuvent introduire involontairement des données inexactes et non pertinentes, ou échouer à inclure des données importantes. La préparation des données améliorée peut automatiquement localiser et corriger les problèmes de qualité, en vérifiant que vos jeux de données produisent des résultats valides.
- Accélère le ROI : Une productivité supérieure au frontal des projets analytiques permet de gagner du temps et des ressources pour la modélisation, l’exploration et l’analyse des données. Plutôt que d’être pris par des tâches de préparation des données manuelles, les utilisateurs peuvent se concentrer sur l’examen des informations et leur application à la transformation des opérations et des défis métier. Une fois généré, un jeu de données peut être appliqué dans différentes situations, et optimiser vos investissements.
- Facilite la démocratisation des données : Fins prêts à préparer et publier les données pour analyse, les utilisateurs non spécialisés peuvent devenir encore plus à l’aise avec les données brutes. En outre, les utilisateurs les plus familiarisés avec les problèmes des analyses peuvent tirer parti de leurs connaissances et de leur expertise métier pour sélectionner les jeux de données significatifs d’un point de vue statistique en vue de structurer et d’enrichir les données pour atteindre les objectifs des projets. À mesure que la littérature sur les données évolue au sein de votre organisation, vos collaborateurs gagnent en assurance en ce qui concerne les décisions et les stratégies pilotées par les données.
- Améliore l’agilité métier : Capables de préparer rapidement des jeux de données complets, les utilisateurs peuvent vite lancer de nouveaux projets de d’analyses au rythme de l’évolution des conditions du métier et du marché. Plus les informations sont obtenues en temps opportun, plus votre entreprise peut les appliquer pour être plus concurrentielle.
Comment les entreprises appliquent-elles la préparation des données améliorée ?
Quels que soient les secteurs, les entreprises utilisent décisionnel et outils d’analyse marketing pour tirer une valeur supérieure des données. Par exemple, l’intégration de la préparation des données améliorée à leurs workflows a permis aux organisations suivantes de rassembler et de traiter efficacement les données à des fins d’analyses :
Secteur bancaire
Pour mieux comprendre quels clients auront plus tendance à utiliser les services d’investissement de fortune (et les cibler au moyen de promotions personnalisées), une grande banque a pu rassembler et consolider rapidement des données de compte, de dépôts, de retraits et de cartes de crédit dans l’ensemble de ses agences et du réseau des DAB. Elle a également pu obtenir des données démographiques, socio-économiques et d’autres contextes extraites de sources externes.
Vente au détail
Une chaîne de pharmacies internationale a cherché à savoir pourquoi son nom de marque était moins attractif à certains endroits que d’autres. Elle a combiné des données de points de vente, de catégories de produits, de fidélité client, de Net Promoter Score et de tarification de ses systèmes internes avec des données géographiques externes pour générer un jeu de données enrichi pour analyse.
Agriculture
Une petite société de technologies agricoles souhaitait utiliser ses algorithmes protégés pour étudier les tendances du rendement des cultures dans les zones arides afin de pouvoir conseiller les agriculteurs de petites structures sur les cultures à planter à quel moment. En capitalisant sur des pools de Big Data tenus à jour par des organismes publics et privés, la société a pu obtenir et combiner les données correspondant à différentes variables, y compris les conditions météorologiques, les températures du sol, le contenu de l’humidité, l’utilisation d’eau et l’état des cultures.
Juridique
Un cabinet d’avocats qui défendait une société dans le cadre d’un litige considérable analysait des millions d’e-mails du client et autres documents non structurés pour obtenir un historique pertinent. En limitant de manière drastique les activités de détection de données manuelles et répétitives, le cabinet a économisé du temps lui permettant de passer en revue et d’analyser les résultats concordants.
Secteur public
Le gouvernement d’un état des États-Unis souhaitait employer des pratiques de maintenance prédictives pour effectuer des économies en matière de coûts de carburant, d’entretien et de services de sa flotte automobile et de ses équipements lourds. Pour mieux déterminer quand et quels véhicules avaient besoin d’entretien et la proximité en temps réel de chaque véhicule d’un centre d’entretien, l’équipe de gestion des actifs a intégré les informations des enregistrements de maintenance des véhicules et des capteurs de performances grâce à des données GPS externes.
Comment votre entreprise peut-elle mettre en œuvre une solution de préparation des données améliorée ?
Avant de présenter la préparation des données améliorée à vos employés, votre société doit gagner leur confiance. Certains peuvent être préoccupés des changements apportés par les nouvelles technologies, voire même de la suppression de leur poste. Pour favoriser l’adoption de la préparation des données améliorées, les responsables peuvent inviter les équipes concernées à définir de nouveaux processus de préparation des données et de parler de l’évolution possible de leurs postes. En outre, la mise à disposition proactive de littérature sur les données au sein de l’organisation, en particulier dans les équipes qui ne sont pas encore familiarisées avec l’analyse de données améliorée, accroît la confiance dans les informations obtenues.
Quand vous choisissez une solution de préparation des données en libre service, posez les questions suivantes :
- La solution permet-elle de se connecter à un éventail de sources de données, localement ou dans le Cloud ?
- Est-elle compatible avec des données brutes semi-structurées et non structurées ?
- Jusqu’à quel point le processus de préparation des données est-il automatisé ?
- Est-elle composée d’outils solides et intuitifs ?
- La solution prend-elle en charge la collaboration et le partage de données inter-organisationnels ?
- Peut-elle s’adapter au Big Data ?
- Prendra-t-elle en charge les plateformes d’analyses basées sur le cloud ? Si oui, lesquelles ?
- Assurera-t-elle la sécurité et la confidentialité des données, et prendra-t-elle en charge la conformité réglementaire ?
- Quel sera le coût total des licences logicielles, des besoins en traitement et en stockage, et de l’intégration des employés et de leur formation ?
Une fois que vous avez choisi une solution, commencez par une petite application. Demandez aux scientifiques des données, aux commerciaux et autres parties prenantes de sélectionner quelques équipes habituées au traitement des données avec des cas d’utilisation qui se prêtent à la préparation des données améliorée. En fonction des objectifs de votre société en matière d’analyse des données améliorée, déployez progressivement la solution auprès d’autres équipes.
Tirez davantage profit des données avec Microsoft Power BI
Microsoft Power BI peut permettre à votre entreprise de rendre l’analytique données améliorée un processus simplifié, plus rapide et plus inclusif. Invitées par des requêtes NLG et des recommandations, et aidées par des visualisations des données, les équipes métier peuvent préparer rapidement et en toute confiance des jeux de données précis et complets afin de générer des informations de qualité.
Forum aux questions
Qu’est-ce que la préparation des données ?
La préparation des données implique toutes les phases de création de jeux de données de qualité, précis et complets pour le décisionnel et les analyses métier. Elle permet de s’assurer qu’une organisation puisse générer les informations nécessaires pour être plus concurrentielle.
Quels sont les outils de préparation des données ?
Les outils de préparation des données facilite la collecte de données, la détection et le profilage, le nettoyage, la structuration, la transformation et l’enrichissement, la validation et la publication.
En quoi consiste le processus de préparation des données améliorée ?
Le processus de préparation des données améliorée s’appuie sur de l’analytique amélioré, y compris ML, NLG et la visualisation des données, afin de transformer les activités habituellement laborieuses et chronophages en workflows automatisés et plus intelligents.
Pourquoi le processus de préparation des données améliorée est-il important ?
La préparation des données améliorée peut présenter plusieurs avantages. Elle permet d’optimiser la productivité, d’exécuter des analyses basées sur des données de qualité supérieure, d’accélérer ROI sur les projets analytiques, de démocratiser les données et d’améliorer l’agilité métier.
En quoi consiste la préparation des données pour le Machine Learning ?
Une préparation des données efficace pour les applications de Machine Learning fournit des jeux de données de qualité permettant de générer et de tester des modèles de ML. Par exemple, bon nombre d’outils de préparation des données améliorée utilisent des algorithmes du ML pour faire des recommandations aux utilisateurs sur le processus de nettoyage et d’enrichissement des données et pour les transformer en un format approprié pour l’analyse de modèle ML.