Le nettoyage de données avec Power Query

Suppression d’erreurs et de doublons avec Power Query

Dans l’analyse des données, le nettoyage est un passage obligé… et souvent le plus chronophage !

Heureusement, Power Query vient à la rescousse pour transformer cette corvée de façon efficace et presque agréable. Imaginez : vous importez vos données, et en quelques clics, vous éliminez les répétitions inutiles, repérez les incohérences et préparez un terrain de jeu parfait pour vos futures explorations.

satisfaisant

Nous verrons comment éliminer les doublons puis certaines erreurs avec Power Query. Mais d'abord, voyons comment importer les données d'un fichier CSV.

 

Importation d’un fichier CSV

Avant d’expliquer comment supprimer les doublons, munissons-nous d’un fichier… qui n’en comporte pas (oui, cette approche peut sembler curieuse, mais vous en comprendrez la raison).

Importons un petit fichier CSV à partir d’Excel.

Première façon : onglet Données, puis Obtenir des données et dans le menu qui s’affiche Lancer l’éditeur Power Query… Une fois celui-ci chargé, dans le pavé Nouvelle requête, cliquons sur Nouvelle source puis Fichier puis Texte/CSV. On cherche ensuite le bon fichier dans le gestionnaire afin de l’importer.

Une autre voie consiste à importer les données directement depuis Excel (dans l’onglet Données, clic sur Obtenir des données, puis À partir d’un fichier. Choix du format puis du fichier. Lorsque les premières données s’affichent, il faut cliquer sur Transformer les données. Si vous cliquez sur Charger, elles apparaissent sous forme de tableau dans une feuille de calcul et ce n’est pas ce que nous souhaitons.

menu

 

Suppression des doublons

Les données sont chargées.

Si l’on clique droit sur l’entête d’une colonne, par exemple Code, on obtient un menu contextuel dans lequel il est proposé de supprimer les doublons.

Or, si l’on valide, on commet l’erreur de supprimer un bon enregistrement. En effet, il en existe deux qui ont le code 13 et Power Query en écarte un sans chercher plus loin.

Pour éviter d’éliminer de faux doublons, il est donc indispensable de se positionner sur une colonne dont on est sûr qu’il ne peut exister qu’un seul enregistrement : un matricule, un code de sécurité sociale… Ici, nous aurions pu choisir la colonne des villes mais ce n’est pas du tout conseillé puisque, si le fichier est important, il peut comporter des communes homonymes.

Comment faire s’il n’existe pas de clé unique ? C'est très simple.

Sélectionnez les trois colonnes (clic sur l’entête de la première puis, avec la touche Maj enfoncée, clic sur la dernière). Avec un clic droit, faites apparaître le menu contextuel et demandez de supprimer les doublons. Ainsi, seuls les enregistrements pour lesquels tous les champs sont identiques seront éliminés.

 

Suppression des erreurs

Power Query détecte les incohérences (il serait exagéré de parler d’erreurs). Dans notre exemple, on constate qu’il n’y en a pas (pour chaque colonne il est indiqué Erreur 0 %).

Une erreur, c’est par exemple une cellule en format texte alors qu’elle devrait être en format numérique. Notez à ce propos que Power Query a considéré à tort que les numéros de départements étaient numériques ; il faudrait les transformer en texte dans l’entête de colonne car on ne calcule rien avec des codes départementaux. D’ailleurs, si la base comprenait, par exemple, la ville d’Ajaccio avec le code 2A, Power Query aurait considéré toute la colonne comme du texte.

Ajaccio

Gardez toutefois à l’esprit que nous avons importé un fichier CSV et Power Query détermine lui-même les formats des colonnes. L’utilisateur doit alors vérifier et les modifier au besoin. Si les données étaient importées d’une feuille de calcul Excel, la détection d’erreurs serait plus sûre puisque le type de format est défini pour chaque cellule et non pour la totalité d’une colonne de la base de données.

Autres erreurs possibles : division par zéro, conversion impossible en format date, calcul à partir d’une référence NULL… Attention Power Query peut oublier des incohérences (voir la qualité des colonnes).

Exemple d’un nouveau jeu de données :

nouveau jeu

Pour nettoyer celui-ci (mais pas la base de données elle-même), un clic droit sur l’entête. Vous constatez sur la capture d’écran ci-dessous qu’il est possible de supprimer les enregistrements erronés ou de remplacer les erreurs. Pour une modification manuelle au cas par cas, le plus simple est de trier les données (bouton à droite de l’entête) afin de regrouper les enregistrements qui posent des problèmes.

menu pour suppression

 

doublons