Vérifications d'importations dans Power Query
Power Query excelle dans le nettoyage de données. Nous verrons ici comment vérifier la qualité d’une base de données préalablement importée.
L’exemple sur lequel nous nous appuierons ne comportera que très peu d’enregistrements et il est évident qu’en pratique nous n’aurions pas utilisé pas Power Query, dont l’un des intérêts est de traiter les bases de données très volumineuses. L’importation sera réalisée à partir d’un fichier Excel local.
Importation
Certes, ce site vous propose une page dédiée aux importations dans Power Query. Néanmoins, nous détaillons ici aussi le processus (la page en question étant illustrée par un exemple d’importation depuis le web).
Nous partons d’Excel (nous aurions aussi pu démarrer de Power BI). Onglet Données puis Obtenir des données. Dans le menu qui apparaît : À partir d’un fichier puis À partir d’un classeur Excel (il existe d’autres voies pour l’importation depuis Excel).
Les dossiers accessibles apparaissent, qu’ils se trouvent ou non en local. Sélectionnons. En l’occurrence, RH.xlsx. Remarquez que celui-ci comporte deux feuilles de calcul :
Nous ne chargerons que la feuille Rémunérations.
Nous obtenons une liste de salariés avec leur matricule, leur nom de famille, leur coefficient au sens de leur convention collective et la prime annuelle que les plus performants ont perçue.
Excel offre le choix entre Charger ou Transformer les données. Pour ouvrir directement Power Query, optons pour la transformation.
Formats des colonnes
Notre requête apparaît dans Power Query.
Remarquez les pictogrammes à gauche des intitulés de colonnes. Ils permettent de vérifier que Power Query a correctement détecté les formats de données.
Comme vous êtes perspicace, vous avez deviné que 123 correspond au format numérique et ABC au type alphabétique.
Ici, nous souhaitons modifier le format du matricule. En effet, comme on ne calcule rien avec un matricule, celui-ci doit être considéré comme de l’alphanumérique, donc du texte. Il suffit de cliquer sur le bouton 123 et nous avons la possibilité de rectifier comme souhaité.
Le remplacement de format est donc beaucoup plus simple qu’avec Excel !
Qualité des colonnes
Pour vérifier que tout est correctement rempli, onglet Affichage puis Qualité de la colonne. Des indications apparaissent en haut de chaque colonne.
On détecte rapidement s’il y a ou non si la liste comporte des champs non renseignés. En l’occurrence, un coefficient est manquant.
Les erreurs sont également indiquées (formats erronés, division par zéro, référence à une colonne qui n’existe plus…). Mais attention, Power Query peut en oublier. Par exemple, si un coefficient est suivi d’un point, il peut ne pas être repéré comme erroné mais le pictogramme de l’en-tête de colonne indiquera à la fois ABC et 123. De même, si un nom est suivi d’un point, celui-ci ne sera pas détecté. Donc, une enquête plus poussée peut être envisagée lorsqu’on détecte un type d’erreur récurrent, non décelé par une procédure automatique.
Un clic droit dans cette zone de statistiques permet d’envisager diverses corrections…
Attention, ce profilage ne concerne que les mille premières lignes. Certes, notre exemple n’en comporte que douze, mais vos tables dépassent probablement les mille enregistrements ! Comment faire ?
Remarquez au bas de l’écran : Profilage de la colonne en fonction des 1000 premières lignes. Si l’on clique sur ce texte, on constate qu’on a la possibilité d’étendre le profilage à l’ensemble.