L'importation dans Power Query

Importation de données dans Power Query

Power Query est l’outil, intégré à Power BI et à Excel, qui permet d’importer, nettoyer et transformer les données avant d’en extraire des informations.

Précisons qu’il est courant d’employer cet éditeur sans poursuivre dans Power BI. Il est en effet très pratique pour nettoyer automatiquement des données avant de les étudier, par exemple, sous forme de tableau croisé dynamique dans Excel, ou pour fusionner des extraits de différents fichiers afin de créer un seul jeu de données.

Ici nous nous intéressons à la première étape, celle de l’importation des données.

 

Connecteurs

Les fichiers

Le type de fichier exportateur le plus courant est Excel. On peut importer toutes les feuilles d’un fichier ou une seule, de plages nommées ou encore de tableaux (voir l'exemple d'une seule feuille en page de profilage).

Power Query importe des fichiers CSV ou TXT qui sont souvent des exportations d’autres logiciels.

Il importe aussi des données structurées, notamment au format JSON.

Précisons que plusieurs fichiers d’un même dossier peuvent être aspirés simultanément et combinés. C’est d’ailleurs une opération courante lorsque des relevés mensuels figurent sur des fichiers différents et que l’on produit une consolidation.

Les bases de données

  • SQL Server, Oracle, MySQL, PostgreSQL, IBM DB2, etc.
  • Bases locales (Access, SQLite…).
  • Services cloud : Azure SQL Database, Amazon Redshift, Google BigQuery…

L’intérêt est de se brancher directement à un datawarehouse sans passer par des exports manuels.

Les services en ligne et le cloud

  • SharePoint, OneDrive (pratique pour des fichiers partagés).
  • Dynamics 365, Salesforce, Google Analytics, Facebook Ads… (avec des connecteurs prêts à l’emploi).
  • Microsoft Exchange, Outlook (extraction de courriels, calendriers, contacts)

Ces connecteurs permettent des suivis de données en temps réel.

Des sources spécialisées

  • OData feed (flux normalisé pour publier des données).
  • Les sources du big data (Hadoop…).
  • SAP pour les environnements d’entreprise.

Les pages Web

Power Query peut se connecter à des pages web. On indique l’URL et le logiciel analyse le code HTML pour repérer les tableaux (exemple ci-dessous).

Autres connecteurs avancés

Nous ne nous étendrons pas sur les connecteurs qui ne servent qu’aux développeurs, ni sur les scripts R ou Python qui permettent d’intégrer des traitements statistiques ou de machine learning.

 

Mode opératoire

À titre d’exemple, nous importerons des données depuis le web, en l’occurrence une page du site que vous consultez actuellement puisqu’il regorge de tableaux. Et on n’est jamais si bien servi que par soi-même. Bien sûr, il s’agit de tableaux HTML et non de captures d’écrans insérées sous forme d’images PNG.

L’URL de la page est http://www.jybaudot.fr/Gestionfi/amortissements.html (celle qui explique les amortissements).

On part soit d’Excel, soit de Power BI. Pour accéder à Power Query à partir d’Excel, c’est dans l’onglet Données que ça se passe. On peut passer par Obtenir des données mais il existe un bouton À partir du web alors autant cliquer dessus !

obtenir des données

On saisit alors l’URL.

URL

On valide et, après un instant de réflexion, Excel nous propose un choix de tables.

choix

La page web contient cinq tableaux. Choisissons d’abord le deuxième.

mauvais choix

Le fait que les pourcentages aient été écrits en LaTeX ne semble pas perturber Power Query mais hélas, si. On risque de connaître ensuite quelques soucis. Comme il serait malvenu d’explorer un cas vraiment très particulier dans le cadre d’une initiation, on chargera plutôt la table 5.

Un choix nous est alors proposé : Charger ou Transformer les données. Un chargement simple implique une importation dans Excel et une transformation provoque un chargement de Power Query. Ce qui se traduit par l’état suivant :

tableau Power Query

L’importation depuis Power BI est à peu près identique, quoiqu’un peu moins immédiate pour le web. Mais la procédure est suffisamment intuitive pour vous épargner de longues explications.

formats

Là aussi, on peut charger les données directement dans Power BI ou les transformer, donc ouvrir Power Query.

 

importation dans Power Query