Phases de l'analyse des données
Dans la vie d’une donnée, l’analyse est, avec l’étape du partage, sa raison d’être.
Une étude analytique comprend un nombre de phases… variable. Nous en retiendrons six mais ce chiffre n’est qu’une indication. Il est par exemple inutile de recommencer un processus déjà conduit pour une étude précédente. De plus, elles ne doivent pas être considérées comme un enchaînement linéaire puisqu’un analyste doit parfois revenir à une étape antérieure et même itérer plusieurs fois. Mais elles montrent l’étendue des compétences dont un data analyst doit faire preuve.
Entendons-nous bien, il ne s’agit pas d’une étude complexe, avec modélisation, que pourrait réaliser un data scientist. Ce n’est pas non plus une étude purement statistique (voir pour cela la démarche d’étude statistique), malgré un air de famille. Et ce n’est pas non plus un apprentissage automatique.
Nous retiendrons les étapes suivantes :
- Découverte
- Préparation
- Nettoyage
- Exploitation
- Présentation
- Action
La découverte
La phase de découverte est celle des identifications : problème à résoudre, accès aux données, interlocuteurs…
Elle s’appuie sur le dialogue. C’est une démarche presque commerciale puisqu’il faut définir les objectifs, donc bien comprendre ce que souhaite le commanditaire (et du même coup lui faire préciser ce qui est peut-être flou dans son esprit) en posant des questions SMART. Le data analyst se retrouve dans la même position que durant ses études, lorsqu’il ne devait surtout pas faire du hors sujet !
D'autres entretiens sont à prévoir. Il est difficile de penser à tout lors d’une prise de contact et des imprévus ne manqueront pas de surgir (c’est d’ailleurs la seule certitude que l’on peut avoir en début d’étude !). De plus, le commanditaire est rarement un interlocuteur unique.
Nous sommes donc loin de l’image de l’analyste qui triture ses chiffres dans sa tour d’ivoire. Ce sont des moments de contact, de discussion, parfois de diplomatie. Il est utile de connaître les techniques d’entretien et d’être très structuré. À la fin de cette étape, l’analyste doit avoir une vision très claire de ce qui lui est demandé.
La préparation
L’étape précédente amène à identifier les données qui permettront de répondre aux questions posées à l’analyste.
Une fois identifiées, il faut pouvoir en disposer. Toutes ne se trouvent pas forcément dans la base de données interne à l’organisation. Peut-être doit-on aussi chercher des open data. Parfois on s’aperçoit qu’il faut collecter de nouvelles données en mettant sur pied une enquête.
Les données internes sont généralement accessibles avec un logiciel de requête ou avec SQL.
Cette étape conduit à s’interroger sur la nature des données et leur qualité. Quelles sont leurs définitions exactes, existe-t-il un biais, ont-elles été modifiées depuis leur collecte ? De nouvelles questions peuvent surgir. Donc là encore, des entretiens sont envisageables.
Une problématique annexe mais cruciale est celle de la protection des données collectées.
Le nettoyage
Les données collectées sont rarement utilisables si elles ne sont pas passées chez le toiletteur !
Comment traiter les données inexactes, incohérentes ou incomplètes ? Cette phase est souvent la plus longue de l’étude. Elle est détaillée en page de nettoyage. Voir aussi le traitement des doublons et des valeurs aberrantes ainsi que l’harmonisation des formats.
L’exploitation
Cette étape amène l’analyste à une réflexion sur les données, éventuellement aidée par ses compétences en statistiques.
Elle peut commencer par un filtrage pour ne sélectionner qu’une partie des données et par des tris pour les classer. Ceux-ci s’accompagnent volontiers de graphiques pour visualiser une évolution, une distribution, des proportions ou des relations (nuages de points).
Ensuite, le jeu de données obtenu est « personnalisé », c’est-à-dire que les données sont présentées de façon plus organisée pour faciliter leur analyse (par exemple, transformation de données longues en données larges) mais aussi qu’elles peuvent être transformées. Des colonnes peuvent être renommées, supprimées, déplacées, combinées…
Un changement de format de fichier peut s’avérer nécessaire pour une importation dans un logiciel.
La fusion de données est une pratique courante qui peut vite virer au casse-tête. Prenons l’exemple d’une organisation professionnelle qui souhaite comparer ou agréger des données d’entreprises d’une même branche d’activité. Il faut donc qu’elles soient réunies en un même jeu. Or, il y a fort à parier que les fichiers n’auront pas les mêmes formats, des longueurs de champs différents, des codes hétéroclites pour signifier les mêmes choses… Et plus embêtant, les définitions de certaines variables ne seront pas homogènes. Par exemple, des primes offertes aux salariés seront soumises à des conditions différentes, seront inexistantes dans certaines entreprises car intégrées au salaire de base, etc.
Une opération de fusion peut aussi mettre à jour une collecte douteuse ou insuffisamment détaillée d’une source en particulier. Ce type de biais est récurrent dans les méta-analyses.
Une méta-analyse est une synthèse des résultats d’études indépendantes. Ce type d’étude, qui réclame de solides compétences en statistiques, devient de plus en plus fréquent dans certains domaines (médecine, psychologie, sport…). Ce n’est pas à proprement parler une analyse de données lorsque ce sont des résultats qui sont fusionnés mais il existe aussi des méta-analyses sur données individuelles (quoique plus rares). Quoi qu’il en soit, les problèmes méthodologiques de fusion sont voisins : les définitions et les collectes peuvent être différentes d’une étude à l’autre et une métrique commune risque de s’avérer… approximative. Par ailleurs, des résultats contradictoires peuvent mettre en relief des biais de collecte.
Les comparaisons de données constituent un champ d’étude plutôt commun. Par exemple, une entreprise de l’agroalimentaire souhaite commercialiser un produit et teste les goûts des consommateurs dans plusieurs pays. Elle peut ainsi identifier des zones homogènes pour lesquelles la composition du produit sera la même. Éventuellement, la comparaison peut s’appuyer sur des tests statistiques (comparaison de moyennes, comparaison de proportions…).
Notez que la phase d'exploitation est elle aussi une étape de dialogue. Par exemple, si une information significative est apparue mais qu’elle ne répond pas directement à la problématique, il vaut mieux partager cette trouvaille avec des acteurs proches de l’étude avant de l’intégrer dans la présentation.
Exemple : « J’ai découvert que les retours clients concernaient surtout nos produits fabriqués à Manaus. En creusant, je me suis aperçu que là-bas ils sont restés dix ans sans faire d’investissement. C’est normal que leurs machines déraillent !
– Contente-toi de dire qu’ils ont un problème de qualité aujourd’hui. Notre président est l’ancien directeur de Manaus. »
La présentation
La présentation de ce que racontent les données exige elle aussi des compétences spécifiques, tant sur le fond que sur la forme. Il est important de savoir se mettre à la place de ceux à qui l’étude est destinée.
Sur le fond, il s’agit de montrer aux commanditaires que leur problématique a trouvé une réponse.
Sur la forme, la présentation doit être attrayante, avec des graphiques adaptés et simples à comprendre (voir la page sur les visuels).
L’action
Pour l’analyste, l’action consiste à formuler des recommandations qui tiennent compte des remarques émises par les parties prenantes lors de la présentation mais aussi aux étapes précédentes (par exemple suggérer des modifications dans la collecte ou la définition des données).