Le cycle de vie des données

Vie et analyse des données

Les données ont un cycle de vie, à l’instar des êtres vivants, des produits et des entreprises (voir le cycle de vie de l’entreprise). Et certaines périodes de cette existence sont trépidantes tandis que d’autres sont d’une ennuyeuse tristesse.

 

La vie des données

  1. Génération : préalablement à l’existence des données, il faut définir ce que l’on collectera et comment on procèdera. Illustrons. Une direction du marketing souhaite connaître l’opinion de prospects sur un concept de produit. Elle prépare les modalités d’une enquête. Les choix portent sur les informations à obtenir, la réalisation du questionnaire, le type de sondage (quotas, aléatoire, stratifié…).  Autre exemple : c’est durant la seconde guerre mondiale qu’il a été décidé de substituer des stations météorologiques automatiques au réseau d’observateurs mis en place en 1855. Par ailleurs, les conditions d’obtention des données météo ont été de plus en plus fiabilisées et normalisées.

  2. Collecte : à présent que les données à acquérir sont définies, il faut les capter. Comme nous nous plaçons du point de vue de la donnée et non de leur analyse, elles sont primaires. La collecte peut être automatisée (exemple des stations météorologiques), issue d’entretiens, de sondages avec saisie manuelle des réponses, d’enquêtes CAWI, etc. Souvent, une intervention humaine minimale est requise.

  3. Gestion : les données doivent ensuite être stockées. Parfois un disque dur suffit mais souvent elles sont volumineuses et sauvegardées sur le cloud ou un serveur interne. Leur stockage s’accompagne de mesures de sécurité pour limiter les risques de corruption de leur intégrité. D’ailleurs il est très recommandé de conserver deux jeux dans deux lieux différents. Elles peuvent aussi être libres d’accès (voir l’open data).

    Un lac de données ou data lake est un espace de stockage de données hétérogènes, provenant de différentes sources, brutes ou très peu transformées. Elles ne sont pas organisées comme dans des SGBDR classiques. On peut y trouver de tout : photos, vidéos, fichiers PDF, audio, e-mails, des données semi-structurées (fichiers CSV…) et même… des données structurées. Vous l’avez deviné, nous sommes dans le domaine du big data et, souvent, du machine learning. Les données structurées sont quant à elles stockées dans un datawarehouse.

  4. Analyse : cette étape comporte plusieurs phases, variables selon ce que l’on souhaite obtenir. Elle est détaillée ci-dessous.

  5. Partage : après analyse, les données ont désormais du sens. Les informations obtenues sont communiquées en vue de comprendre un phénomène ou d'aider aux décisions. Des tableaux synthétiques et des indicateurs statistiques sont des informations communiquées sous forme de rapport, de présentation orale, de tableau de bord… Leur visualisation sous forme de graphiques est un incontournable. Le partage peut prendre d’autres formes qu’une présentation. Par exemple, un scoring issu de l’intelligence artificielle s’appuie sur des données d’apprentissage qui « vivent » pendant plusieurs années pour aider à la décision. Mais le plus important est ce que les données ont permis de réaliser et qui leur survit : opportunités saisies, décisions stratégiques éclairées, progrès scientifiques…

  6. Archivage : les données sont ensuite archivées. À ce stade, elles ont été utilisées mais peuvent resservir pour une raison ou une autre. Souvent, les utilisateurs n’y ont accès qu’après une demande spéciale à la DSI. Leur support n’a pas besoin d’être performant ; il doit surtout être peu coûteux à entretenir.

  7. Destruction : les durées d’archivage sont parfois imposées par des textes légaux ou réglementaires. Mais la destruction des données peut aussi être décidée en raison du coût du stockage ou parce qu’elles sont devenues inutiles. Au contraire, certaines données scientifiques ou sur le patrimoine ont vocation à ne jamais être supprimées. Quant aux données sensibles, elles ne sont pas simplement effacées mais détruites avec leur support physique.

 

L’étape de l’analyse

Les phases ci-dessous ne doivent pas être considérées comme un enchaînement linéaire. Un analyste doit souvent revenir à une étape antérieure et même itérer plusieurs fois. Voir aussi la démarche d'une étude statistique.

La définition des objectifs : cette phase ne fait pas l’objet de cours ou de manuels mais c’est certainement la plus difficile. C’est en posant des questions SMART que l’analyste parvient à cerner et à faire préciser la demande du commanditaire. Dans le cas de données récoltées pour une seule étude, cette étape se confond avec la génération vue plus haut (voir la page sur la démarche d’une étude statistique). Mais ce n’est pas systématique. Souvent elle se concentre sur des données déjà accessibles. Par exemple, un hypermarché peut utiliser la base de données des tickets de caisse, donc des données internes préexistantes, pour réaliser une étude sur l’opportunité de promotions ou un réaménagement des rayons.

Précisons que nous sommes loin de l’image de l’analyste qui triture ses chiffres dans sa tour d’ivoire. Ce sont des moments de contact, de discussion, parfois de diplomatie. Il est utile de connaître les techniques d’entretien et d’être très structuré pour ne pas oublier de poser certaines questions et de devoir revenir vers ses interlocuteurs. À la fin de cette étape, l’analyste doit avoir une vision très claire de ce qui lui est demandé.

En entreprise, il s’agit de faire parler les données passées et présentes pour préparer l’avenir. En milieu universitaire, l’objectif est plus souvent de comprendre que de prévoir.

La compréhension des données : cette étape commence par des requêtes (ne pas confondre avec l'étape de collecte vue plus haut, celle-ci prend la forme de requêtes SQL ou l'utilisation d'un logiciel). Elle conduit à s’interroger sur la nature des données et leur qualité. Quelles sont leurs définitions exactes, existe-t-il un biais, ont-elles été modifiées depuis leur collecte ? De nouvelles questions peuvent surgir. Donc là encore, des entretiens sont envisageables.

Bien comprendre les données implique l’emploi de statistiques descriptives, de tableaux de fréquences et de graphiques qui ne sont pas destinés à être publiés.

La constitution d’une base de travail : c’est une autre étape préparatoire. Elle consiste à extraire les données utiles pour l’étude (voir le filtrage), éventuellement à concaténer plusieurs sources d’informations et à nettoyer la base obtenue (suppression des doublons et des valeurs aberrantes, harmonisation des formats, etc.).

L’exploitation : cette phase peut s’appuyer sur des techniques statistiques ou permettre la réalisation d’un algorithme de machine learning. Elle est sans doute la plus technique de toutes mais elle représente une très faible proportion du temps passé sur le projet.

Après avoir exploité les données il est normal que l’analyste recueille des avis de collègues et autres parties prenantes… et revoit quelques détails.

Selon les études, l’exploitation des données peut s’accompagner d’une évaluation des résultats. Par exemple si elle conduit à un modèle mathématique ou à un apprentissage automatique.

Les types d’analyse sont d’une extrême diversité. Nous serions bien incapables d’en établir une liste détaillée mais quelques grandes familles se détachent.

 

Les types d’analyse de données

Les statistiques descriptives permettent d’observer des données chiffrées avec une certaine hauteur. Les plus simples sont les calculs de moyenne, de médiane… Plusieurs types de graphiques remplissent aussi cette fonction de présentation synthétique de l’existant : des camemberts pour visualiser des proportions, des courbes pour montrer une évolution, etc. Les graphiques permettent aussi de comparer des séries numériques entre elles (barres superposées, courbes…). Typiquement, la construction d’un tableau de bord entre dans cette catégorie.

Lorsque l’analyse porte sur une seule variable ou plusieurs considérées séparément, on parle d’étude univariée. Lorsque ce sont les liens entre deux variables que l’on souhaite montrer, il s’agit d’une analyse bivariée. Exemple : une régression, souvent accompagnée d’un calcul de coefficient de corrélation simple. Le nuage de points est le graphique le plus représentatif de ce type d’analyse mais il en existe d’autres. L’étude peut aussi porter sur trois variables ou plus. Elle est alors multivariée. Exemple : les problématiques de classification.

L’analyse diagnostique doit permettre à un data scientist de comprendre les causes d’un phénomène observé grâce aux statistiques descriptives, en particulier bivariées et multivariées. Les plans d’expérience sont un protocole scientifique de recherche des causes.

L’analyse de texte ne s’appuie pas sur des données chiffrées, comme son nom l’indique. Mais ce n’est pas non plus ce qui vous a occupé au lycée en cours de français ! Le but est de détacher des informations à partir d’un grand nombre de données textuelles.

L’analyse inférentielle repose sur une famille de techniques statistiques basées sur les probabilités. Elle s’appuie sur des échantillons et infère les résultats à toute une population. Par exemple, on sonde un échantillon sur ses intentions de vote et aussitôt le scrutin terminé, le sondeur donne une estimation des résultats de l’élection. Le but n’est plus de décrire mais de prévoir.

Contrairement à la précédente, l’analyse prédictive consiste à prédire une évolution et non à prévoir un évènement aléatoire. Elle extrapole à partir d’informations du passé. Les techniques les plus simples s’appuient sur une seule série chronologique mais certains domaines (l’économétrie, par exemple) recourent à des modèles mathématiques très complexes.

L’analyse prescriptive va plus loin que les précédentes puisqu’elle apporte des préconisations.

 

archivage de souvenirs