Les données structurées

Données qualitatives et quantitatives

Aujourd‘hui, une bonne part des données analysées sont non structurées (vidéos, contenus de médias sociaux, avis des internautes…). Cependant, les données structurées qui furent longtemps les seules à permettre des analyses sont encore indispensables dès lors qu’on se situe dans le cadre d’une recherche par des humains et non d’un apprentissage automatique.

Pour réaliser des études statistiques, on peut d’ailleurs extraire des données structurables à partir de données non structurées (par exemple on retient un certain nombre de mots spécifiques employés dans des commentaires libres). La page qui traite de la structuration des données est une introduction pour élèves du secondaire mais elle illustre de façon pratique les généralités présentées ci-dessous.

Nous détaillerons ci-dessous les deux types généraux de données structurées : le qualitatif et le quantitatif.

 

Données structurées

Les données structurées suivent un principe d’organisation. On peut les stocker dans des bases accessibles par requêtes en SQL, des fichiers CSV exportables si leur poids n’est pas trop gigantesque… On peut aussi les visualiser par des représentations graphiques et les suivre avec des tableaux de bord.

serveur

Par exemple, une liasse fiscale est un document qui, hormis le nom de l’entreprise, ne comprend que des nombres dans des cases. Ces données sont parfaitement structurées.

Enfin, elles s’intègrent bien dans les modèles de données et sont organisées sous un format défini (ne pas confondre le format de données avec un format de fichier !). Mais, nous le verrons, la définition d’un format ne va pas toujours de soi.

Lorsqu’une donnée structurée et nettoyée est prête à un emploi statistique, elle devient la modalité d'une variable. La typologie de données présentée ci-dessous vaut aussi pour les variables statistiques (d'ailleurs elle est aussi présentée en page de variables).

 

Données qualitatives

Une donnée qualitative peut prendre plusieurs modalités ou caractères. Une modalité n’est pas mesurable mais dénombrable.

S’il n’y a aucune hiérarchie entre les caractères, on parle de donnée nominale.

Par exemple, une profession est un critère qualitatif. On peut compter le nombre de contrôleurs de gestion dans un pays mais le calcul de leur moyenne n’a aucun sens. Il est nominal parce qu’on ne peut pas dire que qu’une profession est intrinsèquement supérieure à une autre.

Notez que les données qualitatives ne s’expriment pas forcément sous forme de texte. Ce sont par exemple un matricule ou un numéro de téléphone qui sont composés de chiffres mais qui ne permettent aucun calcul.

Ce type de donnée est souvent visualisé par des diagrammes circulaires ou en anneau. Ces graphiques montrent bien la proportion des différentes modalités par rapport à l’ensemble.

Un type particulier de donnée nominale est dit binaire ou « booléen » (du mathématicien anglais George Boole). Seules deux valeurs sont possibles : vrai ou faux, oui ou non, présent ou absent, etc. Un bit qui peut prendre les valeurs 0 ou 1 peut être considéré comme une donnée booléenne.

S’il existe une hiérarchie entre les caractères, la donnée est ordinale.

Typiquement, les enquêtes fournissent des données ordinales si le répondant doit évaluer ou hiérarchiser. Voir par exemple l’échelle d’Osgood et l’échelle de Likert.

Le nombre d’étoiles attribuées par un critique à un film, une place dans un classement universitaire ou une médaille aux jeux olympiques sont quelques illustrations de données ordinales.

5 étoiles

Graphiquement, on représente plusieurs variables ordinales sous la forme d’un radar.

 

Données quantitatives

Une donnée quantitative est mesurable. Il en existe deux types, le discret et le continu. Cette distinction doit vous être familière depuis les cours de maths du lycée.

La donnée discrète est dénombrable. C’est par exemple le nombre de places de théâtre vendues dans la semaine, un cheptel, le nombre de couverts d’un restaurant…

Une date est un cas particulier. Elle ne permet que des calculs très limités. Attention, lorsqu’on travaille dans un environnement international, il est très important de se référer à un format unique, par exemple jj/mm/aaaa, puisque tous les pays n’ont pas adopté les mêmes normes. Un tableur permet de modifier facilement les formats de dates.

Parfois on peut extraire une variable discrète d’une donnée qualitative. Prenons un code de Sécurité sociale. Il est qualitatif puisqu’il ne permet aucun calcul mais si l’on extrait les chiffres qui correspondent à l’année de naissance on obtient une variable discrète sur laquelle on peut calculer un âge moyen.

Un critère peut être qualitatif dans un certain contexte et quantitatif dans un autre. Si des billets de tombola sont soit verts soit rouges soit bleus, la couleur est une donnée qualitative et le vert est l’une de ses modalités. Si en revanche on s’intéresse au code couleur d’un pixel, on peut extraire 256 intensités de vert (et autant de bleues et de rouges). La couleur verte est donc quantifiée (et pas seulement à l’aide de chiffres puisque le code est en hexadécimal).

En général, une donnée discrète est visualisée sous forme de graphique en barres.

La donnée continue peut prendre n’importe quelle valeur. Ce peut être la taille d’un arbre, la température d’un patient, la masse d’une étoile… Là aussi, attention aux normes selon les pays (séparateur décimal).

Reprenons l’exemple du vert mais cette fois sous forme de tube de peinture pouvant être mélangé à du blanc. Les niveaux de dilution, donc de nuances de vert, sont infinis. La couleur verte est cette fois une donnée continue.

Notez bien que tout système de mesure discrétise ce qui est continu. Même si l’on détermine la taille d’un individu au millimètre près, on ne peut pas relever une infinité de décimales ! Ainsi une évolution continue observée de façon discrète, par exemple tous les mois, est visualisée sous forme de courbe (en fait des points représentatifs de relevés reliés en ligne droite).

Il est ainsi un peu arbitraire de séparer le discret du continu. En programmation, la distinction existe entre les entiers et les décimaux mais cela recouvre une réalité assez différente… En statistiques, on discrétise le continu en décomposant une variable par classes. Celles-ci permettent de visualiser une distribution sous forme d’histogramme, de pyramide des âges, de coloration de carte…

 

Une autre classification

Notez que certains considèrent d'une part les données nominales et d'autre part les numériques qui comprennent les ordinales et les cardinales.

 

Pour l’analyse…

Un analyste de données utilise tous les types.

Les données subjectives sont souvent qualitatives. Ce n’est pas pour autant qu’une valeur numérique est toujours incontestable.

Ce sont aussi les données qualitatives qui permettent d’expliquer un phénomène observé de façon quantitative (une fréquence, une dispersion...). Par exemple, le suivi des ventes d’une entreprise montre une évolution inquiétante à la baisse. Pourquoi ? Le qualitatif entre en jeu pour l’explication : décomposition par produits, avis des consommateurs, etc.

Note : en page de performance commerciale vous trouverez des exemples de critères quantitatifs et qualitatifs appliqués à un domaine particulier.

 

personnages structurés