La collecte des données

Données primaires et secondaires

La collecte des données : l’expression est paradoxale car si l’on prend la peine de collecter quelque chose, c’est justement parce que ce n’est pas donné !

En amont de la démarche statistique se trouvent les données (data) et en aval, la connaissance, puis l’action. Encore qu’il existe un contrecourant dans ce long fleuve impétueux puisque c’est la bonne connaissance d’un sujet qui permet de définir les caractères à observer.

S’il est un volume qui connaît un accroissement exponentiel depuis des décennies, c’est bien celui des données et le ralentissement n’est pas annoncé pour les semaines à venir... On parle de big data. En raison des quantités colossales de données stockées, les outils informatiques classiques et les techniques d'analyse de données doivent être repensés. L'apprentissage devient automatique (machine learning) et souvent, il n'est plus nécessaire de passer par l'étape de la modélisation.

 

Fiabilité

En amont de la collecte, il faut pouvoir estimer si le niveau d’exactitude des données est suffisant. Inutile de se lancer dans une étude pour laquelle les observations sont réputées non fiables.

En effet, qu’elles soient rares ou surabondantes, elles sont le matériau qui sera traité pour être transformé en information. Et l’information, c’est le nerf du business et de la recherche… Aussi ne faut-il pas oublier que la fiabilité des données est sans doute le critère n°1 de la qualité d’une étude. On a coutume de résumer cette évidence par Garbage In Garbage Out (GIGO). Malheureusement, l’exactitude des réponses n’est pas la motivation principale de l'enquêteur mal payé ou de l'enquêté qui n'a que faire des résultats de l'étude. Même une bonne traçabilité ne garantit pas la justesse des données.

Comme l'exprime B. Delmas, « les sources d'erreurs [...] sont en effet nombreuses et rien ne prouve que ces erreurs s'annulent comme on le suppose souvent pour se débarrasser à bon compte du problème. » (Statistique descriptive, Nathan 1996).

 

Traitement

Une fois collectées et structurées dans des tables, les données brutes subissent quelques traitements avant même d’être exploitées. Elles sont « nettoyées ». Cette opération consiste à éliminer ou imputer les valeurs manquantes et aberrantes.

Puis elles changent de statut. Elles deviennent les modalités de variables dans une base d’analyse (sous forme de fichier CSV ou Excel, table SAS, etc.). Concrètement, chaque ligne d'un fichier informatique est affectée à une unité statistique et chaque colonne indique les valeurs ou les modalités prises par une variable en particulier.

Les données sont habituellement qualifiées par leur nature (continues, discrètes, qualitatives, textuelles) et par le type de collecte utilisé. Voyons ces types de plus près.

 

Les données primaires

Il s’agit de celles qui sont spécialement collectées pour répondre à une problématique, c’est-à-dire pour réaliser une étude statistique ad hoc. Donc, pas de big data par ici ! La collecte a un coût important (coûts variables très élevés par rapport au coût fixe, contrairement aux données secondaires internes évoquées plus bas). Le commanditaire délègue en principe cette activité à un prestataire sous-traitant qui utilise des moyens particuliers tels qu'enquêtes à base de questionnaires ou méthodes expérimentales.

Cependant, une enquête peut avoir un coût très réduit si elle est conduite sur Internet (voir la page enquêtes CAWI). Attention, à moins que les sondés fassent partie d'un panel (et encore !), les résultats n'ont pas de valeur scientifique puisque seuls les internautes qui souhaitent répondre le font, avec les biais induits par ce comportement...

Les questionnaires sont les outils habituels des enquêtes de statisfaction, des études de marché voire d'audits sociaux. Avant de les mettre en œuvre, il convient de déterminer la taille de l’échantillon, son mode de sélection (aléatoire, par quotas, stratifié, par panel…) et la formulation des questions qui se traduira par tel type de variable (échelles non comparatives…). La procédure de choix d'échantillon est appelée plan d'échantillonnage. Par exemple, selon le plan d'échantillonnage qui a été défini, une personne peut ou ne peut pas être interrogée deux fois.

Une expérimentation invoquée est une recherche d’explication de phénomènes sur lesquels l’observateur n’a pas de prise. Exemple : corrélation constatée entre la météo et la vente de certains produits alimentaires. Au contraire, une expérimentation provoquée reconstitue des situations en laboratoire (marché-test simulé, par exemple). Note : cette typologie est celle de Madeleine Grawitz, « Méthodes des sciences sociales », Dalloz 1981, p. 413.

Une suite d’expériences provoquées avec modifications successives des variables susceptibles d’expliquer un résultat est un plan d’expérience.

Précisons enfin que des données primaires peuvent provenir d'un organisme totalement étranger à celui qui les traite. Ainsi, les données ouvertes sont accessibles gratuitement par Internet.

 

Les données secondaires

Au contraire des données primaires, celles-ci ont été collectées pour des raisons étrangères à la question étudiée. Ainsi, il se peut qu’elles ne correspondent pas tout à fait aux définitions établies ou qu’elles soient un peu anciennes ; mais elles présentent le double avantage d’être rapidement accessibles et peu coûteuses. Parfois, elles permettent d’orienter une recherche grâce à une pré-étude. Et c'est dans un second temps que l'on peut davantage cerner quelles données primaires devront être collectées.

Les données secondaires sont internes ou externes à l'organisation qui en tireront usage.

C’est parmi les données internes que l’on trouve des volumétries importantes, voire gigantesques. Dans l’immense majorité des cas, ce sont les bases de données informatiques dont dispose déjà l’entreprise utilisatrice et qui n’ont pas été spécialement collectées pour l’étude à réaliser. Par exemple, les données de paie de l’effectif salarié sont celles qui sont permis l’établissement des bulletins de paie. Il n’empêche qu’elles servent dans d’autres buts, par exemple pour établir un budget de masse salariale. Mentionnons aussi la base de données de clientèle d’une banque qui permet de réaliser des grilles de score alors que ce n’est évidemment pas sa vocation première, les données de vente scannées aux caisses des supermarchés qui se révèlent indispensables tant pour la gestion des stocks que pour des traitements de data mining répondant à des problématiques marketing, la liasse fiscale sur laquelle se fonde un diagnostic financier, etc.

Les données secondaires externes sont celles qui ont été publiées. Si l’on sait où les trouver et si elles sont facilement accessibles (par exemple en format CSV), elles présentent les avantages des données internes. En revanche, elles peuvent nécessiter une recherche documentaire longue et coûteuse. Mentionnons les sources du web les plus évidentes….

http://www.insee.fr/fr/bases-de-donnees/

http://www.oecd.org/fr/statistiques/

De très nombreuses données sont disponibles en bibliothèque…

http://www.bnf.fr/fr/la_bnf/conditions_acces_tarifs.html

Les données secondaires peuvent être mutualisées, c’est-à-dire collectées par un organisme pour le compte de plusieurs entreprises. Un panel de consommateurs ou d’audience, par exemple, est géré par une société qui travaille pour plusieurs clients.

 

Big data

Les applications du big data sont de plus en plus nombreuses. Peut-on encore parler de collecte ? Les données sont enregistrées de façon continue sans sélection (par un navigateur web, un objet connecté, etc.) et alimentent directement des algorithmes d'intelligence artificielle.

 

collecte