Données primaires et secondaires
La collecte des données : l’expression est paradoxale car si l’on prend la peine de collecter quelque chose, c’est justement parce que ce n’est pas donné !
En amont de la démarche statistique ou autre analyse se trouvent les données (data) et en aval, la connaissance, puis l’action. Encore qu’il existe un contrecourant dans ce long fleuve impétueux puisque c’est la bonne connaissance d’un sujet qui permet de définir les caractères à observer. C'est le cycle de vie des données.
Les données sont habituellement qualifiées par leur type (continues, discrètes, qualitatives, textuelles, voir les données structurées) et par la nature de leur collecte. Mais avant d'examiner cette dernière, un mot sur la fiabilité.
Fiabilité
Avant la collecte, il faut pouvoir estimer si le niveau d’exactitude des données est suffisant. Inutile de se lancer dans une étude pour laquelle les observations sont réputées non fiables.
En effet, qu’elles soient rares ou surabondantes, elles sont le matériau qui sera traité pour être transformé en information. Et l’information, qui est la signification attachée aux données, est le nerf du business et de la recherche… Aussi ne faut-il pas oublier que la fiabilité des données est sans doute le critère n°1 de la qualité d’une étude. On a coutume de résumer cette évidence par Garbage In Garbage Out (GIGO). Malheureusement, l’exactitude des réponses n’est pas la motivation principale de l'enquêteur mal payé ou de l'enquêté qui n'a que faire des résultats de l'étude. Même une bonne traçabilité ne garantit pas la justesse des données. C'est d'ailleurs un paradoxe des analyses : tout le monde s'accorde à dire que la qualité des données est l'élément le plus important mais pourtant, les data analysts gagnent très bien leur vie tandis que les enquêteurs ne sont pas rétribués à la hauteur de leur responsabilité.
Comme l'exprime B. Delmas, « les sources d'erreurs [...] sont en effet nombreuses et rien ne prouve que ces erreurs s'annulent comme on le suppose souvent pour se débarrasser à bon compte du problème. » (Statistique descriptive, Nathan 1996).
Les données primaires
Il s’agit de celles qui sont spécialement collectées pour répondre à une problématique, c’est-à-dire pour réaliser une étude statistique ad hoc. Donc, pas de big data par ici ! La collecte est coûteuse (coûts variables très élevés par rapport au coût fixe, contrairement aux données secondaires internes évoquées plus bas). Le commanditaire délègue en principe cette activité à un prestataire sous-traitant qui utilise des moyens particuliers tels qu'enquêtes à base de questionnaires, d'entretiens (voir les questions SMART) ou de méthodes expérimentales.
Exemple : une municipalité souhaite connaître le trafic routier sur une avenue pour chaque durée d'un quart d'heure au cours de la journée. Un prestataire se rend sur place et compte...
Cependant, une enquête peut avoir un coût très réduit si elle est conduite sur Internet (voir les enquêtes CAWI). Attention, à moins que les sondés fassent partie d'un panel (et encore !), les résultats n'ont pas de valeur scientifique puisque seuls les internautes qui souhaitent répondre le font, avec les biais induits par ce comportement...
Les questionnaires sont les outils habituels des enquêtes de statisfaction, des études de marché voire d'audits sociaux. Avant de les mettre en œuvre, on détermine la taille de l’échantillon, son mode de sélection (aléatoire, par quotas, stratifié, par panel…) et la formulation des questions qui se traduira par tel type de variable (échelles non comparatives…). La procédure de choix d'échantillon est appelée plan d'échantillonnage. Par exemple, selon le plan d'échantillonnage qui a été défini, une personne peut ou ne peut pas être interrogée deux fois.
Une expérimentation invoquée est une recherche d’explication de phénomènes sur lesquels l’observateur n’a pas de prise. Exemple : corrélation constatée entre la météo et la vente de certains produits alimentaires. Au contraire, une expérimentation provoquée reconstitue des situations en laboratoire (marché-test simulé, par exemple). Note : cette typologie est celle de Madeleine Grawitz, « Méthodes des sciences sociales », Dalloz 1981, p. 413.
Une suite d’expériences provoquées avec modifications successives des variables susceptibles d’expliquer un résultat est un plan d’expérience.
Précisons enfin que des données primaires peuvent provenir d'un organisme totalement étranger à celui qui les traite. Ainsi, les données ouvertes sont accessibles gratuitement par Internet.
Les données secondaires
Au contraire des données primaires, celles-ci ont été collectées pour des raisons étrangères à la question étudiée. Ainsi, il se peut qu’elles ne correspondent pas tout à fait aux définitions établies ou qu’elles soient un peu anciennes ; mais elles présentent le double avantage d’être rapidement accessibles et peu coûteuses. Parfois, elles permettent d’orienter une recherche grâce à une pré-étude et c'est dans un second temps que l'on peut cerner quelles données primaires devront être collectées.
Les données secondaires sont internes ou externes à l'organisation qui en tirera usage.
C’est parmi les données internes que l’on trouve des volumétries importantes, voire gigantesques. Dans l’immense majorité des cas, ce sont les bases de données dont dispose déjà l’entreprise utilisatrice, qui n’ont pas été spécialement constituées pour l’étude à réaliser. Par exemple, les données de paie de l’effectif salarié sont celles qui sont permis l’établissement des bulletins de paie. Il n’empêche qu’elles servent dans d’autres buts, par exemple pour établir un budget de masse salariale. Mentionnons aussi la base de données de clientèle d’une banque qui permet de réaliser des grilles de score alors que ce n’est évidemment pas sa vocation première, les données de vente scannées aux caisses des supermarchés qui se révèlent indispensables tant pour la gestion des stocks que pour des traitements de data mining répondant à des problématiques marketing, la liasse fiscale sur laquelle se fonde un diagnostic financier, etc.
Les données secondaires externes sont celles qui ont été publiées. Si l’on sait où les trouver et si elles sont facilement accessibles (par exemple en format CSV), elles présentent les avantages des données internes. En revanche, elles peuvent nécessiter une recherche documentaire longue et coûteuse. Mentionnons les sources du web les plus évidentes….
http://www.insee.fr/fr/bases-de-donnees/
http://www.oecd.org/fr/statistiques/
De très nombreuses données sont disponibles en bibliothèque…
http://www.bnf.fr/fr/la_bnf/conditions_acces_tarifs.html
Les données secondaires peuvent être mutualisées, c’est-à-dire collectées par un organisme pour le compte de plusieurs entreprises. Un panel de consommateurs ou d’audience, par exemple, est géré par une société qui travaille pour plusieurs clients.
Big data
S’il est un volume qui connaît un accroissement exponentiel depuis des décennies, c’est bien celui des données et le ralentissement n’est pas annoncé pour les semaines à venir... On parle de big data. En raison des quantités colossales de données stockées, les outils informatiques classiques et les techniques d'analyse de données doivent être repensés. L'apprentissage devient automatique (machine learning) et souvent, il n'est plus nécessaire de passer par l'étape de la modélisation.
Les applications du big data sont de plus en plus nombreuses. Peut-on encore parler de collecte ? Les données sont enregistrées de façon continue sans sélection (par un navigateur web, un objet connecté, etc.) et alimentent directement des algorithmes d'IA.
Et après ?
Une fois collectées et structurées dans des tables, les données brutes subissent quelques traitements avant même d’être exploitées. Elles sont nettoyées. Cette opération consiste notamment à éliminer ou imputer les données présentant des valeurs aberrantes ou erronées et les données incomplètes, à supprimer les doublons et à harmoniser les formats de données.
Puis elles changent de statut. Elles deviennent les modalités de variables dans une base d’analyse (sous forme de fichier CSV ou Excel, table SAS, etc.). Concrètement, chaque ligne d'un fichier est affectée à une unité statistique et chaque colonne indique les valeurs ou les modalités prises par une variable en particulier.