Les données

DCP, données ouvertes et big data

La « matière première » essentielle du développement économique a longtemps été la force humaine et animale, avant d’être le charbon, le pétrole…

Aujourd’hui et pour quelque temps encore, ce sont les données. Pourquoi ?

 

Enjeux

L’avènement des ordinateurs a facilité les traitements statistiques et donc permis de bien meilleures connaissances dans tous les domaines scientifiques et industriels : météo, ingénierie, sociologie, etc. Et de quel matériau les statistiques ont-elles besoin ? Les données.

À présent nous sommes passés à la vitesse supérieure. Si les techniques statistiques classiques sont toujours fort utiles, d’autres techniques plus puissantes ont véritablement pris leur essor au début du vingt-et-unième siècle. Ce sont notamment celles de l’apprentissage artificiel, particulièrement gourmand en données.

Ainsi, certaines entreprises qui ont construit leur modèle économique sur l’exploitation de données de masse sont devenues en peu de temps parmi les plus puissantes du monde. Nous pensons bien sûr à Google mais aussi aux médias sociaux. Ce qui intéresse ces entreprises, ce sont les données à caractère personnel (DCP).

 

Les DCP et l’anonymisation

Les DCP sont les données qui permettent de reconnaître une personne physique. L’identification peut être directe : nom, numéro de téléphone, numéro de Sécurité sociale, adresse IP… Mais elle est souvent indirecte en ce sens qu’un faisceau d’informations peut conduire à identifier quelqu’un.

Les limites de l’utilisation des DCP figurent dans la loi (en France, la loi informatique et libertés) et dans la règlementation européenne.

https://www.legifrance.gouv.fr/loda/id

Une DCP ne peut être collectée sans consentement. Par exemple, lorsque vous visitez certains sites web, vous devez cliquer sur un bouton « j’accepte » à la fin d’un texte dont la version la plus courte est « en poursuivant votre navigation sur ce site, vous acceptez l’utilisation de cookies afin de vous proposer des offres et services personnalisés ».

Précisons qu’une donnée n’a pas besoin d’être exploitable dans un fichier pour entrer dans ce cadre juridique. Une simple photo d’une personne identifiable ne peut être stockée ou diffusée sans consentement de l’intéressé (à moins d’être une personnalité considérée comme « publique »).

Afin de ne pas être soumises aux directives européennes, les données peuvent être anonymisées, c’est-à-dire qu’elles ne permettent plus l’identification mais peuvent tout de même servir à établir des statistiques.

L’anonymisation consiste à effacer ou à crypter certains champs d’une base de données (le cryptage permet une ré-indentification éventuelle). Mais l’anonymisation totale, c’est-à-dire la suppression de toutes les informations personnelles, n’est pas toujours souhaitable. Dans le domaine médical, il peut être intéressant de connaître l’âge et le sexe des patients pour faire progresser la science.

L’exemple de Cambridge Analytica est emblématique des dérives liées à l’utilisation des DCP. Cette entreprise définissait le profil psychologique des internautes, d’abord en faisant passer un test de personnalité en ligne puis par des informations glanées sur Facebook. Les internautes, fichés selon leur profil psychologique, recevaient ensuite des messages ciblés pour orienter leurs choix de vote (notamment en faveur de Donald Trump).

 

Les données ouvertes

Les données ouvertes (open data) sont des données publiques, accessibles et gratuites. Il s’agit bien de données primaires brutes qui peuvent être travaillées par tous et non de statistiques déjà réalisées.

Exemples :

https://opendata.paris.fr/pages/home

https://ressources.data.sncf.com/pages/accueil

En France, elles sont anonymisées. Il n’est pas question d’y trouver le casier judiciaire de votre voisin ou les sommes dépensées au tiercé par votre belle-mère.

 

Big data

Depuis ces dernières décennies, nous assistons au développement exponentiel du volume d’échanges et des capacités de stockage (développement qui n’est d’ailleurs pas près de ralentir). D’où des volumes considérables de données… susceptibles d’être analysées. Notez que cette « analyse » est le fait d’êtres humains mais aussi d’objets connectés.

https://www.journaldunet.com/solutions/dsi/1424245-le-volume-de-donnees-mondial-sera-multiplie-par-45-entre-2020-et-2035-selon-statista

Ces mégadonnées, plus connues sous l’expression big data, nécessitent des techniques spécifiques de stockage et d’analyse. Elles obéissent à la règle des 3 V.

Volume : la quantité de données est un critère suffisant pour rendre impossible l’utilisation de logiciels statistiques et de bases de données « classiques » en SQL. Mais le big data ne repose pas que sur cet aspect quantitatif.

https://www.planetoscope.com/Internet-/1523-informations-publiees-dans-le-monde-sur-le-net-en-gigaoctets-.html

Variété : les données proviennent de diverses sources, ne sont pas toujours organisées et prennent les formes les plus variées (adresses IP, photos, parcours géolocalisés, conversations, clics…). Elles doivent donc être structurées de façon automatique dès leur émission pour être exploitées.

Vélocité : une analyse s’effectue presque en temps réel (techniques de data stream mining). Il n’est plus question d’extraire un jeu de données, de le nettoyer de ses immanquables aberrations puis de procéder à une étude statistique mais de l’exploiter avant même un éventuel stockage. Ainsi, une voiture connectée peut, par exemple, s’adapter immédiatement à une situation nouvelle.

On ajoute parfois d’autres V : la véracité (données relativement fiables), la valeur (elles peuvent apporter une quelconque valeur) et parfois la visualisation (par exemple sous forme de couleurs) pour une interprétation plus aisée (mais sous des formes moins immédiates que de banals graphiques statistiques).

Le big data a fait naître des professions nouvelles, aujourd’hui très recherchées, notamment celles de data scientist, d’ingénieur et d’architecte big data, de business intelligence manager, etc. (vous pensez bien que si des professions sont nouvelles, elles doivent s’intituler en anglais ! Bref, passons).

En entreprise, c’est surtout le marketing qui l’utilise pour mieux cibler les prospects et tenir compte des expériences clients. Dans le secteur du crédit, les risques d’impayés sont anticipés. D’autres utilisatrices des mégadonnées sont l’énergie et la recherche médicale. Mais si le big data peut nous aider à économiser de l’énergie, il en est surtout un très gros consommateur !