Le stockage des données

Données : historique et stockage

Les données sont l’une des grandes richesses du vingt-et-unième siècle. Mais sans la possibilité de les stocker, elles ne vaudraient pas grand-chose.

Survolons l’histoire des données et surtout celle de leur stockage avant d’en détailler les modes de conservation. Cette page d’initiation peut compléter un cours de SNT (classe de seconde).

 

Les données

Contrairement à ce que l’on lit généralement, une donnée (en anglais : data) n’est pas en elle-même une information mais sa matière première. Elle caractérise un phénomène ou quelqu’un, de façon chiffrée ou non, et possède un intitulé. L'intérêt est d'avoir le même type de données sur un grand nombre de personnes ou de phénomènes et de les exploiter, soit de façon statistique, soit à l'aide de techniques d'intelligence artificielle.

De très nombreuses caractéristiques peuvent être décrites par des données, en particulier dans la vie courante et dans le domaine scientifique (pour la poésie et la philosophie, on repassera !). Exemples : un numéro de téléphone, une température, une date de naissance, un nom de famille, une musique…

Les données sont collectées et structurées puis stockées et, lorsqu’elles sont exploitées, elles deviennent des informations.

Les bases de données sont essentiellement gérées par les organisations (entreprises, pouvoirs publics, universités…) même si les particuliers en utilisent quelques-unes (répertoires téléphoniques, playlists…). Précisons qu’il est banal de stocker des données sans même savoir qu’elles existent : les métadonnées Exif d’un album de photos numériques, par exemple, sont la plupart du temps ignorées !

 

Historique

Au sens large, les données existaient bien avant l’informatique. On pourrait dire qu’elles sont aussi vieilles que l’écriture, qui a été inventée pour des besoins de comptabilité.

Il fallut attendre 1928 pour qu’elles soient stockées autrement que par écrit, en l’occurrence sous forme de cartes perforées permettant un ingénieux système de lecture automatique. En fait, les perforations existaient déjà mais pour des applications spécifiques, par exemple les métiers à tisser ou les orgues de Barbarie (comme on le voit sur cette photo des années 60 ; musée Carnavalet).

Ces cartes ont perduré jusque dans les années 80. Par exemple, à cette époque, l’examen du code de la route consistait à trouer des cases-réponses sur une carte qui était glissée dans un appareil à la fin de l’épreuve. Le nombre d’erreurs s’affichait alors devant le candidat, mettant fin à un insoutenable stress.

En 1956, IBM invente le disque dur. Déjà magnétique, il pèse une tonne et permet de stocker 5 Mo de données. D’ailleurs, le stockage sous forme magnétique a connu un grand succès (cassettes audio, VHS…) et existe encore malgré un large remplacement par des puces, codes-barres et autres codes QR (cartes, badges…).

En 1970, c’est le modèle relationnel pour la structuration et l’indexation des bases de données qui est inventé.

En 1971, IBM lance la disquette, dont il existera plusieurs formats. Les disquettes seront remplacées dans les années 2000 par les clés USB et les trois types de cartes SD.

En 1979, création du premier tableur, VisiCalc. Quelques années plus tard, celui-ci fut détrôné par Lotus 1-2-3 et son concurrent Multiplan, eux-mêmes remplacés par Excel de Microsoft et ses copies gratuites (tableur d'OpenOffice, Google sheets...). Depuis les années 90, Excel n’a jamais été « ringardisé » par un produit concurrent. Si un tableur n’est pas un outil de stockage, il n’en reste pas moins que la plupart des bases de « petite » dimension sont gérées par Excel (aujourd’hui, une feuille Excel dépasse toutefois le million de lignes !). Access, la base de données relationnelle de Microsoft, a été mise sur le marché en 1992.

En 1982, Philips et Sony révolutionnent le stockage du son en commercialisant les CD (compact discs). Désormais, pour le grand public la lecture du son n’est plus analogique (microsillons et bandes magnétiques) mais numérique. Le format du CD permettra plusieurs évolutions : CD-Rom au contenus interactifs, populaires dans les années 90, DVD (1995) et Blu-rays.

En 1994 est inventé le code QR par le Japonais Masahiro Hara. Il est public depuis 1999 et existe actuellement en plusieurs versions. Les capacités de stockage sont bien supérieures à celles du code-barres.

La clé USB date de 1999.

En 2013 les chefs d’État du G8 signent une charte pour l’ouverture des données publiques.

 

Stockage

L’intérêt de stocker des données est de pouvoir s’en servir aussi longtemps qu’elles peuvent être lues. En effet, de même que certains alphabets antiques nous sont aujourd’hui mystérieux, les cartes perforées ne peuvent plus guère nous renseigner, les appareils de lecture étant désormais rarissimes. Il en est de même des programmes écrits dans des langages obsolètes.

Quoi qu’il en soit, les capacités de stockage ont connu un développement exponentiel. Elles ont accompagné l’accroissement inouï de la quantité de données disponibles. D’autant que pour diverses raisons, il en existe généralement plusieurs copies.

Notez que le stockage ne concerne pas que des données. Un programme informatique figure bien sur un support numérique sans être une donnée pour autant.

Mais où se trouvent-elles ?

  • Le stockage local : il existe plusieurs types de supports accessibles à domicile ou dans les locaux d’une organisation. Ils sont à dispositif mécanique (disque dur, DVD, serveurs de fichiers) ou à mémoire flash (clé USB, SSD, cartes mémoire). Pour des raisons de sécurité, des sauvegardes régulières, souvent quotidiennes, doivent être réalisées.

  • Le stockage distant : pour une entreprise présente sur différents sites, il est souvent plus pratique que toutes les données se trouvent en un seul lieu, accessibles par un intranet. Les données peuvent aussi se situer chez un hébergeur indépendant, c'est-à-dire dans un data center, le matériel restant la propriété de l'entreprise.

  • Le stockage sur le cloud : pour l’utilisateur, le cloud est une entité abstraite. Mais les données ne volent pas dans les nuages, attendant la première averse pour être exploitées. Accessibles par Internet, elles sont elles aussi stockées dans des data centers hors-site mais appartenant à un fournisseur de services cloud. Il ne s’agit donc pas réellement d’une dématérialisation mais là aussi d’un stockage distant. Lorsque des données volumineuses ou mises à jour en temps réel doivent être accessibles depuis n’importe quel point du globe (ou presque) c’est la seule solution, y compris pour les particuliers (courriels, albums photos…).

serveur

 

Sauvegarde

Tout le monde sait ce qu’est une sauvegarde : on enregistre un ou plusieurs fichiers pour les conserver tels qu’ils sont à un instant \(t\) par mesure de sécurité (panne, vol, malware… ou, plus souvent, gaffe de l’utilisateur).

Trois techniques existent.

  • La sauvegarde complète est celle de l’ensemble des données. L’espace de stockage doit donc être relativement important. Cette procédure peut être longue et en très grande partie inutile. En effet, la plupart des données restent identiques entre deux sauvegardes. Alors à quoi bon les supprimer pour les remplacer par les mêmes ?

  • La sauvegarde différentielle est plus « intelligente ». Seuls les fichiers ayant été modifiés depuis la dernière sauvegarde sont copiés.

  • La sauvegarde incrémentielle consiste à n’ajouter que les données modifiées depuis la dernière sauvegarde différentielle. Elle est plus rapide que les autres… sauf lorsqu’il s’agit de restaurer les données.