Open data
Les données ouvertes, ou open data, sont des données non seulement accessibles gratuitement mais aussi réemployables par n’importe qui. Généralement, elles sont mises à disposition par des organisations publiques (gouvernements, musées, universités…).
Principes
Pour être qualifiées d’ouvertes, les données doivent remplir certaines conditions.
Disponibilité : elles doivent être facilement accessibles, en principe téléchargeables via Internet en format modifiable (CSV par exemple). Si les données se trouvent sur une page web, il est facile de les scrapper avec quelques lignes de code ou même de les transférer dans une feuille de calcul. Les métadonnées (date de création…) sont elles aussi disponibles.
Réutilisation : les ressources sont exploitables et réutilisables, éventuellement compilées avec d’autres (principe d’interopérabilité).
Participation universelle : aucune restriction ne doit être appliquée à leur utilisation, y compris à des fins commerciales.
D’autres critères concernent la nature des données : elles sont primaires (donc non travaillées), actualisées, complètes et… elles peuvent servir à quelque chose !
Il ne faut pas les confondre avec les données publiques. Celles de l’INSEE, par exemple, sont publiques et téléchargeables. Mais ce ne sont pas des données primaires. Si des tableaux sont diffusés, la source INSEE doit être mentionnée.
Historique
Le droit à l’information publique est revendiqué depuis longtemps. Il en est fait mention dans la déclaration des droits de l’homme et du citoyen de 1789. Mais il a pris une autre tournure avec le développement exponentiel des données numériques.
1995 : apparition du terme open data dans une publication scientifique américaine.
2004 : création à Cambridge (Grande-Bretagne) de l’association Open Knowledge Foundation dont l’objet est de promouvoir les œuvres libres (logiciels, photos, musiques…) et les données ouvertes.
2008 : les principes de l’open data sont définis à la rencontre de Sebastopol (Californie).
2009 : élection à la présidence des États-Unis de Barack Obama, particulièrement sensible à la mise à disposition publique des données. À peine élu, il lance le programme data.gov, portail de données ouvertes du gouvernement fédéral.
2011 : en France, création du portail data.gouv.fr et de l’administration chargée de le gérer, Etalab.
2013 : au cours de la réunion du G8 en Irlande du Nord, les dirigeants participants adoptent une charte pour l’ouverture au public de toutes les données publiques, à l’exception bien sûr de celles qui engagent la sécurité et la défense.
Pourquoi ?
Les objectifs sont multiples.
Mentionnons d’abord la coopération à la connaissance permise le traitement des données. Même un simple particulier peut créer de la valeur !
La transparence est une vertu dont peuvent se prévaloir les démocraties. À une époque où les théories complotistes fleurissent sur les réseaux sociaux, c’est même plus qu’une vertu. C’est une nécessité. Par exemple, Etalab a œuvré pour que l’algorithme d’admission post-bac soit public.
L’efficacité des pouvoirs publics est meilleure lorsque les données, en particulier l’utilisation des budgets, sont publiques. En effet, il est humain de gérer avec plus d'attention si tout le monde peut mettre le nez dans les comptes !
Dans la mesure où les données sont exploitables commercialement, l’open data peut créer des opportunités pour les entreprises et participer à l’innovation. Par exemple, il est fréquent que des applications sur smartphone soient liées à des bases de données ouvertes. Celles-ci sont également utilisables pour réaliser des études de marché. Dans le secteur médical, les données ouvertes sont un apport d'une grande richesse pour la recherche. Etc.
Exemples
https://opendata.paris.fr/pages/home
https://ressources.data.sncf.com/pages/accueil
En France, elles sont anonymisées. Il n’est pas question d’y trouver le casier judiciaire de votre voisin ou les sommes dépensées au tiercé par votre belle-mère.
Un site particulièrement visité est celui des musées de Paris qui offre des centaines de milliers de photos libres de droits.
https://www.parismuseescollections.paris.fr/fr/recherche/image-libre
Exemple de lithographie en donnée ouverte (musée Carnavalet, Paris).
Moteur de recherche pour trouver des jeux de données :
https://datasetsearch.research.google.com/
Sélection de jeux de données :
https://cloud.google.com/datasets?hl=fr
Limites
Alors, les données ouvertes n’ont que des qualités ? Pas vraiment.
D’ailleurs, la mise à disposition de données publiques est un acte politique. Elle risque donc de s’arrêter brutalement, au risque de priver de matière première les entreprises qui ont fondé leur business model dessus. Par exemple, certaines données accessibles sous la présidence de Barack Obama ne l’ont plus été sous celle de Donald Trump.
Les données ouvertes privilégient ceux qui ont les moyens de les exploiter. Par exemple, les musées qui abandonnent leur droit à l’image sur les œuvres ainsi mises à disposition se privent volontairement de recettes. Certes, cela facilite la diffusion d’images sur des médias non marchands (Wikipedia…) mais cette pratique est aussi un cadeau pour des éditeurs privés ou les géants d’Internet.
Voir aussi :
https://www.lebigdata.fr/open-data-definition