Packages de R et Tidyverse
À l’instar de Python, R s’appuie sur des fonctions de base complétées par des modules concoctés par d’aimables contributeurs. Ce sont les packages, c’est-à-dire des ensembles de fonctions qui répondent à des besoins particuliers.
Diversité des packages
Le noyau de R est relativement bien fourni. Inutile d’appeler un module complémentaire pour obtenir une racine carrée, comme c’est le cas avec Python !
En fait, certains packages sont chargés par défaut : base, stats, datasets, graphics…
Mais si vous avez besoin de fonctions plus exotiques, sachez qu’il en existe une quantité impressionnante. Le lien suivant est celui du CRAN qui renvoie aux différents packages par domaines (finance, épidémiologie, hydrologie…), par types de techniques statistiques et mathématiques (séries temporelles, lois de probabilités…) ou par fonctionnalités (graphiques, cartes…).
https://cran.r-project.org/web/views/
Certains sont tout de même plus utilisés que d’autres !
https://support.posit.co/hc/en-us/articles/201057987-Quick-list-of-useful-R-packages
Attention toutefois, certains packages ne fonctionnent qu’avec les versions les plus récentes de R. Il est donc recommandé de mettre votre version de R à jour très régulièrement comme c’est d’ailleurs le cas pour tout logiciel pour des raisons de fonctionnalités, de compatibilité et de cybersécurité. Ensuite, faites de même avec les packages (l’opération est très simple avec RStudio mais vous pouvez aussi les réinstaller).
Tidyverse
Le Tidyverse est un ensemble de packages dédiés à l’analyse de données. Ils sont conçus pour travailler ensemble mais vous pouvez n’en charger que quelques-uns.
Les données doivent être organisées selon le modèle tidy, c’est-à-dire sous forme de tables qui contiennent des éléments de même nature, avec variables en colonnes et observations en lignes.
Le noyau dur du Tidyverse, qui se charge avec l’instruction library(tidyverse), comprend les huit packages suivants :
- dplyr : fonctions de manipulation de données (select, filter…).
- forcats : gestion améliorée des facteurs.
- ggplot2 : réalisation de graphiques.
- purrr : pour simplifier le code (par exemple en évitant des boucles).
- readr : importation des données. Exemple de fonction : read_csv.
- stringr : manipulation des chaînes de caractères.
- tibble : de nombreuses fonctions du Tidyverse acceptent les tables mais renvoient des objets de classe tibble (pas de noms de lignes, différences d’affichage…).
- tidyr : nettoyage des données (mise en forme tidy).
Installation et chargement
D’abord il faut installer le package (connexion Internet indispensable !) avec l’instruction suivante :
install.packages("nom du package")
Si vous en installez plusieurs en même temps, présentez-les sous forme de vecteur :
install.pacakage(c("nom1", "nom2"…))
En l’absence de RStudio ou autre EDI, l’installation peut être mise en œuvre par le menu de RGui.
Une très longue liste apparaît. Adonnez-vous au shopping gratuit.
Il existe des sites miroirs validés par le CRAN. Ce sont souvent des serveurs d’universités à partir desquels on importe les packages. L’intérêt de choisir un serveur proche de son lieu de travail est de réduire les temps de réponse.
Une fois installé en local, le package doit être chargé chaque fois qu’un programme le nécessite avec la fonction library. Il est recommandé de l’appeler au début du programme.
library(nom_du_package)
Une fenêtre de RStudio est dédiée aux packages (en bas à droite, onglet Packages). Vous y trouvez ceux que vous avez installés en local. Pour en charger un, il suffit de cocher son nom. Un simple bouton permet de les mettre à jour.
Fonctions d’un package
Pour connaître la liste des fonctions incluses dans un package (ici, le package graphics) :
ls("package:graphics")
La liste est parfois beaucoup plus longue…