Les doublons

Suppression des doublons avec tableurs

Il n’est pas rare que les mêmes données soient enregistrées plusieurs fois dans une base malgré les précautions prises (listes déroulantes...). Les raisons sont diverses : saisie manuelle, fusion de deux bases de données, data engineer qui a mal fait son travail…

Si l’analyste ne corrige pas le problème, il risque de présenter des chiffres gonflés et le manageur, ravi de constater que le nombre de clients a été multiplié par deux, va hâtivement octroyer une prime non méritée aux commerciaux qui n’en demandaient pas tant.

Bref, la suppression des doublons (duplicates) fait partie de tout bon nettoyage de données. Elle intervient aussi au niveau de l'analyse, l'agrégation de deux bases nettoyées pouvant se traduire par de nouveaux doublons.

Ci-dessous, nous verrons comment les éliminer avec un tableur (donc, pas dans une problématique de big data).

doublons

 

Remarques préalables

Nous nous occuperons de lignes identiques ou presque et non du cas où deux enregistrements diffèrent sensiblement alors que ce sont en réalité les mêmes (par exemple l'un avec le bon code postal et l'autre avec les seuls chiffres du département).

Vérification de la plage de données

Il peut être utile de vérifier que la feuille de calcul ne contient que des données. En d’autres termes, il faut s’assurer que la cellule qui est à l’intersection de la dernière ligne et de la dernière colonne correspond bien au dernier champ du dernier enregistrement. Certes, il y a de très bonnes chances pour que ce soit le cas mais la vérification est vraiment rapide.

Avec Excel comme avec Google Sheets vous pouvez procéder de deux façons. Soit Ctrl A pour sélectionner toute la base, soit Ctrl et la touche Fin pour vous positionner sur la cellule qui se trouve à l’intersection de la dernière ligne et de la dernière colonne de la feuille (il existe aussi des procédures plus longues).

Espaces à supprimer

On peut très bien trouver deux chaînes de texte quasi identiques, mais dont l’une contient un blanc à gauche ou à droite. Ce sont bien des doublons. Pour que les étapes suivantes ne laissent pas passer ce type d’anomalie, nous vous conseillons une autre démarche préalable dont le but est de supprimer ces espaces.

Créez une nouvelle colonne, puis avec la fonction SUPPRESPACE (Excel) ou TRIM (Google Sheets) sélectionnez sur la même ligne la cellule de la colonne suspecte. Recopiez vers le bas. Non seulement la nouvelle colonne est exempte de blancs inutiles en début en en fin de chaîne, mais s’il y en avait un à l’intérieur de la chaîne de texte, à l’exemple d’un nom composé, il ne serait pas supprimé (en revanche, s’il y en avait deux, il n’y en aurait plus qu’un).

Vous pouvez ensuite copier-coller les valeurs sur elles-mêmes pour toute la colonne afin d’écraser la formule, puis couper-coller cette colonne sur l’ancienne susceptible de contenir des espaces inutiles.

Exemple avec Excel : ci-dessous, un enregistrement figure en triple mais la première ligne commence par un blanc, la seconde est correcte et la troisième comporte deux espaces entre le prénom et le nom.

avec blancs

Si vous lancez une procédure automatique comme nous le verrons un peu plus loin, vous obtenez ce désolant message : Aucune valeur en double trouvée.

Avec la fonction SUPPRESPACE recopiée vers le bas :

SUPPRESPACE

Sélection de la colonne C. Copier-coller les valeurs (Ctrl C puis V). Coller sur la colonne A (ou cliquer-glisser). Résultat :

corrigé

Si vous avez l’œil, vous remarquez la correction. Voir aussi l'exemple en page de modification des textes.

Victor Hugo

La barre de recherche et remplace est également un outil efficace de détection et de remplacement des doublons lorsque les incohérences ont déjà été identifiées.

Cohérence des formats

La cohérence des formats doit être vérifiée avant la chasse aux doublons. Si deux lignes sont identiques mais que l’une d’elles présente un nombre en format texte, alors le tableur considère qu’elles sont distinctes.

 

Suppression des doublons

Pour supprimer les doublons, vous pouvez soit faire une totale confiance à votre tableur, soit préférer visualiser les doublons avant de les supprimer un par un, pour une raison ou une autre (par exemple pour enquêter sur la présence de ces indésirables et traiter le problème à la source).

La visualisation passe par la mise en forme conditionnelle.

Pour supprimer automatiquement les doublons, positionnez-vous n’importe où dans la feuille de calcul (si ça ne fonctionne pas ainsi, sélectionnez toutes les données avec ctrl A).

Avec Excel, la suppression automatique passe par Données puis, dans les Outils de données, la suppression des doublons.

menu

La fenêtre suivante vous demande si vous sélectionnez toute la base ou seulement certaines colonnes et si celles-ci ont des entêtes. Répondez et le travail s’exécute.

Pour reprendre notre exemple…

hors doublons

Excel ajoute un message pour informer que 2 valeurs dupliquées ont été trouvées et supprimées et que 2 valeurs uniques ont été conservées.

Avec Google Sheets : Données puis Nettoyage des données puis Supprimez les doublons.

Une autre possibilité est de concaténer l’ensemble des champs dans une nouvelle colonne puis de ne vérifier que celle-ci, mais c’est une complication un peu inutile…

 

troupeau de doublons