Vue d'ensemble sur les statistiques
Selon le Petit Larousse, la statistique est l’« ensemble de méthodes mathématiques qui, à partir du recueil et de l’analyse de données réelles, permettent l’élaboration de modèles probabilistes autorisant les prévisions ». Étymologiquement, le terme est dérivé du latin Status, l'État. Les statistiques sont ce qui est nécessaire pour gouverner un État.
Elles n’ont pas toujours bonne presse. Accusées de présenter des chiffres tendancieux dans les débats politiques ou d’ignorer les réalités humaines qui se vivent derrière, elles n’en sont pas moins un formidable moyen d'apporter des connaissances.
Le champ des statistiques
Le terme statistiques regroupe un ensemble de techniques que nous recensons ci-dessous (et de notations). Elles s'appuient sur les mathématiques. Mais les maths ne font pas « parler les chiffres », y compris dans leurs applications pratiques (recherche opérationnelle, mathématiques financières, physique...). Les problématiques sont différentes. Par ailleurs, la démarche mathématique est généralement déductive (on part d'une propriété générale pour démontrer une propriété particulière) au contraire de celle des statistiques, souvent inductive (on extrapole les paramètres d'un échantillon à une population).
Survolons les diverses méthodes selon deux distinctions possibles.
La première d'entre elles sépare les techniques univariées des multivariées. Une technique univariée s’attache à une seule série d'un caractère donné ou à une seule mesure (même s’il y a plusieurs échantillons). Une technique multivariée analyse les éventuelles relations existant entre plusieurs caractères. Lorsque ceux-ci ne sont que deux, on parle d'analyse bivariée.
La seconde distinction est triple. Elle s'applique à la finalité des statistiques.
- D'abord, la technique peut être descriptive ; elle résume alors un ensemble d’observations, mettant en relief ce qui n'est pas ou peu perceptible directement. Ce sont notamment les statistiques publiées pour le grand public depuis les années 60 (du moins en France), époque à laquelle les journaux télévisés se sont emparés des données chiffrées.
- La problématique peut être prédictive (ou inférentielle) auquel cas on établit un modèle probabilisé généralisable à partir d'un échantillon. Les prédictions s'appuient toujours sur des statistiques descriptives qui ne constituent souvent qu'une première étape de la démarche statistique.
- Enfin, la problématique peut être prévisionnelle. Elle s'appuie alors sur des techniques prédictives particulières, adaptées aux séries temporelles. Certaines d'entre elles sont probabilistes. C'est donc leur finalité qui en fait leur spécificité et, en toute rigueur, on ne peut pas considérer qu'il s'agit d'une branche particulière des statistiques.
Univariées et desciptives
Une simple série statistique avec d'éventuels regroupements pour une présentation sous forme de tableau ne correspond qu’au sens vulgaire du mot statistiques. Pour mériter le label, il faut au moins calculer quelques informations synthétiques ! Ainsi, sur un seul caractère quantitatif, on peut établir la moyenne, l’écart-type, les quantiles… Quelques-unes de ces grandeurs sont enseignées au lycée. Vous trouverez tous les détails en page de distribution univariée et en suivant les liens qui y figurent.
Les séries chronologiques peuvent être comparées entre elles lorsqu'on les traduit en indices simples. C'est une simple technique comparative, donc descriptive.
Ces types d'analyses sont ceux qui offrent le plus de possibilités de représentations graphiques. Si le caractère est qualitatif, on représente les proportions observées des différentes modalités (graphique circulaire, par exemple) sans donner lieu à des calculs.
Multivariées et descriptives
Quelques techniques bivariées permettent d'estimer si un lien existe entre deux variables quantitatives (corrélation) ou qualitatives (test d’indépendance du khi²).
Les techniques multivariées sont plus souvent nommées « analyses de données ». On connaît les valeurs prises par plusieurs caractères et l’on souhaite s’en servir soit pour déceler des proximités entre unités statistiques soit pour faire apparaître des groupes homogènes. Ou au contraire, on s'appuie sur des ressemblances entre unités statistiques pour montrer des proximités de caractères. Ce sont les techniques de classification qui sont alors utilisées. Un autre ensemble de techniques, les analyses factorielles, visent non seulement à trouver les proximités entre caractères et/ou individus mais aussi à déterminer les critères qui contribuent le mieux à « expliquer » les différences. Il en existe plusieurs. Certaines sont adaptées aux caractères quantitatifs, d'autres aux caractères qualitatifs.
L’analyse discriminante descriptive tient une place particulière dans la mesure où il s’agit d’une analyse factorielle dont le but est proche de celui d’une classification.
Les graphiques utilisés sont les nuages de points dans les plans factoriels et, pour un certain type de classification (en l'occurrence la CAH), les dendrogrammes. Une description bivariée de variables qualitatives est réalisable par stéréogramme.
Enfin, un mot sur les indices composites : on peut les qualifier de descriptifs car, bien qu’établis sur des séries temporelles ils n’ont pas de finalité prédictive et de bivariés dans la mesure où ils font intervenir des prix et des quantités.
Univariées et prédictives
Considérons à présent un échantillon aléatoire dont on voudrait extrapoler quelques uns de ses paramètres (moyenne, proportion, variance) à une population totale, ou encore les comparer aux paramètres d'un ou plusieurs autres échantillons.
Ces paramètres auraient pu être différents car il existe des fluctuations d'échantillonnage. Ce sont donc des valeurs prises par une variable aléatoire.
Nous voici au pays des estimateurs et des tests.
En effet, on ESTIMERA le paramètre réel de la population à partir d'un paramètre observé sur l'échantillon.
Un test permettra d'accepter ou non une hypothèse sur un paramètre avec un risque d'erreur assumé. L’évaluation d’un risque repose évidemment sur des probabilités. Nous nous situons dans le champ des statistiques probabilistes. Si la démarche vise à étendre à toute une population ce qui est observé sur un échantillon, on parle de statistiques inférentielles.
Il faut connaître la loi de probabilité que suit le caractère observé. Certaines lois théoriques sont bien connues (loi normale, loi de Poisson…) et il est pratique de les utiliser parce qu’on peut alors employer des tests dit « paramétriques » particulièrement efficaces. Encore faut-il pouvoir rattacher une distribution observée à l’une de ces distributions théoriques. Afin d’estimer si elle suit une loi en particulier, un premier test peut être réalisé (test d’adéquation à une loi ; voir tests de normalité, test de Kolmogorov, test d’adéquation du khi²). Si la distribution ne peut être rattachée à une loi théorique ou si les observations sont trop peu nombreuses, on utilise des tests non paramétriques, souvent moins puissants…
Les types de tests sont nombreux, certains étant applicables aux caractères quantitatifs et d’autres aux qualitatifs.
Ils ne donnent pas lieu à des représentations graphiques, la problématique étant plutôt de savoir si les graphiques de statistiques descriptives sur un échantillon peuvent représenter d’autres échantillons ou une population entière…
Multivariées et prédictives
Lorsque les caractères sont quantitatifs, la technique bivariée prédictive la plus connue est la régression linéaire simple. On s’intéresse à la relation entre une variable explicative et une variable dite expliquée. Il existe d'autres types de régressions simples, qui ne sont pas linéaires. La technique multivariée est la régression multiple. Les régressions peuvent être considérées comme simplement descriptives mais généralement, elles intègrent des notions probabilistes pour évaluer la qualité de leurs paramètres, ceci afin d'estimer leur capacité à prévoir.
Lorsque les caractères sont qualitatifs, les techniques sont l'ANOVA et l'ANOVA multivariée.
Mentionnons enfin l’analyse discriminante prédictive.
Prévisionnelles
La distinction entre univariées et multivariées n’est pas habituelle dans le cadre des techniques prévisionnelles, la plupart d’entre elles étant univariées.
Certaines font cependant du multivarié avec de l’univarié ! En effet, elles considèrent chaque observation comme une variable aléatoire particulière. Les diverses techniques figurent en page de prévision des ventes. Si une régression multiple intègre une ou plusieurs variables « temps » parmi ses variables explicatives pour extrapoler la variable expliquée dans le futur, on peut la considérer comme une technique multivariée prévisionnelle.
Les graphiques associés sont toujours des courbes, éventuellement accompagnées d’un nuage de points…