La notation statistique

Notation en statistiques et probabilités

La notation statistique relève parfois du casse-tête. Si certains symboles font l’unanimité, d’autres varient d’un auteur ou d’un logiciel à l’autre. D’où l’idée de faire ici une mise au point (très imparfaite). Les principaux symboles exprimant les notions statistiques et de probabilités sont recensés. Nous ne reprendrons toutefois ni ceux qui relèvent d’études de séries chronologiques à des fins prévisionnelles (sauf bien sûr ceux qui sont employés en régression) ni les paramètres des lois de probabilité usuelles.

Par le passé, les notations employées sur ce site ont traduit ce flottement. Elles seront toujours sujettes à critiques. En effet, nous nous efforçons de respecter une certaine cohérence mais, comme certaines pages s’adressent à des lycéens et d’autres à des étudiants ou des professionnels, lesquels sont habitués à des notations qui diffèrent entre manuels scolaires et universitaires (eux-mêmes hétérogènes), l’exigence de rigueur devient vite mission impossible ! Précisons que pour couronner le tout, l’Éducation Nationale impose parfois des notations différentes d’une filière à l’autre…

 

L’effectif

L’effectif total d’une population est généralement noté \(N\) et l’effectif d’un échantillon \(n\). Lorsque l’échantillon ou la population est découpée en classes indicées \(i\), l’effectif d’une classe est \(n_i\). En effet, le « compteur » a ceci d’appréciable d’être toujours nommé \(i\) et de toujours figurer en indice !

Dans le cas de croisement entre deux variables, la seconde est indicée \(j\). Ainsi, l’effectif qui vérifie à la fois la modalité \(i\) de la première variable et la modalité \(j\) de la seconde est noté \(n_{ij}\) ; l’effectif marginal de la modalité \(i\) s’écrit alors \(n_{i.}\).

 

Caractères et variables aléatoires

La fréquence observée d’une classe est notée \(f_i\) (s’il y a deux variables, voir ci-dessus le système d’indices). Pas de confusion possible avec une fréquence « théorique » puisque celle-ci est alors une proportion (\(p\)).

En général, le nombre de classes est lui aussi noté \(p\).

Le caractère statistique d’une série à une variable est souvent noté soit \(x\) soit \(X\) (en minuscules sur ce site). Un second caractère est noté soit \(y\) soit \(Y\). S’il y en a davantage, ils sont notés \(x_1\), \(x_2\)… ou \(X_1\)...

Les variables aléatoires sont toujours écrites en majuscules.

 

Trois contextes

Cette notion de variable aléatoire nous amène au nœud du problème. L’essentiel des différences de notations selon les auteurs proviennent de la triple nature des notions statistiques.

Si les statistiques sont établies sur une population et que l’on ne cherche pas à inférer nos observations, on travaille sur des caractères. Le cadre est celui des statistiques descriptives et les notations employées sont parfois spécifiques.

Si un travail est réalisé sur un échantillon aléatoire, les observations sont les réalisations de variables aléatoires. Mais les données d’échantillons ont pour but d’être extrapolées à la population dans son ensemble. On distingue alors les indicateurs d’échantillon (mesurés) ou empiriques et ceux de la population (estimés). Souvent, on emploie deux types de notation, comme nous allons le voir ; on nomme alors les notions d’échantillon avec les habituelles lettres latines et celles qui définissent la population avec des lettres grecques.

Enfin, certains auteurs distinguent les statistiques d’échantillon (lettres latines en majuscules) des réalisations de statistiques d’échantillon (en minuscules). Sur ce site, cette distinction n’est pas faite.

 

Sommes et produits

La somme est symbolisée par un sigma majuscule (\(\Sigma\)). Pour indiquer qu’elle commence au premier élément à additionner, on indique \(i=1\) au-dessous et, s’il y a \(n\) éléments, un \(n\) figure au-dessus. Comme cette notation complète est un peu lourde, on se contente de \(\Sigma \) lorsque les formules sont compliquées à écrire.

Voici par exemple comment noter que l’effectif d’une population découpée en \(p\) classe est la somme des effectifs de chaque classe :

\[\sum\limits_{i = 1}^p {{n_i} = } N\]

De même le produit est un pi majuscule \((\Pi).\)

 

Moyenne

On apprend dans le secondaire que la moyenne d’un caractère \(x\) se note \(\overline {\rm{x}}. \) C’est l’écriture utilisée sur ce site. On trouve aussi \(m\).

Lorsque la moyenne est ESTIMÉE sur une population, non seulement la notation change mais le nom aussi. Il s’agit alors d’une espérance mathématique, qui s’écrit toujours \(E(X)\) (si la variable aléatoire est \(X\), bien entendu). Cette espérance doit être égale à \(\mu\) qui est la vraie moyenne inconnue de la population (mais elle est connue pour les lois de probabilités théoriques).

 

Probabilités

La probabilité s’écrit avec un \(P\) en minuscule ou en majuscule, rarement \(Pr\). La probabilité de l’évènement \(A\) s’écrit donc \(p(A)\) ou \(P(A).\)

L’évènement contraire de \(A\) est souvent noté \(\overline A \) (sur ce site), rarement \(A^c.\) Ces écritures ne sont pas propres aux probabilités mais inhérentes à la théorie des ensembles.

Sur le conditionnement, voir la page sur les probabilités conditionnelles.

L’évènement d’une probabilité s’écrit entre parenthèses (on trouve des accolades dans d’anciens manuels) mais on préfère les crochets lorsqu’on écrit la probabilité d’une égalité. Par exemple, la probabilité qu’une variable aléatoire \(X\) prenne la valeur \(x_i\) peut être notée \(p[X = x_i]\), plus rarement \(P_x(x_i).\)

Pour indiquer qu’un paramètre suit une loi de probabilité théorique on utilise une flèche spéciale mais non normalisée : \(\hookrightarrow\) ou \(\sim.\) Sur ce site, c’est la flèche \(\leadsto\) qui est employée (en LATEX : \leadsto). Elle est peut-être un peu ancienne mais elle montre bien l’idée de « suivre » une loi…

 

Dispersion et régression

La variance peut être notée \(V(x)\), \(V(X)\), \(Var(x)\) ou \(\sigma^2\) (avec \(x\) en indice s’il y a une confusion possible avec un caractère \(y\), parfois \(e^2\) ou simplement \(V.\) Sur ce site, c’est la notation \(V(X)\) qui est retenue pour une variable aléatoire et \(sigma²_x\) pour une variable statistique. Sur un échantillon, on emploie assez fréquemment \(s^2\) ou \(S^2.\) Attention, la notation \(\sigma^2\) ou \(s^2\) sans précision de variable est très souvent réservée à la variance des erreurs ou des résidus d’une régression. De même l’écart-type est \(\sigma\) ou \(s.\)

La covariance utilise la même notation que la variance. Là où celle-ci est noté \(Var(X)\), la covariance est notée \(Cov(X,Y)\) (avec ou sans virgule entre \(X\) et \(Y\) selon les auteurs). C’est ainsi qu’elle est notée sur ce site. Pour des variables statistiques : \(σ_{xy}.\)

En statistiques descriptives, le coefficient de corrélation est le plus souvent noté \(r\). Idem lorsqu’il est calculé sur un échantillon. En revanche, estimé sur une population, il s’écrit \(\rho\). Le coefficient de détermination est souvent noté \(r^2\), sauf s’il est estimé sur une population (\(R^2\)).

Les paramètres d’une droite de régression linéaire simple varient d’un auteur à l’autre. La pente de la droite peut être \(a\), \(a_1\), \(\beta_1\)… L’ordonnée à l’origine est alors soit \(b\), soit \(a_0\), soit \(\beta_0\)… Sur ce site nous avons retenu \(a\) et \(b\), bien que cette notation ne soit pas la meilleure pour passer à la régression multiple.

Dans le cadre d'un modèle stochstique, les erreurs sont notées \(\varepsilon \) et les résidus \(e\), rarement \(u\).

Voir aussi la page sur les indicateurs d’écarts.

 

Autres indicateurs

La médiane est soit notée \(Me\) (notation retenue sur ce site), soit \(\mathscr M\) ou \(M\). Les premier et troisième quartiles sont notés \(Q_1\) et \(Q_3\) sur ce site. On trouve parfois \(\mathscr {Q}_1\)…

Indice de Gini : \(IG\), \(G\), \(\gamma\)…

Pour les autres indicateurs, voir les pages qui leur sont consacrées (aplatissement, symétrie, coefficient de variation, indices composites…).