Fréquences et moyenne
La fréquence est un concept simple à comprendre. Il est enseigné dès le collège, après celui de série statistique. Bien sûr, il existe quelques curiosités qui seront évoquées ici mais dans l’ensemble, le sujet ne pose pas de gros problèmes. Précisons que si cette page a été rédigée à titre de rappel pour les élèves de seconde, il n’est pas inutile de la relire en première année de fac lorsque les souvenirs de statistiques sont déjà lointains...
Contexte
On étudie un caractère sur une population. Il est soit qualitatif, soit quantitatif discret, soit continu. Voyons des exemples de chacun de ces trois types.
Qualitatif
Soit une entreprise qui produit des stylos. Il en existe de quatre couleurs : des noirs, des bleus, des rouges et des verts. Une livraison de stylos s’analyse comme suit :
Le caractère est la couleur. Il est qualitatif puisque la couleur est une « qualité » et non une valeur. Si l’on additionne tous les stylos, on s’aperçoit que la population s’élève à 12 000 stylos. À partir de ce total, on peut établir les fréquences. La procédure est très simple puisqu’il suffit de diviser l’effectif de chaque modalité, en l’occurrence chacune des quatre couleurs, par l’effectif total. Par exemple, la fréquence des noirs est \(\frac{5\,000}{12\,000},\) soit environ 0,417. Ainsi, le tableau apparaît ainsi :
Les décimales ont été arrondies. Il aurait été plus exact de laisser les fractions mais, bien que tous les profs de maths ne soient pas de cet avis, une qualité importante des statistiques est de pouvoir être comprises rapidement et facilement par les lecteurs plutôt que d’être mathématiquement exactes…
Voir aussi les fréquences avec calculatrices (TI, Casio et Numworks).
Une fréquence se note généralement \(f_i,\) l'indice \(i\) pouvant dans cette exemple prendre quatre valeurs puisque le caractère possède quatre modalités (couleurs).
La somme de toutes les fréquences est égale à 1. Ces dernières pourraient se présenter sous forme de pourcentages. Leur somme vaudrait alors \(100\%.\) Mais il n’est pas très correct de nommer « fréquences » des pourcentages.
Profitons-en pour faire le lien avec les probabilités : si l’on tire au hasard un stylo, quelle est la probabilité qu’il soit noir ? 0,417.
Graphiquement, les caractères qualitatifs sont généralement présentés sous forme de diagramme circulaire (nommé graphique en secteurs par Excel ou « camembert » en langage courant). On peut en réaliser un avec les effectifs ou avec les fréquences. Dans les deux cas, les tailles relatives des parts du gâteau seront exactement les mêmes.
Les élèves de troisième ou de seconde peuvent être amenés à réaliser de tels diagrammes avec un compas. À une époque où l’ordinateur est omniprésent, on peut se demander si les têtes pensantes qui ont concocté une telle perversité ne sont pas légèrement fêlées. En fait, c’est un moyen comme un autre d’appliquer la proportionnalité. Sachant qu’un tour complet vaut \(360°\) et que la fréquence des stylos rouges est de 0,125, l’angle du secteur rouge est de \(360 \times 0,125 = 45°.\)
Quantitatif discret
Voyons maintenant ce que peut être un caractère discret. Nos 12 000 stylos sont répartis dans des sachets pour être vendus. Supposons qu’il existe des sachets de 2 stylos, des sachets de 4 et des sachets de 10. On peut établir une répartition d’une nouvelle population qui n’est pas celle des stylos mais des sachets.
Pour obtenir les fréquences, on a rapporté chaque effectif à un effevctif total de 4 700 sachets. Remarquez que l’on ordonne toujours les valeurs du caractère, de la plus petite à la plus grande.
Avec une variable numérique, il est possible de s’amuser un peu plus qu’avec un caractère qualitatif. On peut calculer une moyenne, un écart-type, etc.
Ainsi, il y a deux façons de calculer le nombre moyen de stylos par sachet. La formule qui utilise les effectifs permet d’obtenir \(\frac{(2 \times 4\,000) + (4 \times 500) + (10 \times 200)}{4\,700}\) \(\approx 2,55.\)
Mais on peut aussi se servir des fréquences : \((2 \times 0,851)\)\(+ (4 \times 0,106)\)\(+ (10 \times 0,043)\) donne le même résultat aux arrondis près.
Au passage, profitons-en pour rappeler un peu de vocabulaire. L’étendue est la différence entre les valeurs extrêmes (ici, \(10 - 2 = 8\) ; la différence entre le plus petit et le plus gros sachet est de 8 stylos) et le mode est la valeur du caractère le plus représenté (ici, le sachet de 2 stylos ; donc mode = 2).
Une fréquence cumulée s’obtient en additionnant chaque fréquence avec la précédente. Du coup, la première est égale à la première fréquence non cumulée et la dernière est théoriquement égale à 1 (en pratique, il peut exister un très léger écart en raison des arrondis).
Pour construire le tableau, \(0,851 + 0,106 = 0,957,\) etc.
Les applications des fréquences cumulées sont infinies mais en seconde, elles servent surtout à trouver la médiane et les quartiles lorsque la calculatrice est interdite (ou que ses piles sont mortes). La médiane est la valeur du caractère dans laquelle se trouve la fréquence cumulée 0,5. On peut aussi faire un cumul inverse, en partant de la fin. Le graphique qui représente habituellement la distribution d’un caractère discret est le graphique en barres.
Quantitatif continu
Enfin, dernier cas, celui des caractères continus. Leur étude nécessite des étapes supplémentaires préalables. D’abord, la population est découpée en classes (au lycée, c’est déjà fait dans l’énoncé). Ensuite, on retient les centres de classe puis on poursuit l’analyse comme dans le cas discret. Le graphique approprié est l’histogramme, toujours délicat à construire lorsque les classes n’ont pas la même amplitude…
Et ensuite...
Voir aussi les pages sur les séries statistiques continues et l'exercice sur série discrète (niveau classe de seconde).
Dans les classes de premières technologiques, on s'intéresse aux fréquences à partir de tableaux à double entrée (voir la page d'exercice sur fréquences).