Le théorème de Bayes

Théorème de probabilité des causes

Ne tombons pas dans la facilité pour constater que le théorème de Bayes a fait « couler beaucoup d’encre », mais il a tout de même fait graver pas mal de mégaoctets. En effet, le révérend Thomas Bayes (prononcer Baïz) aurait été surpris que son « théorème », publié après sa mort (survenue en 1761), devienne une branche si féconde et si controversée des statistiques probabilistes.

 

Un vieux débat

Pourquoi controversée ? G. Saporta in Probabiltés, analyse des données et statistiques (Technip 2006) p. 10 : « le théorème de Bayes est souvent appelé théorème sur la « probabilité des causes » (…). Son application générale a donné lieu à de violentes critiques de la part des logiciens pour qui causalité et aléatoire sont antinomiques : il n’y a qu’une cause possible parmi des causes mutuellement exclusives et leur donner des probabilités n’aurait aucun sens. »

 

Problématique

Clarifions. Dans une situation classique, nous savons que nous avons des billes de différentes couleurs dans un sac et nous déterminons la probabilité de tirer au hasard une ou des boules de telle couleur. Dans la problématique bayésienne, nous tirons au hasard des boules (avec remise) et nous en déduisons la probabilité du nombres de boules de telle couleur dans le sac.

 

Principe

Si vous avez quelques notions de probabilités, vous connaissez depuis la terminale la formule des probabilités conditionnelles :

\(P(A/B) = \displaystyle{\frac{P(A \cap B)}{P(B)}}\)

Précision : \(P(A/B)\) s'écrit aussi \(P_B(A).\)

Si \(A\) et \(B\) sont deux évènements, la probabilité que \(A\) se produise sachant \(B\) réalisé est égale à la probabilité que les deux évènements surviennent au cours de la même épreuve, rapportée à la probabilité que \(B\) survienne. Si cette formule ne vous semble pas suffisamment intuitive, vous pouvez vous référer aux arbres de probabilités...

Dans sa version simple, le théorème ou formule de Bayes en découle :

\(P(A/B)= \displaystyle{\frac{P(A) P(B/A)}{P(B)}}\)

Cette formule fait le lien entre les deux probabilités conditionnelles \(P(A/B)\) et \(P(B/A).\) Si l'on connaît une probabilité de \(B\) sachant \(A,\) alors on peut connaître la probabilité de \(A\) sachant \(B.\) C'est une question habituelle au bac, bien que la formule telle qu'elle est présentée ici ne soit pas au programme de terminale.

S’il existe plusieurs évènements \(C\) possibles on obtient la version composée de la formule de Bayes. Au dénominateur se trouve la formule des probabilités totales. Remarquons que le théorème mérite son appellation de probabilité des causes puisqu’en pratique, on peut calculer la probabilité d’une cause sachant la conséquence. Ainsi, si un résultat \(B\) peut être dû à \(n\) causes possibles \(C\) et si l’on cherche la probabilité que \(B\) est dû à \(C_1,\) la formule est la suivante :

\(P(C_1/B)\) \(=\) \(\frac{P(C_1)P(B/C_1)}{P(B/C_1)P(C_1) + ... + P(B/C_n)P(C_n)}\)

 

Exemple

Dans un établissement financier, un dossier de crédit affecté arrive au service des recouvrements (au premier impayé) dès sa première année. Que peut-il arriver ? Soit le client règle la situation mais le dossier reviendra un jour en recouvrement (\(50\%\) des cas), soit c’est un simple incident et tout se passera bien ensuite (\(25\%)\) soit le dossier de crédit finira sa course au service du contentieux juridique (\(25\%)\).

dossiers

Initialement, le dossier a pu être accepté avec un apport financier du client ou non puisqu'un crédit peut très bien ne financer que partiellement un achat. Et à ce propos, on a remarqué que \(30\%\) des dossiers qui reviendront en recouvrement bénéficiaient d’un apport personnel, contre \(20\%\) pour ceux qui termineront au service contentieux et \(50\%\) pour les dossiers qui redeviendront sains.

Afin que la lettre de relance au client ait un maximum de chances d'être adaptée à la situation, on détermine la probabilité qu’un dossier avec apport transmis au service du recouvrement dès la première année n’enregistre pas d’autre incident de paiement.

Soit \(R_1\) l'évènement Recouvrement en première année, \(R_2\) l'évènement Retour en recouvrement, \(B\) Tout se passe Bien, \(C\) Entrée en Contentieux et \(A\) le fait qu'un crédit s'accompagne d'un Apport (nous noterons sa probabilité \(P(A)\) mais en toute rigueur il s'agit de \(P(A/R_1)\)).

Nous cherchons donc à connaître \(P(B/A).\)

Quelle valeur sera au dénominateur de la formule ? Pour cela, nous appliquons la propriété des probabilités totales aux dossiers avec apport : \(P(A)\) \(=\) \(P(A/R_2) + P(A/C) + P(A/B).\)

Soit \((0,5 × 0,3)\) \(+\) \((0,25 × 0,2)\) \(+\) \((0,25 × 0,5)\) \(=\) \(0,325.\)

Au numérateur, nous avons \(P(B) × P(A/B),\) c'est-à-dire \(P(A \cap B).\)

Donc nous multiplions \(P(B) = 0,25\) par \(P(A/B) = 0,5,\) soit \(P(A \cap B) = 0,125.\)

Ainsi la réponse à la question est \(\frac{0,125}{0,325} \approx 0,385.\) En d’autres termes, il y a \(25\%\) de chances qu’un dossier redevienne sain mais, si l’on sait que c’est un dossier avec apport, on atteint \(38,5\%\) de chances.

Merci, révérend Bayes.

 

il rentre du café