La règle de Bayes – BCPST2 – Mathématiques & informatique

C'est deux ans après la mort de Bayes, en 1763, qu'est publié l'Essai en vu de résoudre un problème sur la doctrine des chances dans les Philosophical Transactions de la Royal Society. Membre de la Société Royale depuis 1742, fis d'un Ministre de l'église presbytérienne, lui même ministre non conformiste, son travail ne serait jamais paru si son ami, Richard Price, ne l'avait exhumé des archives du défunt pour le publier et en souligner l'intérêt. Il est pourtant passé complètement inaperçu et n'a suscité aucun commentaire jusqu'à ce que Laplace, en 1774, publie son Mémoire sur la probabilité des causes par les événements, dans lequel il présente une règle assez proche, sans pour autant avoir connaissance du texte de Bayes !
La formule de Bayes qui est à notre programme est, de fait, bien davantage le principe de Laplace qu'il formule ainsi :

"Si un événement peut être produit par un nombre n de causes différentes, les probabilités de l'existence des ces causes prises de l'événement sont entre elles comme les probabilités de l'événement prises de ces causes, et la probabilité de l'existence de chacune d'elles est égale à la probabilité de l'événement prise de cette cause, divisée par la somme de toutes les probabilités de l'événement prises de chacune de ces causes."

Humm... autorisons-nous une petite traduction en prenant le cas $n=2$ et posons E un événement qui peut être le résultat de l'une ou l'autre des deux causes A et B. Avec des notations qui sont les nôtres aujourd'hui, la première affirmation de traduit par le relation de proportionnalité :

$\cfrac{P(A|E)}{P(B|E)}=\cfrac{P(E|A)}{P(E|B)}$

Quant à la seconde, elle affirme que :

$P(A|E) = \cfrac{P(E|A)}{P(E|A)+P(E|B)}$

Ces deux égalités devraient pour le moins vous surprendre mais il faut comprendre que, sous les hypothèses laplaciennes $P(A)=P(B)$ . Vérifiez alors la véracité des relations précédentes. D'ailleurs, dans son Essai philosophique sur les probabilités, Laplace ne manque pas de compléter :

"Si ces diverses causes considérées a priori sont inégalement probables, il faut, au lieu de la probabilité de l'événement, résultante de cette cause, employer le produit de cette probabilité, par la possibilité de la cause elle même observée"

Soit $P(A|E) = \cfrac{P(E|A).P(A)}{P(E|A)P(A)+P(E|B)P(B)}$

Mais revenons au sens de la formule écrite la première fois par Bayes. L'idée forte est d'évaluer la pertinence de ce qu’on croit savoir (H) à l’aune de l’information apportée par une observation (O). C'est un cas pratique extrêmement fréquent. Il suffit de penser au diagnostic médical qui est posé à partir des seuls symptômes, au droit pénal lorsqu'il s'agit d'évaluer le degré de culpabilité présumée d'un justiciable... Dans http://www.breves-de-maths.fr/la-petite-formule-de-tom/, Eric Parent (AgroParisTech) donne un exemple moderne d'application en considérant l'hypothèse du réchauffement moyen de notre planète et l'observation de la fonte de la calotte glaciaire.

Je vous propose pour ma part une formulation plus proche de votre cours : Considérons deux urnes A et B, l'une composée de 9 boules blanches et 1 boule noire, l'autre composée de 5 boules blanches et 5 noires. Pour déterminer l'urne dans laquelle le tirage aura lieu, on lance un dé non équilibré dont la probabilité d'obtenir face vaut 0.6. Sans avoir assisté ni au lancer de dé, ni au tirage, on nous tend une boule noire et on nous demande d'estimer la probabilité que le tirage ait eu lieu dans l'urne A... A priori, la probabilité de tirer dans l'urne A est supérieure à celle de tirer dans l'urne B (0.6 contre 0.4) mais cette observation de la boule noire extraite change la donne... Comment ?

$P(A|N)=\cfrac{P(N|A)P(A)}{P(N|A)P(A)+P(N|B)P(B)}=\cfrac{\frac{1}{10}\frac{6}{10}}{ \frac{1}{10}\frac{6}{10} + \frac{1}{2}\frac{4}{10} }$

ou encore $P(A|N)=\cfrac{3}{13}<P(A)$

La règle de Bayes est au fond une règle de prudence. Elle permet d'éviter une induction trop rapide à l'appui de quelques expériences passées, qui ferait dire ici que, puisque l'urne A est choisie 6 fois sur 10, il est raisonnable d'imaginer que la noire provient de l'urne A... Ce que nous apprend cette règle c'est que nous devons suspendre notre évaluation dans l'attente d'observations qui risquent de contredire notre hypothèse, comme c'est le cas dans l'exemple des urnes...

Par ailleurs, si on contextualise cette formule qui apparait en Angleterre dans la deuxième moitié du XVIIIè siècle, c'est-à-dire dans un contexte newtonien, on doit sentir les remous qu'elle provoque et le changement de paradigme qu'elle induit. En effet, comme l'écrit Jean-Pierre Cléro dans La portée physique et sociale de la règle de Bayes :

"Alors que la structure newtonienne élémentaire qui conduit à la loi se compose de phénomènes, d'un Auteur divin qui édicte la loi des choses, puis d'une activité d'induction et de mise en forme mathématique qui rejoint idéalement cette loi en reconstruisant schématiquement l'intermédiaire de phénomènes et de l'édiction autoritaire, la structure bayesienne comprend les phénomènes, une annonce d'espérance à leur égard et une évaluation de cette annonce d'espérance par confrontation de la combinaison sortie avec l'ensemble des combinaisons possibles.
[...] le support des probabilités est le sujet qui conjecture, pris entre les informations phénoménales dont il dispose et l'immense poids des possibles.

Concluons avec lui que la réalité bayesienne est complexe. Elle n'est pas celle d'une nature dont Dieu serait l'auteur. Elle est au contraire fortement "anthropologisée" ou "humanisée", révélée au fil de la lecture par un "I guess" systématique utilisé par Bayes dans chacune de ses démonstrations.