Bayes Regel Beispiel Essay

Bayes’ theorem was the subject of a detailed article. The essay is good, but over 15,000 words long — here’s the condensed version for Bayesian newcomers like myself:

  • Tests are not the event. We have a cancer test, separate from the event of actually having cancer. We have a test for spam, separate from the event of actually having a spam message.

  • Tests are flawed. Tests detect things that don’t exist (false positive), and miss things that do exist (false negative).

  • Tests give us test probabilities, not the real probabilities. People often consider the test results directly, without considering the errors in the tests.

  • False positives skew results. Suppose you are searching for something really rare (1 in a million). Even with a good test, it’s likely that a positive result is really a false positive on somebody in the 999,999.

  • People prefer natural numbers. Saying “100 in 10,000″ rather than “1%” helps people work through the numbers with fewer errors, especially with multiple percentages (“Of those 100, 80 will test positive” rather than “80% of the 1% will test positive”).

  • Even science is a test. At a philosophical level, scientific experiments can be considered “potentially flawed tests” and need to be treated accordingly. There is a test for a chemical, or a phenomenon, and there is the event of the phenomenon itself. Our tests and measuring equipment have some inherent rate of error.

Bayes’ theorem converts the results from your test into the real probability of the event. For example, you can:

  • Correct for measurement errors. If you know the real probabilities and the chance of a false positive and false negative, you can correct for measurement errors.

  • Relate the actual probability to the measured test probability. Bayes’ theorem lets you relate Pr(A|X), the chance that an event A happened given the indicator X, and Pr(X|A), the chance the indicator X happened given that event A occurred. Given mammogram test results and known error rates, you can predict the actual chance of having cancer.

Anatomy of a Test

The article describes a cancer testing scenario:

  • 1% of women have breast cancer (and therefore 99% do not).
  • 80% of mammograms detect breast cancer when it is there (and therefore 20% miss it).
  • 9.6% of mammograms detect breast cancer when it’s not there (and therefore 90.4% correctly return a negative result).

Put in a table, the probabilities look like this:

How do we read it?

  • 1% of people have cancer
  • If you already have cancer, you are in the first column. There’s an 80% chance you will test positive. There’s a 20% chance you will test negative.
  • If you don’t have cancer, you are in the second column. There’s a 9.6% chance you will test positive, and a 90.4% chance you will test negative.

How Accurate Is The Test?

Now suppose you get a positive test result. What are the chances you have cancer? 80%? 99%? 1%?

Here’s how I think about it:

  • Ok, we got a positive result. It means we’re somewhere in the top row of our table. Let’s not assume anything — it could be a true positive or a false positive.
  • The chances of a true positive = chance you have cancer * chance test caught it = 1% * 80% = .008
  • The chances of a false positive = chance you don’t have cancer * chance test caught it anyway = 99% * 9.6% = 0.09504

The table looks like this:

And what was the question again? Oh yes: what’s the chance we really have cancer if we get a positive result. The chance of an event is the number of ways it could happen given all possible outcomes:

The chance of getting a real, positive result is .008. The chance of getting any type of positive result is the chance of a true positive plus the chance of a false positive (.008 + 0.09504 = .10304).

So, our chance of cancer is .008/.10304 = 0.0776, or about 7.8%.

Interesting — a positive mammogram only means you have a 7.8% chance of cancer, rather than 80% (the supposed accuracy of the test). It might seem strange at first but it makes sense: the test gives a false positive 9.6% of the time (quite high), so there will be many false positives in a given population. For a rare disease, most of the positive test results will be wrong.

Let’s test our intuition by drawing a conclusion from simply eyeballing the table. If you take 100 people, only 1 person will have cancer (1%), and they’re most likely going to test positive (80% chance). Of the 99 remaining people, about 10% will test positive, so we’ll get roughly 10 false positives. Considering all the positive tests, just 1 in 11 is correct, so there’s a 1/11 chance of having cancer given a positive test. The real number is 7.8% (closer to 1/13, computed above), but we found a reasonable estimate without a calculator.

Bayes’ Theorem

We can turn the process above into an equation, which is Bayes’ Theorem. It lets you take the test results and correct for the “skew” introduced by false positives. You get the real chance of having the event. Here’s the equation:

And here’s the decoder key to read it:

  • Pr(A|X) = Chance of having cancer (A) given a positive test (X). This is what we want to know: How likely is it to have cancer with a positive result? In our case it was 7.8%.
  • Pr(X|A) = Chance of a positive test (X) given that you had cancer (A). This is the chance of a true positive, 80% in our case.
  • Pr(A) = Chance of having cancer (1%).
  • Pr(not A) = Chance of not having cancer (99%).
  • Pr(X|not A) = Chance of a positive test (X) given that you didn’t have cancer (~A). This is a false positive, 9.6% in our case.

Try it with any number:

It all comes down to the chance of a true positive result divided by the chance of any positive result. We can simplify the equation to:

Pr(X) is a normalizing constant and helps scale our equation. Without it, we might think that a positive test result gives us an 80% chance of having cancer.

Pr(X) tells us the chance of getting any positive result, whether it’s a real positive in the cancer population (1%) or a false positive in the non-cancer population (99%). It’s a bit like a weighted average, and helps us compare against the overall chance of a positive result.

In our case, Pr(X) gets really large because of the potential for false positives. Thank you, normalizing constant, for setting us straight! This is the part many of us may neglect, which makes the result of 7.8% counter-intuitive.

Intuitive Understanding: Shine The Light

The article mentions an intuitive understanding about shining a light through your real population and getting a test population. The analogy makes sense, but it takes a few thousand words to get there :).

Consider a real population. You do some tests which “shines light” through that real population and creates some test results. If the light is completely accurate, the test probabilities and real probabilities match up. Everyone who tests positive is actually “positive”. Everyone who tests negative is actually “negative”.

But this is the real world. Tests go wrong. Sometimes the people who have cancer don’t show up in the tests, and the other way around.

Bayes’ Theorem lets us look at the skewed test results and correct for errors, recreating the original population and finding the real chance of a true positive result.

Bayesian Spam Filtering

One clever application of Bayes’ Theorem is in spam filtering. We have

  • Event A: The message is spam.
  • Test X: The message contains certain words (X)

Plugged into a more readable formula (from Wikipedia):

Bayesian filtering allows us to predict the chance a message is really spam given the “test results” (the presence of certain words). Clearly, words like “viagra” have a higher chance of appearing in spam messages than in normal ones.

Spam filtering based on a blacklist is flawed — it’s too restrictive and false positives are too great. But Bayesian filtering gives us a middle ground — we use probabilities. As we analyze the words in a message, we can compute the chance it is spam (rather than making a yes/no decision). If a message has a 99.9% chance of being spam, it probably is. As the filter gets trained with more and more messages, it updates the probabilities that certain words lead to spam messages. Advanced Bayesian filters can examine multiple words in a row, as another data point.

Further Reading

There’s a lot being said about Bayes:

Have fun!

Other Posts In This Series

  1. A Brief Introduction to Probability & Statistics
  2. An Intuitive (and Short) Explanation of Bayes' Theorem
  3. Understanding Bayes Theorem With Ratios
  4. Understanding the Monty Hall Problem
  5. How To Analyze Data Using the Average
  6. Understanding the Birthday Paradox

Der Satz von Bayes ist ein mathematischer Satz aus der Wahrscheinlichkeitstheorie, der die Berechnung bedingter Wahrscheinlichkeiten beschreibt. Er ist nach dem englischen Mathematiker Thomas Bayes benannt, der ihn erstmals in einem Spezialfall in der 1763 posthum veröffentlichten Abhandlung An Essay Towards Solving a Problem in the Doctrine of Chances beschrieb. Er wird auch Formel von Bayes oder (als Lehnübersetzung) Bayes-Theorem genannt.

Formel[Bearbeiten | Quelltext bearbeiten]

Für zwei Ereignisse und mit lässt sich die Wahrscheinlichkeit von unter der Bedingung, dass eingetreten ist, durch die Wahrscheinlichkeit von unter der Bedingung, dass eingetreten ist, errechnen:

.

Hierbei ist

die (bedingte) Wahrscheinlichkeit des Ereignisses unter der Bedingung, dass eingetreten ist,
die (bedingte) Wahrscheinlichkeit des Ereignisses unter der Bedingung, dass eingetreten ist,
die A-priori-Wahrscheinlichkeit des Ereignisses und
die A-priori-Wahrscheinlichkeit des Ereignisses .

Bei endlich vielen Ereignissen lautet der Satz von Bayes:

Wenn eine Zerlegung der Ergebnismenge in disjunkte Ereignisse ist, gilt für die A-posteriori-Wahrscheinlichkeit

.

Den letzten Umformungsschritt bezeichnet man auch als Marginalisierung.

Da ein Ereignis und sein Komplement stets eine Zerlegung der Ergebnismenge darstellen, gilt insbesondere

.

Des Weiteren gilt der Satz auch für eine Zerlegung des Grundraumes in abzählbar viele paarweise disjunkte Ereignisse.

Beweis[Bearbeiten | Quelltext bearbeiten]

Der Satz folgt unmittelbar aus der Definition der bedingten Wahrscheinlichkeit:

.

Die Beziehung

ist eine Anwendung des Gesetzes der totalen Wahrscheinlichkeit.

Interpretation[Bearbeiten | Quelltext bearbeiten]

Der Satz von Bayes erlaubt in gewissem Sinn das Umkehren von Schlussfolgerungen: Man geht von einem bekannten Wert aus, ist aber eigentlich an dem Wert interessiert. Beispielsweise ist es von Interesse, wie groß die Wahrscheinlichkeit ist, dass jemand eine bestimmte Krankheit hat, wenn ein dafür entwickelter Schnelltest ein positives Ergebnis zeigt. Aus empirischen Studien kennt man in der Regel die Wahrscheinlichkeit dafür, mit der der Test bei einer von dieser Krankheit befallenen Person zu einem positiven Ergebnis führt. Die gewünschte Umrechnung ist nur dann möglich, wenn man die Prävalenz der Krankheit kennt, das heißt die (absolute) Wahrscheinlichkeit, mit der die betreffende Krankheit in der Gesamtpopulation auftritt (siehe Rechenbeispiel 2).

Für das Verständnis kann ein Entscheidungsbaum oder eine Vierfeldertafel helfen. Das Verfahren ist auch als Rückwärtsinduktion bekannt.

Mitunter begegnet man dem Fehlschluss, direkt von auf schließen zu wollen, ohne die A-priori-Wahrscheinlichkeit zu berücksichtigen, beispielsweise indem angenommen wird, die beiden bedingten Wahrscheinlichkeiten müssten ungefähr gleich groß sein (siehe Prävalenzfehler). Wie der Satz von Bayes zeigt, ist das aber nur dann der Fall, wenn auch und ungefähr gleich groß sind.

Ebenso ist zu beachten, dass bedingte Wahrscheinlichkeiten für sich allein nicht dazu geeignet sind, eine bestimmte Kausalbeziehung nachzuweisen.

Anwendungsgebiete[Bearbeiten | Quelltext bearbeiten]

Rechenbeispiel 1[Bearbeiten | Quelltext bearbeiten]

In den beiden Urnen und befinden sich jeweils zehn Kugeln. In sind sieben rote und drei weiße Kugeln, in eine rote und neun weiße. Es wird nun eine beliebige Kugel aus einer zufällig gewählten Urne gezogen. Anders ausgedrückt: Ob aus Urne oder gezogen wird, ist a priori gleich wahrscheinlich. Das Ergebnis der Ziehung ist: Die Kugel ist rot. Gesucht ist die Wahrscheinlichkeit, dass diese rote Kugel aus Urne stammt.

Es sei: das Ereignis „Die Kugel stammt aus Urne “,
das Ereignis „Die Kugel stammt aus Urne “ und
das Ereignis „Die Kugel ist rot“.

Dann gilt:   (beide Urnen sind a priori gleich wahrscheinlich)

  (in Urne A sind 10 Kugeln, davon 7 rote)

  (in Urne B sind 10 Kugeln, davon 1 rote)

  (totale Wahrscheinlichkeit, eine rote Kugel zu ziehen)

Damit ist  .

Die bedingte Wahrscheinlichkeit, dass die gezogene rote Kugel aus der Urne gezogen wurde, beträgt also .

Das Ergebnis der Bayes-Formel in diesem einfachen Beispiel kann leicht anschaulich eingesehen werden: Da beide Urnen a priori mit der gleichen Wahrscheinlichkeit ausgewählt werden und sich in beiden Urnen gleich viele Kugeln befinden, haben alle Kugeln – und damit auch alle acht roten Kugeln – die gleiche Wahrscheinlichkeit, gezogen zu werden. Wenn man wiederholt eine Kugel aus einer zufälligen Urne zieht und wieder in die richtige Urne zurücklegt, wird man im Durchschnitt in acht von 20 Fällen eine rote und in zwölf von 20 Fällen eine weiße Kugel ziehen (deshalb ist auch die totale Wahrscheinlichkeit, eine rote Kugel zu ziehen, gleich ). Von diesen acht roten Kugeln kommen im Mittel sieben aus Urne und eine aus Urne . Die Wahrscheinlichkeit, dass eine gezogene rote Kugel aus Urne stammt, ist daher gleich .

Rechenbeispiel 2[Bearbeiten | Quelltext bearbeiten]

Eine bestimmte Krankheit tritt mit einer Prävalenz von 20 pro 100 000 Personen auf. Der Sachverhalt , dass ein Mensch diese Krankheit in sich trägt, hat also die Wahrscheinlichkeit .

Ist ein Screening der Gesamtbevölkerung ohne Rücksicht auf Risikofaktoren oder Symptome geeignet, Träger dieser Krankheit zu ermitteln? Es würden dabei weit überwiegend Personen aus dem Komplement von getestet, also Personen, die diese Krankheit nicht in sich tragen: Die Wahrscheinlichkeit, dass eine zu testende Person nicht Träger der Krankheit ist, beträgt .

bezeichne die Tatsache, dass der Test bei einer Person „positiv“ ausgefallen ist, also die Krankheit anzeigt. Es sei bekannt, dass der Test mit 95 % Wahrscheinlichkeit anzeigt (Sensitivität), aber manchmal auch bei Gesunden anspricht, d.h. ein falsch positives Testergebnis liefert, und zwar mit einer Wahrscheinlichkeit von (Spezifität).

Nicht nur für die Eingangsfrage, sondern in jedem Einzelfall , insbesondere vor dem Ergebnis weiterer Untersuchungen, interessiert die positiver prädiktiver Wert genannte bedingte Wahrscheinlichkeit , dass positiv Getestete Träger der Krankheit sind.

Berechnung mit dem Satz von Bayes[Bearbeiten | Quelltext bearbeiten]

.

Berechnung mittels Baumdiagramm[Bearbeiten | Quelltext bearbeiten]

Probleme mit wenigen Klassen und einfachen Verteilungen lassen sich übersichtlich im Baumdiagramm für die Aufteilung der Häufigkeiten darstellen. Geht man von den Häufigkeiten auf relative Häufigkeiten bzw. auf (bedingte) Wahrscheinlichkeiten über, wird aus dem Baumdiagramm ein Ereignisbaum, ein Sonderfall des Entscheidungsbaums.

Den obigen Angaben folgend ergeben sich als absolute Häufigkeit bei 100 000 Personen 20 tatsächlich erkrankte Personen, 99 980 Personen sind gesund. Der Test diagnostiziert bei den 20 kranken Personen in 19 Fällen (95 Prozent Sensitivität) korrekt die Erkrankung. In einem Fall versagt der Test und zeigt die vorliegende Krankheit nicht an (falsch negativ). Bei wahrscheinlich 1000 der 99 980 gesunden Personen zeigt der Test fälschlicherweise eine Erkrankung an. Von den insgesamt 1019 positiv getesteten Personen sind also nur 19 tatsächlich krank (

Illustration des Satzes von Bayes durch Überlagerung der beiden ihm zugrundeliegenden Entscheidungsbäume bzw. Baumdiagramme
Der Wahrscheinlichkeitsbaum illustriert .
Ereignisbaum zum Beispiel

0 thoughts on “Bayes Regel Beispiel Essay”

    -->

Leave a Comment

Your email address will not be published. Required fields are marked *