Bayesin teoreema

Bayesin teoreema (myös Bayesin sääntö tai Bayesin laki) on ehdolliseen todennäköisyyteen liittyvä teoreema. Teoreeman voidaan tulkita kuvaavan uskomusten päivittämistä uuden todisteaineiston valossa a posteriori. Teoreema on nimetty kehittäjänsä, 1700-luvulla eläneen brittiläisen pastori ja matemaatikko Thomas Bayesin mukaan.

Bayes siis kehitti teoreemansa 1700-luvulla. Myöhemmin fisheriläinen tilastoteoria ja näennäisen objektiivinen frekventistinen todennäköisyyskäsitys saivat vallalla olevan paradigman aseman. Bayesiläisen analyysin kannattajat eivät juuri saaneet julkaisujaan läpi alan lehdissä, ja vasta noin 1980-luvulta alkaen Bayesin teoreema on taas saanut merkittävää tieteellistä jalansijaa ja päässyt tuottamaan useita selviä parannuksia tieteen tutkimusmenetelmiin. Teoreema on siis hyvä osoitus tieteellisten paradigmojen voimasta ja tieteen itseäänkorjaavuuden rajoista, vaikka kyse on maailmankatsomuksellisesti paljon neutraalimmasta asiasta kuin esimerkiksi materialismin tai evolutionismin valtaparadigman asema nykyään.

Teoreeman esittely

Tarkoitus on esimerkkien avulla tutustuttaa lukija tarkasteltavien kysymysten luonteeseen. Jos perusajatus on jo tuttu, tämän osion voi hyvin ohittaa.

Esimerkki teoreemaan johtavasta järkeilystä

Pertti pitää kekseistä, varsinkin kookoskekseistä. Eräänä päivänä hän on ostanut itselleen kaksi keksipakettia, ykköspaketissa on 40 kookoskeksiä, kakkospaketissa taas keksilajitelma, jossa on 10 kaurakeksiä, 10 kanelikeksiä, 10 suklaakeksiä ja 10 kookoskeksiä. Pertti avaa paketit ja keskittyy töihinsä, nappaa sitten puolihuolimattomasti keksin avoimesta paketista ja aikoo syödä sen saman tien, mutta tulee sitten ajatelleeksi, ettei ollenkaan tiedä, kummasta paketista keksi on peräisin. Koska älylliset pähkinät kiehtovat keksiä suljetussa kourassaan pitelevää Perttiä, hän rupeaa miettimään vaihtoehtoja asian selvittämiseksi:

Jos keksi on kaura-, kaneli- tai suklaakeksi, sen on pakko olla peräisin kakkospaketista, koska sellaisia ei ole ykköspaketissa.
Jos keksi onkin kookoskeksi, se voi olla peräisin kummasta paketista tahansa.

Pertti avaa kouransa ja toteaa keksin kookoskeksiksi. Siispä hän ei nyt tiedä, kummasta paketista se on peräisin. Asian voisi tietysti selvittää laskemalla jommankumman paketin keksit, nythän toisessa on 39, toisessa 40. Laiskana miehenä Pertti haluaa mieluummin laskea 39 keksiä kuin 40, niinpä hän päättää laskevansa sen paketin keksit, josta kädessä oleva kookoskeksi todennäköisemmin on peräisin. Voiko käytettävissä olevasta informaatiosta päätellä jotain tästä todennäköisyydestä?

Selvää siis on, että molemmat paketit ovat nyt mahdollisia vaihtoehtoja, mutta siitä ei ilmeisesti seuraa, että ne olisivat yhtä todennäköisiä. Jos ne nimittäin sitä olisivat, niin lajitelmapaketin muilla kuin kookoskekseillä ei olisi ollut mitään vaikutusta tilanteeseen liittyviin todennäköisyyksiin. Entä jos toisessa paketissa olisi ollut pelkkiä kookoskeksejä ja toisessa vain yksi kookoskeksi 39 muunlaisen keksin seassa? Ilmeisestikään todennäköisyys tämän keksin satunnaiselle sormiin osumiselle ei ole sama kuin kookoskeksipaketin tarkemmin yksilöimättämän keksin saamistodennäköisyys.

Ei siis ole kovinkaan vaikeaa päätellä, että ykköspaketti on todennäköisempi: koska keksi poimittiin satunnaisesti ja kaikilla kekseillä oli alun perin oletettavasti yhtä suuri käteenosumistodennäköisyys¹, niin jommastakummasta täydestä paketista valittu keksi on 0,5:n todennäköisyydellä ykköspaketin kookoskeksi² mutta vain 0,125:n todennäköisyydellä kakkospaketin kookoskeksi³ (ja olisi ollut 0,375:n todennäköisyydellä kakkospaketin jokin muu kuin kookoskeksi⁴).

Vaikka Pertillä nyt siis onkin hyvä syy laskea pikemminkin ykkös- kuin kakkospaketin keksit, koko ajatus keksien laskemisesta rupeaa tässä vaiheessa kuitenkin tuntumaan turhan työläältä. Hän päättääkin, ettei laske keksejä, jos vain voi selvittää itselleen, kuinka todennäköistä tässä tilanteessa täsmällisesti ottaen on, että keksi on peräisin ykköspaketista.

Koska ykköspaketista saadun kookoskeksin alkuperäistodennäköisyys siis on 0,5 (umpimähkäinen valinta kahdesta paketista, minkä jälkeen ykköspaketista nousee välttämättä juuri kookoskeksi) ja kakkospaketista saadun vastaavasti tasan neljäsosa siitä (taaskin umpimähkäinen paketinvalinta, minkä jälkeen 0,25:n todennäköisyys kookoskeksin saamiselle), vaikuttaa siltä, että ykköspaketin todennäköisyys on 0,5 / (0,5 + 0,125) = 0,5 / 0,625 = 0,8.
Ajatusvauhtiin päästyään Pertti ei malta lopettaa tähän. Entäs, jos paketteja olisikin ollut kolme eikä kaksi? Jos hän olisikin ostanut kaksi kookoskeksipakettia ja yhden lajitelman, satunnainen kookoskeksi olisi saatu jommastakummasta kookoskeksipaketista todennäköisyydellä 2/3 / (2/3 + 1/3 * 1/4) = 2/3 / (8/12 + 1/12) = 2/3 / 9/12 = 2/3 / 3/4 = 8/9 = 0,888...
Jos taas kookoskeksipaketteja olisikin ollut vain yksi ja lajitelmapaketteja kaksi, kookoskeksipaketin todennäköisyydeksi olisi jäänyt 1/3 / (1/3 + 2/3 * 1/4) = 1/3 / (2/6 + 1/6) = 1/3 / 3/6 = 1/3 / 1/2 = 2/3 = 0,666...
Koska töiden jatkaminen ei jostain syystä Perttiä juuri nyt hirveästi kiinnosta, hän päättää miettiä asiaa vielä siltäkin kannalta, mitä vaikutusta todennäköisyyksiin olisi lajitelmapaketin koostumuksen muuttamisella: Jos puolet lajitelmapaketin kekseistä olisi ollut kookoskeksejä, niin kahden paketin tapauksessa kookoskeksipaketin todennäköisyys olisi ollut 1/2 / (1/2 + 1/2 * 1/2) = 1/2 / (2/4 + 1/4) = 1/2 / 3/4 = 4 / 6 = 2/3 = 0,666...
Tilanteessa, jossa kookoskeksejä olisi ollut lajitelmasta vain joka kahdeksas, lukemat olisivat sen sijaan olleet 1/2 / (1/2 + 1/2 * 1/8) = 1/2 / (8/16 + 1/16) = 1/2 / 9/16 = 16/18 = 8/9 = 0,888... Kookoskeksipaketin todennäköisyys oli siis sitä suurempi, mitä suuremman osan ne muodostivat kaikista paketeista, mutta sitä pienempi, mitä suuremman osan kookoskeksit muodostivat lajitelmapaketin sisällöstä.
Entäs sitten se tapaus, jossa pöydällä ei olisikaan kookoskeksipaketteja vaan ainoastaan erilaisia lajitelmapaketteja, vaikkapa sellainen, jossa kookoskeksejä oli puolet, ja sellainen, jossa niitä oli vain joka neljäs? Ensinmainitun paketin todennäköisyys saadun kookoskeksin alkuperänä olisi nyt 1/2 * 1/2 / (1/2 * 1/2 + 1/2 * 1/4) = 1/4 / (2/8 + 1/8) = 1/4 / 3/8 = 8/12 = 2/3 = 0,666...

Nyt Pertti kokee ahaa-elämyksen: näitä todennäköisyyksiä ei oikeastaan tarvitsekaan laskea erikseen järkeilemällä, vaan voi oikaista: tietynlaisen keksipaketin todennäköisyys saadun kookoskeksin alkuperäksi on ilmeisesti suoraan verrannollinen tällaisten pakettien suhteelliseen osuuteen kaikista paketeista ja kookoskeksien suhteelliseen osuuteen kyseisenlaisen paketin kekseistä mutta kääntäen verrannollinen kookoskeksin saamisen kokonaistodennäköisyyteen (siis siihen, että saatiin kookoskeksi, mistä paketista se sitten olikaan peräisin).

Tämän ahaa-elämyksen tuloksen Pertti päättää kirjoittaa vastaisen varalta muistiin matemaattisena kaavana:

ℙ (e k a p a k e t t i | k o o k o s k e k s i) = \frac{ℙ (k o o k o s k e k s i | e k a p a k e t t i) ℙ (e k a p a k e t t i)}{ℙ (k o o k o s k e k s i)}

Tämän kaavan käyttöönotto muuttaa aiempien esimerkkitapausten laskennan rutiinitehtäväksi ja tekee uusienkin muunnelmien ratkaisemisen yhtä suoraviivaiseksi.

Teoreeman käyttö: esimerkkitapausten tarkastuslaskut

Edellä päättelemällä saadut todennäköisyydet voi nyt laskea suoraan tähän kaavaan tehdyillä sijoituksilla. Seuraavassa numerointi vastaa edelläkäytettyä:

$P (e k a p a k e t t i | k o o k o s k e k s i) = \frac{\frac{40}{40} \cdot \frac{1}{2}}{\frac{50}{80}} = \frac{4}{5} = 0, 8$
$P (e k a p a k e t t i | k o o k o s k e k s i) = \frac{\frac{40}{40} \cdot \frac{2}{3}}{\frac{90}{120}} = \frac{8}{9} = 0, 888 . . .$
$P (e k a p a k e t t i | k o o k o s k e k s i) = \frac{\frac{40}{40} \cdot \frac{1}{3}}{\frac{60}{120}} = \frac{2}{3} = 0, 666 . . .$
$P (e k a p a k e t t i | k o o k o s k e k s i) = \frac{\frac{40}{40} \cdot \frac{1}{2}}{\frac{60}{80}} = \frac{2}{3} = 0, 666 . . .$
$P (e k a p a k e t t i | k o o k o s k e k s i) = \frac{\frac{40}{40} \cdot \frac{1}{2}}{\frac{45}{80}} = \frac{8}{9} = 0, 888 . . .$
$P (e k a p a k e t t i | k o o k o s k e k s i) = \frac{\frac{20}{40} \cdot \frac{1}{2}}{\frac{30}{80}} = \frac{2}{3} = 0, 666 . . .$

Kaikki esimerkit siis täsmäävät.

Toinen esimerkki teoreeman käytöstä

Otetaan tarkastelun lähtökohdaksi taaskin Pertin kaksi keksipurkillista: ykköspurkissa on tällä kertaa 10 suklaakeksin lisäksi 30 kookoskeksiä, kakkospurkissa taas molempia laatuja 20 kappaletta. Esimerkkitapahtumat etenevät niin, että Pertti kopeloi taaskin sattumanvaraisesti käteensä toisen purkeista, nostaa siitä yhden keksin niin umpimähkäisesti, ettei jälkeenpäin enää itsekään tiedä, kummasta purkista se oli peräisin, mutta havaitsee saaneensa taaskin kookoskeksin. Millä todennäköisyydellä se nyt on peräisin ykköspurkista? Varmasti se on peräisin siitä purkista, jossa on nyt jäljellä vain 39 keksiä, mutta Pertti ei nytkään käy laskemaan keksimääriä vaan arvioi tilannetta vain edelläannetun informaation perusteella.

Intuitiivisesti on helppo nähdä, että koska kookoskeksejä on ykköspurkissa suhteellisesti(kin) enemmän kuin kakkospurkissa, ykköspurkki on tässä tapauksessa kakkospurkkia todennäköisempi.⁵ Bayesin teoreema täsmentää tämän summittaisen arvion antamalla tapahtuman tarkan todennäköisyyden:

P (e k a p u r k k i | k o o k o s k e k s i)

on todennäköisyys sille, että Pertti oli tarttunut ykköspurkkiin siinä tapauksessa, että hän on poiminut purkistaan kookoskeksin. Juuri tämän todennäköisyyden haluamme siis selvittää:

P (e k a p u r k k i | k o o k o s k e k s i) = ?

P (k o o k o s k e k s i)

on lähtötilanteessa vallinnut todennäköisyys, että lopulta Pertti saa sattumalta käteensä kookoskeksin. Koska jokaisella keksillä on alun perin yhtä suuri todennäköisyys päätyä lopuksi Pertin käteen, kookoskeksin saamistodennäköisyys vastaa kookoskeksien suhteellista osuutta kaikista purkeissa olevista kekseistä. Kookoskeksejä on ykköspurkissa 30 ja kakkospurkissa 20, yhteensä siis 50. Koska kummassakin purkissa on alun perin 40 keksiä, keksejä on kaikkiaan 80. Näin saadaan

P (k o o k o s k e k s i) = \frac{50}{80} = 0, 625

P (e k a p u r k k i)

on todennäköisyys, että Pertti tarttuu sattumanvaraisesti nimenomaan ykköspurkkiin. Kahdesta purkkivaihtoehdosta kumpikin on alun perin yhtä todennäköinen, joten tämä todennäköisyys on 0,5.

P (e k a p u r k k i) = \frac{1}{2} = 0, 5

P (k o o k o s k e k s i | e k a p u r k k i)

on todennäköisyys, että Pertti ykköspurkkiin tartuttuaan poimii siitä juuri kookoskeksin. Koska ykköspurkin kaikkiaan 40 keksistä tasan 30 on kookoskeksejä, saadaan todennäköisyydeksi

P (k o o k o s k e k s i | e k a p u r k k i) = \frac{30}{40} = 0, 75

Kaiken tämän informaation avulla voimme nyt laskea todennäköisyyden sille, että Pertin valitsema kookoskeksi on peräisin juuri ykköspurkista:

P (e k a p u r k k i | k o o k o s k e k s i) = \frac{P (k o o k o s k e k s i | e k a p u r k k i) P (e k a p u r k k i)}{P (k o o k o s k e k s i)} = \frac{0, 75 \cdot 0, 5}{0, 625} = 0, 6

Kysymys on siis siitä, että ykköspurkki on sitä todennäköisempi, mitä suurempi siinä on kookoskeksien osuus ja mitä todennäköisemmin se tuli sattumanvaraisesti valituksi, ja sitä epätodennäköisempi, mitä todennäköisemmin kookoskeksi saatiin "purkista riippumatta". Näiden seikkojen järkevyyden voi mielessään todeta vaikkapa seuraavilla ajatuskokeilla:

Jos ykköspurkin kookoskeksipitoisuutta olisi alun perin lisätty, kookoskeksiin päätyminen olisi entisestään lisännyt ykköspurkin jälkikäteistodennäköisyyttä kakkospurkkiin verrattuna.
Jos taas ykköspurkkiin olisikin lisätty suklaakeksejä, sen jälkikäteistodennäköisyys olisi nykyistä pienempi.
Jos tarjolla olisi ollut kolmaskin purkki, ykköspurkin jälkikäteistodennäköisyys olisi nykyistä pienempi.
Jos tarjolla olisi ollut vain ykköspurkki, sen "valinta" olisi nykyistä todennäköisempää (vrt. yksipuoluevaalit).
Jos kakkospurkissa olisi ollut suhteessa nykyistä enemmän kookoskeksejä, ykköspurkkivaihtoehdon jälkikäteistodennäköisyys olisi nykyistä pienempi (koska kakkospurkin todennäköisyys olisi nykyistä suurempi); tässä tapauksessa myös kookoskeksin saamisen kokonaistodennäköisyys olisi kasvanut.
Jos kakkospurkissa olisi ollut suhteessa nykyistä enemmän muita kuin kookoskekseja, ykköspurkkivaihtoehdon jälkikäteistodennäköisyys olisi nykyistä suurempi (koska kakkospurkin todennäköisyys olisi nykyistä pienempi); tällöin myös kookoskeksin saamisen kokonaistodennäköisyys olisi pienentynyt.

Bayesin kaavan rakenne

Tässä osiossa pureudutaan kaavamuodossa esitetyn Bayesin teoreeman yksityiskohtiin.

Wikipedia-artikkelien vertailua⁶

Bayesin teoreeman mielekkäiden käyttötapojen ymmärtämisen lähtökohtana on itse kaavan hahmottaminen. Tämä ei näköjään välttämättä ole kovinkaan helppoa, kuten seuraava esimerkkiparikin osoittanee.⁷

Englanninkielisen Wikipedia-artikkelin Simple statement of theorem -osio

Bayes gave a special case involving continuous prior and posterior probability distributions and discrete probability distributions of data, but in its simplest setting involving only discrete distributions, Bayes' theorem relates the conditional and marginal probabilities of events A and B, where B has a non-vanishing probability:

P (A | B) = \frac{P (B | A) P (A)}{P (B)}

.

Each term in Bayes' theorem has a conventional name:

P(A) is the prior probability or marginal probability of A. It is "prior" in the sense that it does not take into account any information about B.
P(A|B) is the conditional probability of A, given B. It is also called the posterior probability because it is derived from or depends upon the specified value of B.
P(B|A) is the conditional probability of B given A.
P(B) is the prior or marginal probability of B, and acts as a normalizing constant.

Bayes' theorem in this form gives a mathematical representation of how the conditional probability of event A given B is related to the converse conditional probability of B given A.

Suomenkielisen Wikipedia-artikkelin Teoreeman esittely -osio

Tapahtuman A todennäköisyys ehdolla B (merkitään P(A|B)) on yleisessä tapauksessa eri asia kuin todennäköisyys tapahtumalle B ehdolla A (merkitään P(B|A)). Näiden kahden ehdollisen todennäköisyyden välillä on kuitenkin suhde, jota Bayesin teoreema kuvaa. Teoreema kuuluu seuraavasti:

P (B ∣ A) = \frac{P (A ∣ B) P (B)}{P (A)}

missä

$P (A)$ on A:n priori-todennäköisyys. Se ei riipu B:stä (jota joskus kutsutaan havainnoksi).
$P (A ∣ B)$ on A:n todennäköisyys ehdolla B. Tätä kutsutaan myös posterioritodennäköisyydeksi.
$P (B ∣ A)$ on B:n todennäköisyys ehdolla A.
$P (B)$ on B:n priori-todennäköisyys.

Vertailevaa kommentointia

Huomataan, että näissä selosteissa kaavan rakenne on sinänsä sama, mutta suomenkielisessä versiossa A ja B ovat vaihtaneet paikkaa englanninkieliseen verrattuna. Tämä ei kuitenkaan näy merkintöjen selitteissä, vaan A:n priori- ja posterioritodennäköisyyksistä puhutaan kummassakin selitteessä samaan tapaan, aivan kuin olisi samantekevää, onko yhtälön vasemmalla puolella P(A|B) vaiko P(B|A). Todennäköisyyslaskennassahan siis tapahtuman A todennäköisyys ehdolla B on kuitenkin yleisesti eri asia kuin B ehdolla A.⁸ Näiden kahden ehdollisen todennäköisyyden välisen suhteen ja sitä kuvaavan Bayesin teoreeman ymmärtämisen kannalta on tärkeää ensinnäkin varmistua siitä, että kaavan kirjoitusasu ja sen osien selitteet vastaavat toisiaan.

Kuten matematiikassa yleensäkin, merkinnät voivat periaatteessa tarkoittaa, mitä niiden vain kulloinkin määritellään tarkoittavan, mutta toisaalta käytännössä kuitenkin tietyt merkintätavat vakiintuvat tiettyihin käyttöihin. Bayesin teoreeman luonteesta kyllä seuraa, että sekä $A$ että $B$ (mihin ne sitten kulloinkin viittasivatkin) voidaan joka tapauksessa ratkaista toistensa avulla. Siinä mielessä tilanne siis on symmetrinen. Bayesin kaavan hyöty tulee kuitenkin esiin nimenomaan epäsymmetrisissä tilanteissa, joissa toinen tapahtuma on havaittu, toisen todennäköisyyttä vain arvioidaan, ja samoin toinen ehdollinen todennäköisyys on tiedossa, toinen taas jää tällä kaavalla laskettavaksi. Siksi on järkevää antaa A:lle ja B:lle kaavaa kirjoitettaessa eri roolit: toinen kuvaa välittömästi havaittavaa asiaa, toinen ei.

Tämä epäsymmetria tuleekin esiin englanninkielisessä versiossa, jossa P(A|B):stä käytetään posterior probability -nimitystä, mutta P(B|A):sta ei. Vastaavasti P(B):n sanotaan toimivan normalisointivakiona, mutta P(A) ei sellaisena toimi. Näin siksi, että ideana on, että kaavan oikean puolen lausekkeessa olevat arvot ovat tunnettuja, mutta vasemman puolen lauseke, siis juuri tämä posterior probability, on etukäteen tuntematon.

Asetelma on siis sellainen, että lähtökohdaksi otetaan P(A):n, P(B|A):n ja P(B):n arvot ja näistä lasketaan P(A|B).⁹ Yleensä siis kiinnostuksen kohteena ovat tässä A:n todennäköisyydet, ja siksi juuri niitä sanotaan prioritodennäköisyydeksi (P(A)) ja posterioritodennäköisyydeksi (P(A|B)). Nämä nimitykset taas saavat selityksensä siitä, että ajatellaan tilannetta, jossa ensin A:n todennäköisyys on P(A), sitten B tapahtuu (tai havaitaan tapahtuneeksi), ja tämän havainnon perusteella tarkennetaan käsitystä A:n todennäköisyydestä, jolloin sen uudeksi arvoksi B:n tapahtumisen huomioonottamisen jälkeen saadaan P(A|B). P(A) siis kuvaa alkuperäistodennäköisyyttä (todennäköisyyttä a priori) ja P(A|B) puolestaan jälkikäteistodennäköisyyttä (todennäköisyyttä a posteriori).¹⁰

Bayesin kaava selityksineen

Teoreeman perussisällön voi siis ilmaista seuraavalla kaavalla¹¹:

P (A | B) = \frac{P (B | A) P (A)}{P (B)}

$P (A)$ on A:n priori- eli marginaalitodennäköisyys. Se on apriorinen siinä mielessä, että sen määrittämisessä ei oteta huomioon mitään B:hen liittyvää informaatiota.
$P (A | B)$ on A:n todennäköisyys ehdolla B. Tätä kutsutaan myös posteriori-todennäköisyydeksi ja sen arvo halutaan Bayesin sääntöä soveltamalla selvittää.
$P (B | A)$ on B:n todennäköisyys ehdolla A. Tämä todennäköisyys voidaan tietää tai arvioida siksi, että tyypillisessä tapauksessa A:n merkitys B:n kannalta on helpommin hahmotettavissa kuin B:n merkitys A:n kannalta. Keksiesimerkeissä pakettisisällöt olivat selvillä etukäteen, ja usein muulloinkin A on jonkinlainen jakaumahypoteesi tai muu laaja-alainen oletus, jonka voimassaollessa erilaisten tapahtumaskenaarioiden todennäköisyyksiä voidaan arvioida tai laskea varsin suoraviivaisesti.
$P (B)$ on B:n priori- eli marginaalitodennäköisyys. P(B) toimii Bayesin säännön normalisointi- eli skaalausvakiona¹². B:tä kutsutaan joskus havainnoksi, ja Bayesin teoreeman tyypillinen käyttötapa lähtee siitä, että B:n on havaittu tapahtuneen tai olevan voimassa ja että nyt halutaan tietää, miten tämän seikan huomioon ottaminen vaikuttaa A:n todennäköisyyteen eli miten A:n prioritodennäköisyys B:tä koskevan informaation huomioonottamisen myötä päivittyy A:n posterioritodennäköisyydeksi.

Marginaalitodennäköisyyksistä puhuminen liittyy ajatukseen, että nämä todennäköisyydet summaavat kyseisten tapahtumien todennäköisyydet kaikkien tilanteiden "yli": kun mitään lisäinformaatiota ei käytetä näiden todennäköisyyksien laskemiseen, mitään vaihtoehtoja ei ole suljettu niistä pois. Taulukkomuotoisissa esityksissä nämä arvot saadaan ristiintaulukoitujen yhteistapahtumien todennäköisyyksien summina taulukon reunoihin eli marginaaleihin. Tätä toimenpidettä¹³ sanotaan marginalisoinniksi.

Bayesin teoreeman asema

Bayesilainen tilastoteoria, joka siis perustuu yo. teoreeman käyttöön, on yksi tilastotieteen matematiikan suuntauksesta. Muita tapoja ovat fisheriläinen ja pearsonilainen lähestymistapa.

Bayesilaisen tavan vahvuus on sen suora johto todennäköisyyslaskennan perusidentiteeteistä (ks. alla). Voidaan sanoa, että teoreema on hyvin varmasti oikein. Kysymys koskee lähinnä sitä, pitäisikö teoreemaa käyttää koska priori-todennäköisyyttä ei välttämättä tiedetä. Näin keskustelu palautuu todennäköisyyden käsitteeseen:

Bayesilaiset ovat tyypillisesti episteemisen todennäköisyyskäsityksen kannattajia, jossa todennäköisyys kuvaa henkilön uskomuksen ja siten tiedon astetta.
Frekventistisessä eli otoksien suhteellisiin määriin perustuvassa todennäköisyyskäsityksessä todennäköisyyksien ajatellaan kuvaavan toistokokeiden suhteellisia määriä. Ongelmaksi muodostuu, että yleensä meillä ei ole tarpeeksi toistokokeita. Tämän käsityksen ajateltiin olevan objektiivinen, mutta käytännössä, koska ääretöntä sarjaa toistokokeita ei ole oikeastaan missään tilanteessa, käsityksen käyttäjä olettaa usein itseltäänkin 'piilossa' asioita.

Episteeminen todennäköisyys voidaan usein arvioida välttävällä tavalla, joten priori-ongelma ei usein ole merkittävä. Priorin valintaan ei kuitenkaan ole yhtä oikeaa tapaa. Tarkoitus olisi, että priori kuvaa henkilön tietämyksen tilaa, mutta tietämyksen esittäminen matemaattisesti ei ole ongelmatonta. Matemaattiset menetelmät esittää tämä tietämys ovat usein merkittävästi riippuvaisia tehdyistä valinnoista eivätkä yleensä ole parametrisoinnista riippumattomia. Riittävän oikealla priorilla saadaan kuitenkin yleensä riittävän oikeita tuloksia ja yleensä havaintojen kasvaessa priorin merkitys vähenee nopeasti. Järkevien priorivalintojen vaikutusta lopputulokseen voidaan myös arvioida. Voidaankin argumentoida, että priori-ongelma ei ole ongelma, vaan rehellistä oman rajallisuutemme myöntämistä. Yksi Bayeläisen päättelyn vahvuuksista onkin se, että tehdyt oletukset ovat paremmin esillä eivätkä piilossa alan keittokirjamaisten päättelyreseptien takana.

Ehkä merkittävin puute bayesilaisessa hypoteesitestauksessa on se, että sillä voidaan vain vertailla olemassaolevia hypoteeseja keskenään. Yhtä teoriaa ei voida arvioita. Käytännössä jopa bayesilaisen hypoteesitestauksen tiukimmat puolestapuhujat kuten Jaynes vetoavat Fisherin hypoteesitestauksen kaltaisiin kriteereihin kun tilanteissa joissa on tarve miettiä pitäisikö etsiä jotain parempaa teoriaa.

Ongelmistaan huolimatta bayesilainen tapa tarjoaa hyvin perustellun, systemaattisen ja todennäköisyyksiin perustuvan tavan arvioida argumentteja. Siihen on sisäänrakennettuna useimmat olennaiset tieteenfilosofiset teorianvalinnan kriteerit. Bayesin teoreema voidaan laajentaa väittämien välisten uskomusverkkojen systemaattiseen analyysiin (Bayes nets), joka sopii hyvin maailmankatsomusten analyysiin.

Huomattavimpia Bayesin teoreemaa käyttäviä kristittyjä filosofeja on Richard Swinburne. Teoksessaan The Existence of God Swinburne käy läpi mm. pahan ongelman, uskonnolliset kokemukset ja Jeesuksen ylösnousemuksen todisteet ja päätyy siihen että käsitellyn evidenssin pohjalta kristinusko on vähintään 95% todennäköisyydellä totta.

Bayeslainen tulkinta suunnitteluteoriasta

Usein tietty tilastollinen ongelma voidaan ilmaista useamman tilastollisen paradigman alla. Useimmiten Bayeslainen tapa näyttäisi olevan tarkin ja sen käytön rajat ovat selvemmin nähtävillä koska tehdyt oletukset ovat selvemmin nähtävillä. Myös suunnitteluteoria on esitettävissä bayesilaisessa muodossa. Tietyssä mielessä se, että päättely voidaan ilmaista useammalla tavalla, viittaa päättelyn luotettavuuteen koska tuolloin päättely ei ole riippuvainen valitusta paradigmasta.

Dembskin Fisheriläisessä suunnittelupäättelyssä on siis kolme pääkohtaa:

Vapausasteisuus
Monimutkaisuus
Täsmennys

Bayeslaisessa tulkinnassa kohdat 1. ja 2. tarkoittavat että ei-mielivaltaisille naturalistisille hypoteeseille tarkasteltavana oleva asia on epätodennäköinen. Kohta 3 taas tarkoittaa sitä, että suunnittelija-hypoteesin ennuste asialle on korkea. Esimerkiksi palautumattomasti monimutkaisten asioiden kohdalla evoluutioteoreettinen ennuste on paljon tasaista jakaumaa alempana, koska on erittäin epätodennäköistä että näiden systeemien välivaiheet olisivat elinkelpoisia (kohdat 1 ja 2). Koska näitä rakenteita voidaan täsmentää (analogia ihmisen suunnittelemien rakenteiden kanssa, monen osan systeemit tyypillisiä suunnittelijoille, toimiva kone jolla jokin tarkoitus(teleonomia)), suunnittelyhypoteesin ennuste palautumattoman monimutkaiselle rakenteelle on paljon tasaista jakaumaa korkeampi. Näin suunnittelu on paljon evoluutioteoriaa todennäköisempi selitys näille rakenteille.

Ylläolevan kolmen kohdan lisäksi Dembski tarkastelee toisaalta käytössä olevia resursseja ja toisaalta mahdollisten täsmennyksien määrää. Tämä on oikea intuitio Dembskiltä (ja samalla Fisheriläisen paradigman oikeansuuntainen korjaus), sillä Bayeslaisessa tulkinnassa nämä molemmat ovat sisäänrakennettuina evoluutioteorian ja suunnitteluhypoteesin ennusteiden normituksessa (todennäköisyyksien summa/integraali kaikkien mahdollisten tapausten yli on yksi).

Bayesin teoreeman käytöstä suunnittelun alueella

Suunnittelu-hypoteesin ennusteita voidaan perustella usealla tasolla, joista alla esimerkkejä:

Suunnittelijan erityisen ilmoituksen perusteella tehdyt ennustukset.
Ennusteet suunnittelijan ja ihmisen samankaltaisuuksiin perustuen. (Analogia on yksi tieteellisen päättelyn yleisimpiä muotoja.)
Ennusteet yleisen tietoisen olennon ominaisuuden perusteella.
Ennusteet jotka summataan kaikkien tietoisen olennon motiivien yli. Koska tässä todennäköisyysavaruuden dimensio ja tyyppi on erilainen kuin fysikaalisten parametrien avaruus, se kuvautuu ei-tasaisena ennusteena fysikaalisten parametrien avaruuteen. Esimerkiksi, mikäli annamme 50% todennäköisyyden sille, että Suunnittelija (tässä tapuksessa siis Jumala) luo tietoisia havaitsijoita sallivan universumin, kutsutaan tätä universumin ominaisutta O, summaamalla O:n ja ei-O:n yli, saamme silti hyvin suuren ennusteen havaitsijat sallivalle universumille fysikaalisten parametrien avaruudessa verrattuna fysikaalisten parametrien avaruuden tasaiseen jakaumaan. Esimerkiksi painovoiman voimakkuus on 1, kun kaikkien fysiikan voimien voimakkuudet ovat välillä 1 - 10⁴⁰. Painovoima saa olla korkeintaan 3000-kertainen, jotta elämä on mahdollista. Näin todennäköisyys sille, että Jumala luo maailman, jossa painovoima on välillä 1-3000, on 0.5. Vastaavasti todenäköisyys saada painovoiman arvo elämän sallivalle välille puhtaan sattuman perusteella on noin välin 1-3000 pituus verrattuna koko skaalan pituuteen, eli noin 3000/10⁴⁰=10^-36. Jumala-selitys on siis noin 0.5/10^-36 ~ 5*10³⁵ eli melkein miljoona miljoona miljoona miljoona miljoona miljoonaa kertaa todennäköisempi kuin puhdas sattuma (ja siten teismi on tilapäisesti tämän verran ateismia todennäköisempi jo tämän argumentin perusteella).

Teoreeman johtaminen ehdollisesta todennäköisyydestä

Ehdollinen todennäköisyys

Tapahtuman A ehdollinen todennäköisyys, on todennäköisyys tapahtumalle A sillä ehdolla, että tapahtuma B on jo tapahtunut. Ehdollinen todennäköisyys merkitään P(A|B), joka luetaan: "tapahtuman A todennäköisyys ehdolla B". Se määritellään kaavalla

P (A ∣ B) = \frac{P (A \cap B)}{P (B)} .

Jos tapahtuman B todennäköisyys on 0, eli $P (B) = 0$ , niin $P (A ∣ B)$ ei ole määritelty, sillä 0:lla ei saa jakaa.

Bayesin teoreeman johtaminen

Ehdollisen todennäköisyyden määritelmän mukaisesti tapahtuman A todennäköisyys ehdolla B on

P (A | B) = \frac{P (A \cap B)}{P (B)} .

Vastaavasti tapahtuman B todennäköisyys ehdolla A on

P (B | A) = \frac{P (A \cap B)}{P (A)} .

Näistä kahdesta yhtälöstä saadaan

P (A | B) P (B) = P (A \cap B) = P (B | A) P (A) .

Jakamalla näin saadun yhtälön molemmat puolet tekijällä P(B) saadaan Bayesin teoreema

P (A | B) = \frac{P (B | A) P (A)}{P (B)} .

Viitteet

^ Näin siksi, että tilannekuvauksesta ei voi muutakaan päätellä; tätä kutsutaan "riittämättömien syiden periaatteeksi": todennäköisyysjakaumaa pidetään tasaisena eli kaikkia vaihtoehtoja yhtä todennäköisinä, ellei muutakaan pystytä osoittamaan.
^ Suotuisia tapauksia on 40 kaikkiaan 80:sta.
^ Suotuisia tapauksia on 10 kaikkiaan 80:sta.
^ Suotuisia tapauksia: (loput) 30 kaikkiaan 80:sta.
^ Tämä on sitä helpompi huomata, mitä enemmän purkkien sisällöt alun perin poikkesivat: esim. 39 kookos + 1 suklaa -purkki olisi selvästi todennäköisempi kuin 1 kookos + 39 suklaa -purkki.
^ Vertailu perustuu tiistain 2.2.2010 tilanteeseen n. puoliltapäivin Suomen aikaa.
^ Esimerkit ovat tässä myös perusteluna sille, miksi suomenkielisen Wikipedian kirjoittamishetkisestä esityksestä on täällä poikettu.
^ Esim. todennäköisyys, että nopan silmäluku on parillinen ehdolla, että se on kolmella jaollinen, on 1/2 (6 on parillinen, 3 taas ei), kun taas todennäköisyys, että nopan silmäluku on kolmella jaollinen ehdolla, että se on parillinen, on vain 1/3 (6 on kolmella jaollinen, mutta 2 ja 4 eivät ole).
^ Vaikka tässä artikkelissa keskitytäänkin tietynlaisiin sovelluksiin, itse kaavaa voi käyttää todennäköisyyksiä laskettaessa aina, kun lähtökohdiksi tarvitut tiedot ovat käytettävissä. Noppaesimerkki: Jos tiedetään, että P(parillinen) = $\frac{3}{6}$ , P(kolmella jaollinen) = $\frac{2}{6}$ ja P(parillinen|kolmella jaollinen) = $\frac{1}{2}$ , niin P(kolmella jaollinen|parillinen) = $\frac{\frac{1}{2} \cdot \frac{2}{6}}{\frac{3}{6}} = \frac{1}{3}$ .
^ Noppaesimerkki: Tilanteessa, jossa noppaa on heitetty, mutta heiton tuloksesta ei ole mitään tietoa, kolmella jaollisen tuloksen todennäköisyys on $\frac{2}{6} = \frac{1}{3}$ ja tilanteessa, jossa tiedetään, että heittotulos on parillinen, kolmella jaollisen tuloksen todennäköisyys on edellälasketun mukaisesti edelleenkin $\frac{1}{3}$ . Tämä johtuu siitä, että parillisuus ja kolmella jaollisuus ovat noppanheittotulosten toisistaan riippumattomia ominaisuuksia. Jos kuitenkin tiedettäisiinkin tuloksen olevan neljällä jaollinen, voitaisiin päätellä, että kolmella jaollisuuden posterioritodennäköisyys putosi nollaan – eihän (kuutio)nopan silmäluku voi olla yhtäaikaa jaollinen sekä 3:lla että 4:llä. Bayesin säännön lausekkeesta voi helposti nähdä, että jos P(B|A) = 0, niin myös P(A|B) = 0.
^ Tässä on seurattu sisäisesti johdonmukaista englanninkielisen Wikipedian merkintätapaa.
^ B on Bayesin sääntöä sovellettaessa vakio siinä mielessä, että vertailevassa hypoteesitestauksessa, jossa yhden "A":n sijasta tarkastellaankin useampia hypoteeseja rinnakkain ja sovelletaan Bayesin sääntöä kuhunkin niistä erikseen, kaikki A:n sisältävät lausekkeet riippuvat kulloisestakin hypoteesista mutta P(B) (kaavan ainoa lauseke, joka ei sisällä A:ta) pysyy vakiona hypoteesista riippumatta. Näin ollen hypoteesien keskinäisissä uskottavuusvertailuissa P(B):n voi jättää huomiottakin (eli vertailla pelkkien $P (B | A) \cdot P (A)$ -tyyppisten lausekkeiden arvoja), mutta jos vertailuarvot halutaan pitää todennäköisyyksinä eikä pelkkinä "suurempi on parempi" -vertailulukuina, ne on normalisoitava eli skaalattava P(B):llä jakamalla. – Todennäköisyytenä P(B) on aina suljetulla reaalilukuvälillä [0,1], ja jotta sitä voisi käyttää Bayesin kaavan mukaisella tavalla, sen arvo ei saa olla tasan 0, kuten englanninkielinen Wikipedia edellä toteaakin.
^ ja sen tulosten jatkokäyttöä – esim. sillä tavoin havaintoaineistosta lasketun jonkin tapahtuman suhteellisen frekvenssin arvon käyttöä kyseisen tapahtuman todennäköisyyden arviona eli estimaattina tai jonkin muuttujan vaikutuksen eliminointia yhdistämällä sen eri arvoilla saadut havaintotulokset ja poistamalla kyseinen muuttuja huomioon otettavien selitystekijöiden joukosta

Kirjallisuutta

E.T. Jaynes, Probability Theory, The Logic of Science, 2003, Cambridge University Press. (Jaynes väittää todistavansa enemmän kuin todistaa ja Jaynes oli puusilmäinen agnostikko, joka mm. väitti että Nasaretin olemassaolo on epätodennäköistä kun siitä ei ole todisteita (vaikka todisteita toki on ja vaikkei olisikaan Jaynesin päättely oli virheellistä, eikä se tässä noudattanut Bayesin teoreemaa), mutta Jaynesin bayesilaisen hypoteesitestauksen periaatteiden ja frekventististen menetelmien ongelmien käsittely on selkeää ja hyvää luettavaa. Kirjan vedosversio on ladattavissa http://bayes.wustl.edu/etj/prob/book.pdf)
R. Swinburne, The Existence of God, 2. painos, 2004, Clarendon Press.

[1] Näin siksi, että tilannekuvauksesta ei voi muutakaan päätellä; tätä kutsutaan "riittämättömien syiden periaatteeksi": todennäköisyysjakaumaa pidetään tasaisena eli kaikkia vaihtoehtoja yhtä todennäköisinä, ellei muutakaan pystytä osoittamaan.

[2] Suotuisia tapauksia on 40 kaikkiaan 80:sta.

[3] Suotuisia tapauksia on 10 kaikkiaan 80:sta.

[4] Suotuisia tapauksia: (loput) 30 kaikkiaan 80:sta.

[5] Tämä on sitä helpompi huomata, mitä enemmän purkkien sisällöt alun perin poikkesivat: esim. 39 kookos + 1 suklaa -purkki olisi selvästi todennäköisempi kuin 1 kookos + 39 suklaa -purkki.

[6] Vertailu perustuu tiistain 2.2.2010 tilanteeseen n. puoliltapäivin Suomen aikaa.

[7] Esimerkit ovat tässä myös perusteluna sille, miksi suomenkielisen Wikipedian kirjoittamishetkisestä esityksestä on täällä poikettu.

[8] Esim. todennäköisyys, että nopan silmäluku on parillinen ehdolla, että se on kolmella jaollinen, on 1/2 (6 on parillinen, 3 taas ei), kun taas todennäköisyys, että nopan silmäluku on kolmella jaollinen ehdolla, että se on parillinen, on vain 1/3 (6 on kolmella jaollinen, mutta 2 ja 4 eivät ole).

[9] Vaikka tässä artikkelissa keskitytäänkin tietynlaisiin sovelluksiin, itse kaavaa voi käyttää todennäköisyyksiä laskettaessa aina, kun lähtökohdiksi tarvitut tiedot ovat käytettävissä. Noppaesimerkki: Jos tiedetään, että P(parillinen) = $\frac{3}{6}$ , P(kolmella jaollinen) = $\frac{2}{6}$ ja P(parillinen|kolmella jaollinen) = $\frac{1}{2}$ , niin P(kolmella jaollinen|parillinen) = $\frac{\frac{1}{2} \cdot \frac{2}{6}}{\frac{3}{6}} = \frac{1}{3}$ .

[10] Noppaesimerkki: Tilanteessa, jossa noppaa on heitetty, mutta heiton tuloksesta ei ole mitään tietoa, kolmella jaollisen tuloksen todennäköisyys on $\frac{2}{6} = \frac{1}{3}$ ja tilanteessa, jossa tiedetään, että heittotulos on parillinen, kolmella jaollisen tuloksen todennäköisyys on edellälasketun mukaisesti edelleenkin $\frac{1}{3}$ . Tämä johtuu siitä, että parillisuus ja kolmella jaollisuus ovat noppanheittotulosten toisistaan riippumattomia ominaisuuksia. Jos kuitenkin tiedettäisiinkin tuloksen olevan neljällä jaollinen, voitaisiin päätellä, että kolmella jaollisuuden posterioritodennäköisyys putosi nollaan – eihän (kuutio)nopan silmäluku voi olla yhtäaikaa jaollinen sekä 3:lla että 4:llä. Bayesin säännön lausekkeesta voi helposti nähdä, että jos P(B|A) = 0, niin myös P(A|B) = 0.

[11] Tässä on seurattu sisäisesti johdonmukaista englanninkielisen Wikipedian merkintätapaa.

[12] B on Bayesin sääntöä sovellettaessa vakio siinä mielessä, että vertailevassa hypoteesitestauksessa, jossa yhden "A":n sijasta tarkastellaankin useampia hypoteeseja rinnakkain ja sovelletaan Bayesin sääntöä kuhunkin niistä erikseen, kaikki A:n sisältävät lausekkeet riippuvat kulloisestakin hypoteesista mutta P(B) (kaavan ainoa lauseke, joka ei sisällä A:ta) pysyy vakiona hypoteesista riippumatta. Näin ollen hypoteesien keskinäisissä uskottavuusvertailuissa P(B):n voi jättää huomiottakin (eli vertailla pelkkien $P (B | A) \cdot P (A)$ -tyyppisten lausekkeiden arvoja), mutta jos vertailuarvot halutaan pitää todennäköisyyksinä eikä pelkkinä "suurempi on parempi" -vertailulukuina, ne on normalisoitava eli skaalattava P(B):llä jakamalla. – Todennäköisyytenä P(B) on aina suljetulla reaalilukuvälillä [0,1], ja jotta sitä voisi käyttää Bayesin kaavan mukaisella tavalla, sen arvo ei saa olla tasan 0, kuten englanninkielinen Wikipedia edellä toteaakin.

[13] sen tulosten jatkokäyttöä – esim. sillä tavoin havaintoaineistosta lasketun jonkin tapahtuman suhteellisen frekvenssin arvon käyttöä kyseisen tapahtuman todennäköisyyden arviona eli estimaattina tai jonkin muuttujan vaikutuksen eliminointia yhdistämällä sen eri arvoilla saadut havaintotulokset ja poistamalla kyseinen muuttuja huomioon otettavien selitystekijöiden joukosta

Anonyymi

Haku

Bayesin teoreema

Nimiavaruudet

Lisää

Sivun toiminnot

Sisällys

Teoreeman esittely

Esimerkki teoreemaan johtavasta järkeilystä

Teoreeman käyttö: esimerkkitapausten tarkastuslaskut

Toinen esimerkki teoreeman käytöstä

Bayesin kaavan rakenne

Wikipedia-artikkelien vertailua⁶

Englanninkielisen Wikipedia-artikkelin Simple statement of theorem -osio

Suomenkielisen Wikipedia-artikkelin Teoreeman esittely -osio

Vertailevaa kommentointia

Bayesin kaava selityksineen

Bayesin teoreeman asema

Bayeslainen tulkinta suunnitteluteoriasta

Bayesin teoreeman käytöstä suunnittelun alueella

Teoreeman johtaminen ehdollisesta todennäköisyydestä

Ehdollinen todennäköisyys

Bayesin teoreeman johtaminen

Viitteet

Kirjallisuutta

Valikko

Valikko

Wiki-työkalut

Wiki-työkalut

Anonyymi

Haku

Bayesin teoreema

Teoreeman esittely

Esimerkki teoreemaan johtavasta järkeilystä

Teoreeman käyttö: esimerkkitapausten tarkastuslaskut

Toinen esimerkki teoreeman käytöstä

Bayesin kaavan rakenne

Wikipedia-artikkelien vertailua6

Englanninkielisen Wikipedia-artikkelin Simple statement of theorem -osio

Suomenkielisen Wikipedia-artikkelin Teoreeman esittely -osio

Vertailevaa kommentointia

Bayesin kaava selityksineen

Bayesin teoreeman asema

Bayeslainen tulkinta suunnitteluteoriasta

Bayesin teoreeman käytöstä suunnittelun alueella

Teoreeman johtaminen ehdollisesta todennäköisyydestä

Ehdollinen todennäköisyys

Bayesin teoreeman johtaminen

Viitteet

Kirjallisuutta

Valikko

Wiki-työkalut

Sivutyökalut

Luokat

Wikipedia-artikkelien vertailua⁶