Ero sivun ”Bayesin teoreema” versioiden välillä

Versio 14. syyskuuta 2011 kello 20.22

Bayesin teoreema (myös Bayesin sääntö tai Bayesin laki) on ehdolliseen todennäköisyyteen liittyvä teoreema. Teoreeman voidaan tulkita kuvaavan uskomusten päivittämistä uuden todisteaineiston valossa a posteriori. Teoreema on nimetty kehittäjänsä, 1700-luvulla eläneen brittiläisen pastorin ja matemaatikon Thomas Bayesin mukaan.

Bayes siis kehitti teoreemansa 1700-luvulla. Myöhemmin fisheriläinen tilastoteoria ja näennäisen objektiivinen frekventistinen todennäköisyyskäsitys saivat vallalla olevan paradigman aseman. Bayesiläisen analyysin kannattajat eivät juuri saaneet julkaisujaan läpi alan lehdissä, ja vasta noin 1980-luvulta alkaen Bayesin teoreema on taas saanut merkittävää tieteellistä jalansijaa ja päässyt tuottamaan useita selviä parannuksia tieteen tutkimusmenetelmiin. Teoreema on siis hyvä osoitus tieteellisten paradigmojen voimasta ja tieteen itseäänkorjaavuuden rajoista, vaikka kyse on maailmankatsomuksellisesti paljon neutraalimmasta asiasta kuin esimerkiksi evoluutioteorian valtaparadigman asema nykyään.

Teoreeman esittely

Tarkoitus on esimerkkien avulla tutustuttaa lukija tarkasteltavien kysymysten luonteeseen. Jos perusajatus on jo tuttu, tämän osion voi hyvin ohittaa.

Esimerkki teoreemaan johtavasta järkeilystä

Pertti pitää kekseistä, varsinkin kookoskekseistä. Eräänä päivänä hän on ostanut itselleen kaksi keksipakettia, ykköspaketissa on 40 kookoskeksiä, kakkospaketissa taas keksilajitelma, jossa on 10 kaurakeksiä, 10 kanelikeksiä, 10 suklaakeksiä ja 10 kookoskeksiä. Pertti avaa paketit ja keskittyy töihinsä, nappaa sitten puolihuolimattomasti keksin avoimesta paketista ja aikoo syödä sen saman tien, mutta tulee sitten ajatelleeksi, ettei ollenkaan tiedä, kummasta paketista keksi on peräisin. Koska älylliset pähkinät kiehtovat keksiä suljetussa kourassaan pitelevää Perttiä, hän rupeaa miettimään vaihtoehtoja asian selvittämiseksi:

Jos keksi on kaura-, kaneli- tai suklaakeksi, sen on pakko olla peräisin kakkospaketista, koska sellaisia ei ole ykköspaketissa.
Jos keksi onkin kookoskeksi, se voi olla peräisin kummasta paketista tahansa.

Pertti avaa kouransa ja toteaa keksin kookoskeksiksi. Siispä hän ei nyt tiedä, kummasta paketista se on peräisin. Asian voisi tietysti selvittää laskemalla jommankumman paketin keksit, nythän toisessa on 39, toisessa 40. Laiskana miehenä Pertti haluaa mieluummin laskea 39 keksiä kuin 40, niinpä hän päättää laskevansa sen paketin keksit, josta kädessä oleva kookoskeksi todennäköisemmin on peräisin. Voiko käytettävissä olevasta informaatiosta päätellä jotain tästä todennäköisyydestä?

Selvää siis on, että molemmat paketit ovat nyt mahdollisia vaihtoehtoja, mutta siitä ei ilmeisesti seuraa, että ne olisivat yhtä todennäköisiä. Jos ne nimittäin sitä olisivat, niin lajitelmapaketin muilla kuin kookoskekseillä ei olisi ollut mitään vaikutusta tilanteeseen liittyviin todennäköisyyksiin. Entä jos toisessa paketissa olisi ollut pelkkiä kookoskeksejä ja toisessa vain yksi kookoskeksi 39 muunlaisen keksin seassa? Ilmeisestikään todennäköisyys tämän keksin satunnaiselle sormiin osumiselle ei ole sama kuin kookoskeksipaketin tarkemmin yksilöimättömän keksin saamistodennäköisyys.

Ei siis ole kovinkaan vaikeaa päätellä, että ykköspaketti on todennäköisempi: koska keksi poimittiin satunnaisesti ja kaikilla kekseillä oli alun perin oletettavasti yhtä suuri käteenosumistodennäköisyys¹, niin jommastakummasta täydestä paketista valittu keksi on 0,5:n todennäköisyydellä ykköspaketin kookoskeksi² mutta vain 0,125:n todennäköisyydellä kakkospaketin kookoskeksi³ (ja olisi ollut 0,375:n todennäköisyydellä kakkospaketin jokin muu kuin kookoskeksi⁴).

Vaikka Pertillä nyt siis onkin hyvä syy laskea pikemminkin ykkös- kuin kakkospaketin keksit, koko ajatus keksien laskemisesta rupeaa tässä vaiheessa kuitenkin tuntumaan turhan työläältä. Hän päättääkin, ettei laske keksejä, jos vain voi selvittää itselleen, kuinka todennäköistä tässä tilanteessa täsmällisesti ottaen on, että keksi on peräisin ykköspaketista.

Koska ykköspaketista saadun kookoskeksin alkuperäistodennäköisyys siis on 0,5 (umpimähkäinen valinta kahdesta paketista, minkä jälkeen ykköspaketista nousee välttämättä juuri kookoskeksi) ja kakkospaketista saadun vastaavasti tasan neljäsosa siitä (taaskin umpimähkäinen paketinvalinta, minkä jälkeen 0,25:n todennäköisyys kookoskeksin saamiselle), vaikuttaa siltä, että ykköspaketin todennäköisyys on 0,5 / (0,5 + 0,125)⁵ = 0,5 / 0,625 = 0,8.
Ajatusvauhtiin päästyään Pertti ei malta lopettaa tähän. Entäs, jos paketteja olisikin ollut kolme eikä kaksi? Jos hän olisikin ostanut kaksi kookoskeksipakettia ja yhden lajitelman, satunnainen kookoskeksi olisi saatu jommastakummasta kookoskeksipaketista todennäköisyydellä 2/3 / (2/3 + 1/3 * 1/4)⁶ = 2/3 / (8/12 + 1/12) = 2/3 / 9/12 = 2/3 / 3/4 = 8/9 = 0,888...
Jos taas kookoskeksipaketteja olisikin ollut vain yksi ja lajitelmapaketteja kaksi, kookoskeksipaketin todennäköisyydeksi olisi jäänyt 1/3 / (1/3 + 2/3 * 1/4)⁷ = 1/3 / (2/6 + 1/6) = 1/3 / 3/6 = 1/3 / 1/2 = 2/3 = 0,666...
Koska töiden jatkaminen ei jostain syystä Perttiä juuri nyt hirveästi kiinnosta, hän päättää miettiä asiaa vielä siltäkin kannalta, mitä vaikutusta todennäköisyyksiin olisi lajitelmapaketin koostumuksen muuttamisella: Jos puolet lajitelmapaketin kekseistä olisi ollut kookoskeksejä, niin kahden paketin tapauksessa kookoskeksipaketin todennäköisyys olisi ollut 1/2 / (1/2 + 1/2 * 1/2)⁸ = 1/2 / (2/4 + 1/4) = 1/2 / 3/4 = 4 / 6 = 2/3 = 0,666...
Tilanteessa, jossa kookoskeksejä olisi ollut lajitelmasta vain joka kahdeksas, lukemat olisivat sen sijaan olleet 1/2 / (1/2 + 1/2 * 1/8)⁹ = 1/2 / (8/16 + 1/16) = 1/2 / 9/16 = 16/18 = 8/9 = 0,888...
Kookoskeksipaketin todennäköisyys oli siis sitä suurempi, mitä suuremman osan ne muodostivat kaikista paketeista, mutta sitä pienempi, mitä suuremman osan kookoskeksit muodostivat lajitelmapaketin sisällöstä.
Entäs sitten se tapaus, jossa pöydällä ei olisikaan kookoskeksipaketteja vaan ainoastaan erilaisia lajitelmapaketteja, vaikkapa sellainen, jossa kookoskeksejä oli puolet, ja sellainen, jossa niitä oli vain joka neljäs? Ensinmainitun paketin todennäköisyys saadun kookoskeksin alkuperänä olisi nyt 1/2 * 1/2 / (1/2 * 1/2 + 1/2 * 1/4)¹⁰ = 1/4 / (2/8 + 1/8) = 1/4 / 3/8 = 8/12 = 2/3 = 0,666...

Nyt Pertti kokee ahaa-elämyksen: näitä todennäköisyyksiä ei oikeastaan tarvitsekaan laskea erikseen järkeilemällä, vaan voi oikaista: tietynlaisen keksipaketin todennäköisyys saadun kookoskeksin alkuperäksi on ilmeisesti suoraan verrannollinen tällaisten pakettien suhteelliseen osuuteen kaikista paketeista ja kookoskeksien suhteelliseen osuuteen kyseisenlaisen paketin kekseistä¹¹ mutta kääntäen verrannollinen kookoskeksin saamisen kokonaistodennäköisyyteen¹².

Tämän ahaa-elämyksen tuloksen Pertti päättää kirjoittaa vastaisen varalta muistiin matemaattisena kaavana:

P(ekapaketti|kookoskeksi)={\frac {P(kookoskeksi|ekapaketti)\cdot P(ekapaketti)}{P(kookoskeksi)}}

$P(ekapaketti|kookoskeksi)$ -merkinnän voi tässä lukea "todennäköisyys, että paketeista satunnaisesti poimittu kookoskeksi on peräisin ykköspaketista", $P(kookoskeksi|ekapaketti)$ vastaavasti "todennäköisyys, että ykköspaketista saadaan satunnaisesti kookoskeksi", $P(ekapaketti)$ : "todennäköisyys, että satunnaisesti napattu paketti on ykköspaketti", ja $P(kookoskeksi)$ "todennäköisyys, että paketeista satunnaisesti poimittu keksi on kookoskeksi".

Tämän kaavan käyttöönotto muuttaa aiempien esimerkkitapausten laskennan rutiinitehtäväksi ja tekee uusienkin muunnelmien ratkaisemisen yhtä suoraviivaiseksi.

Teoreeman käyttö: esimerkkitapausten tarkastuslaskut

Edellä päättelemällä saadut todennäköisyydet voi nyt laskea suoraan tähän kaavaan tehdyillä sijoituksilla. Seuraavassa numerointi vastaa edelläkäytettyä:

$P(ekapaketti|kookoskeksi)={\frac {{\tfrac {40}{40}}\cdot {\tfrac {1}{2}}}{\tfrac {50}{80}}}={\frac {4}{5}}=0,8$
$P(ekapaketti|kookoskeksi)={\frac {{\tfrac {40}{40}}\cdot {\tfrac {2}{3}}}{\tfrac {90}{120}}}={\frac {8}{9}}=0,888...$
$P(ekapaketti|kookoskeksi)={\frac {{\tfrac {40}{40}}\cdot {\tfrac {1}{3}}}{\tfrac {60}{120}}}={\frac {2}{3}}=0,666...$
$P(ekapaketti|kookoskeksi)={\frac {{\tfrac {40}{40}}\cdot {\tfrac {1}{2}}}{\tfrac {60}{80}}}={\frac {2}{3}}=0,666...$
$P(ekapaketti|kookoskeksi)={\frac {{\tfrac {40}{40}}\cdot {\tfrac {1}{2}}}{\tfrac {45}{80}}}={\frac {8}{9}}=0,888...$
$P(ekapaketti|kookoskeksi)={\frac {{\tfrac {20}{40}}\cdot {\tfrac {1}{2}}}{\tfrac {30}{80}}}={\frac {2}{3}}=0,666...$

Kaikki esimerkit siis täsmäävät.

Toinen esimerkki teoreeman käytöstä

Otetaan tarkastelun lähtökohdaksi taaskin Pertin kaksi keksipurkillista: ykköspurkissa on tällä kertaa 10 suklaakeksin lisäksi 30 kookoskeksiä, kakkospurkissa taas molempia laatuja 20 kappaletta. Esimerkkitapahtumat etenevät niin, että Pertti kopeloi taaskin sattumanvaraisesti käteensä toisen purkeista, nostaa siitä yhden keksin niin umpimähkäisesti, ettei jälkeenpäin enää itsekään tiedä, kummasta purkista se oli peräisin, mutta havaitsee saaneensa taaskin kookoskeksin. Millä todennäköisyydellä se nyt on peräisin ykköspurkista? Varmasti se on peräisin siitä purkista, jossa on nyt jäljellä vain 39 keksiä, mutta Pertti ei nytkään käy laskemaan keksimääriä vaan arvioi tilannetta vain edelläannetun informaation perusteella.

Intuitiivisesti on helppo nähdä, että koska kookoskeksejä on ykköspurkissa suhteellisesti(kin) enemmän kuin kakkospurkissa, ykköspurkki on tässä tapauksessa kakkospurkkia todennäköisempi.¹³ Bayesin teoreema täsmentää tämän summittaisen arvion antamalla tapahtuman tarkan todennäköisyyden:

P(ekapurkki|kookoskeksi)\,

on todennäköisyys sille, että Pertti oli tarttunut ykköspurkkiin siinä tapauksessa, että hän on poiminut purkistaan kookoskeksin. Juuri tämän todennäköisyyden haluamme siis selvittää:

P(ekapurkki|kookoskeksi)\,=?

P(kookoskeksi)\,

on lähtötilanteessa vallinnut todennäköisyys, että lopulta Pertti saa sattumalta käteensä kookoskeksin. Koska jokaisella keksillä on alun perin yhtä suuri todennäköisyys päätyä lopuksi Pertin käteen, kookoskeksin saamistodennäköisyys vastaa kookoskeksien suhteellista osuutta kaikista purkeissa olevista kekseistä. Kookoskeksejä on ykköspurkissa 30 ja kakkospurkissa 20, yhteensä siis 50. Koska kummassakin purkissa on alun perin 40 keksiä, keksejä on kaikkiaan 80. Näin saadaan

P(kookoskeksi)={\frac {50}{80}}=0,625

P(ekapurkki)\,

on todennäköisyys, että Pertti tarttuu sattumanvaraisesti nimenomaan ykköspurkkiin. Kahdesta purkkivaihtoehdosta kumpikin on alun perin yhtä todennäköinen, joten tämä todennäköisyys on 0,5.

P(ekapurkki)={\frac {1}{2}}=0,5

P(kookoskeksi|ekapurkki)\,

on todennäköisyys, että Pertti ykköspurkkiin tartuttuaan poimii siitä juuri kookoskeksin. Koska ykköspurkin kaikkiaan 40 keksistä tasan 30 on kookoskeksejä, saadaan todennäköisyydeksi

P(kookoskeksi|ekapurkki)={\frac {30}{40}}=0,75

Kaiken tämän informaation avulla voimme nyt laskea todennäköisyyden sille, että Pertin valitsema kookoskeksi on peräisin juuri ykköspurkista:

P(ekapurkki|kookoskeksi)={\frac {P(kookoskeksi|ekapurkki)P(ekapurkki)}{P(kookoskeksi)}}={\frac {0,75\cdot 0,5}{0,625}}=0,6

Kysymys on siis siitä, että ykköspurkki on sitä todennäköisempi, mitä suurempi siinä on kookoskeksien osuus ja mitä todennäköisemmin se tuli sattumanvaraisesti valituksi, ja sitä epätodennäköisempi, mitä todennäköisemmin kookoskeksi saatiin "purkista riippumatta". Näiden seikkojen järkevyyden voi mielessään todeta vaikkapa seuraavilla ajatuskokeilla:

Jos ykköspurkin kookoskeksipitoisuutta olisi alun perin lisätty, kookoskeksiin päätyminen olisi entisestään lisännyt ykköspurkin jälkikäteistodennäköisyyttä kakkospurkkiin verrattuna.
Jos taas ykköspurkkiin olisikin lisätty suklaakeksejä, sen jälkikäteistodennäköisyys olisi nykyistä pienempi.
Jos tarjolla olisi ollut kolmaskin purkki, ykköspurkin jälkikäteistodennäköisyys olisi nykyistä pienempi.
Jos tarjolla olisi ollut vain ykköspurkki, sen "valinta" olisi nykyistä todennäköisempää (vrt. yksipuoluevaalit).
Jos kakkospurkissa olisi ollut suhteessa nykyistä enemmän kookoskeksejä, ykköspurkkivaihtoehdon jälkikäteistodennäköisyys olisi nykyistä pienempi (koska kakkospurkin todennäköisyys olisi nykyistä suurempi); tässä tapauksessa myös kookoskeksin saamisen kokonaistodennäköisyys olisi kasvanut.
Jos kakkospurkissa olisi ollut suhteessa nykyistä enemmän muita kuin kookoskekseja, ykköspurkkivaihtoehdon jälkikäteistodennäköisyys olisi nykyistä suurempi (koska kakkospurkin todennäköisyys olisi nykyistä pienempi); tällöin myös kookoskeksin saamisen kokonaistodennäköisyys olisi pienentynyt.

Bayesin kaavan rakenne

Tässä osiossa pureudutaan kaavamuodossa esitetyn Bayesin teoreeman yksityiskohtiin.

Wikipedia-artikkelien vertailua¹⁴

Bayesin teoreeman mielekkäiden käyttötapojen ymmärtämisen lähtökohtana on itse kaavan hahmottaminen. Tämä ei näköjään välttämättä ole kovinkaan helppoa, kuten seuraava esimerkkiparikin osoittanee.¹⁵

Englanninkielisen Wikipedia-artikkelin Simple statement of theorem -osio

Bayes gave a special case involving continuous prior and posterior probability distributions and discrete probability distributions of data, but in its simplest setting involving only discrete distributions, Bayes' theorem relates the conditional and marginal probabilities of events A and B, where B has a non-vanishing probability:

$P(A|B)={\frac {P(B|A)\,P(A)}{P(B)}}\,\!$ .

Each term in Bayes' theorem has a conventional name:

P(A) is the prior probability or marginal probability of A. It is "prior" in the sense that it does not take into account any information about B.

P(A|B) is the conditional probability of A, given B. It is also called the posterior probability because it is derived from or depends upon the specified value of B.

P(B|A) is the conditional probability of B given A.

P(B) is the prior or marginal probability of B, and acts as a normalizing constant.

Bayes' theorem in this form gives a mathematical representation of how the conditional probability of event A given B is related to the converse conditional probability of B given A.

Suomenkielisen Wikipedia-artikkelin Teoreeman esittely -osio

Tapahtuman A todennäköisyys ehdolla B (merkitään P(A|B)) on yleisessä tapauksessa eri asia kuin todennäköisyys tapahtumalle B ehdolla A (merkitään P(B|A)). Näiden kahden ehdollisen todennäköisyyden välillä on kuitenkin suhde, jota Bayesin teoreema kuvaa. Teoreema kuuluu seuraavasti:

$P(B|A)={\frac {P(A|B)\;P(B)}{P(A)}}\!$

missä

$P(A)\,$ on A:n priori-todennäköisyys. Se ei riipu B:stä (jota joskus kutsutaan havainnoksi).

$P(A\mid B)$ on A:n todennäköisyys ehdolla B. Tätä kutsutaan myös posterioritodennäköisyydeksi.

$P(B\mid A)$ on B:n todennäköisyys ehdolla A.

$P(B)\,$ on B:n priori-todennäköisyys.

Vertailevaa kommentointia

Huomataan, että näissä selosteissa kaavan rakenne on sinänsä sama, mutta suomenkielisessä versiossa A ja B ovat vaihtaneet paikkaa englanninkieliseen verrattuna. Tämä ei kuitenkaan näy merkintöjen selitteissä, vaan A:n priori- ja posterioritodennäköisyyksistä puhutaan kummassakin selitteessä samaan tapaan, aivan kuin olisi samantekevää, onko yhtälön vasemmalla puolella P(A|B) vaiko P(B|A). Todennäköisyyslaskennassahan siis tapahtuman A todennäköisyys ehdolla B on kuitenkin yleisesti eri asia kuin B ehdolla A.¹⁶ Näiden kahden ehdollisen todennäköisyyden välisen suhteen ja sitä kuvaavan Bayesin teoreeman ymmärtämisen kannalta on tärkeää ensinnäkin varmistua siitä, että kaavan kirjoitusasu ja sen osien selitteet vastaavat toisiaan.

Kuten matematiikassa yleensäkin, merkinnät voivat periaatteessa tarkoittaa, mitä niiden vain kulloinkin määritellään tarkoittavan, mutta toisaalta käytännössä kuitenkin tietyt merkintätavat vakiintuvat tiettyihin käyttöihin. Bayesin teoreeman luonteesta kyllä seuraa, että sekä $A$ että $B$ (mihin ne sitten kulloinkin viittasivatkin) voidaan joka tapauksessa ratkaista toistensa avulla. Siinä mielessä tilanne siis on symmetrinen. Bayesin kaavan hyöty tulee kuitenkin esiin nimenomaan epäsymmetrisissä tilanteissa, joissa toinen tapahtuma on havaittu, toisen todennäköisyyttä vain arvioidaan, ja samoin toinen ehdollinen todennäköisyys on tiedossa, toinen taas jää tällä kaavalla laskettavaksi. Siksi on järkevää antaa A:lle ja B:lle kaavaa kirjoitettaessa eri roolit: toinen kuvaa välittömästi havaittavaa asiaa, toinen ei.

Tämä epäsymmetria tuleekin esiin englanninkielisessä versiossa, jossa P(A|B):stä käytetään posterior probability -nimitystä, mutta P(B|A):sta ei. Vastaavasti P(B):n sanotaan toimivan normalisointivakiona, mutta P(A) ei sellaisena toimi. Näin siksi, että ideana on, että kaavan oikean puolen lausekkeessa olevat arvot ovat tunnettuja, mutta vasemman puolen lauseke, siis juuri tämä posterior probability, on etukäteen tuntematon.

Asetelma on siis sellainen, että lähtökohdaksi otetaan P(A):n, P(B|A):n ja P(B):n arvot ja näistä lasketaan P(A|B).¹⁷ Yleensä siis kiinnostuksen kohteena ovat tässä A:n todennäköisyydet, ja siksi juuri niitä sanotaan prioritodennäköisyydeksi (P(A)) ja posterioritodennäköisyydeksi (P(A|B)). Nämä nimitykset taas saavat selityksensä siitä, että ajatellaan tilannetta, jossa ensin A:n todennäköisyys on P(A), sitten B tapahtuu (tai havaitaan tapahtuneeksi), ja tämän havainnon perusteella tarkennetaan käsitystä A:n todennäköisyydestä, jolloin sen uudeksi arvoksi B:n tapahtumisen huomioonottamisen jälkeen saadaan P(A|B). P(A) siis kuvaa alkuperäistodennäköisyyttä (todennäköisyyttä a priori) ja P(A|B) puolestaan jälkikäteistodennäköisyyttä (todennäköisyyttä a posteriori).¹⁸

Bayesin kaava selityksineen

Teoreeman perussisällön voi siis ilmaista seuraavalla kaavalla¹⁹:

P(A|B)={\frac {P(B|A)\;P(A)}{P(B)}}\!

$P(A)\!$ on A:n priori- eli marginaalitodennäköisyys. Se on apriorinen siinä mielessä, että sen määrittämisessä ei oteta huomioon mitään B:hen liittyvää informaatiota.
$P(A|B)\!$ on A:n todennäköisyys ehdolla B. Tätä kutsutaan myös posteriori-todennäköisyydeksi ja sen arvo halutaan Bayesin sääntöä soveltamalla selvittää.
$P(B|A)\!$ on B:n todennäköisyys ehdolla A. Tämä todennäköisyys voidaan tietää tai arvioida siksi, että tyypillisessä tapauksessa A:n merkitys B:n kannalta on helpommin hahmotettavissa kuin B:n merkitys A:n kannalta. Keksiesimerkeissä pakettisisällöt olivat selvillä etukäteen, ja usein muulloinkin A on jonkinlainen jakaumahypoteesi tai muu laaja-alainen oletus, jonka voimassaollessa erilaisten tapahtumaskenaarioiden todennäköisyyksiä voidaan arvioida tai laskea varsin suoraviivaisesti.
$P(B)\!$ on B:n priori- eli marginaalitodennäköisyys. P(B) toimii Bayesin säännön normalisointi- eli skaalausvakiona²⁰. B:tä kutsutaan joskus havainnoksi, ja Bayesin teoreeman tyypillinen käyttötapa lähtee siitä, että B:n on havaittu tapahtuneen tai olevan voimassa ja että nyt halutaan tietää, miten tämän seikan huomioon ottaminen vaikuttaa A:n todennäköisyyteen eli miten A:n prioritodennäköisyys B:tä koskevan informaation huomioonottamisen myötä päivittyy A:n posterioritodennäköisyydeksi.

Marginaalitodennäköisyyksistä puhuminen liittyy ajatukseen, että nämä todennäköisyydet summaavat kyseisten tapahtumien todennäköisyydet kaikkien vaihtoehtoisten tilanteiden "yli": kun mitään lisäinformaatiota ei käytetä näiden todennäköisyyksien laskemiseen, mitään vaihtoehtoja ei ole suljettu niistä pois. Taulukkomuotoisissa esityksissä nämä arvot saadaan ristiintaulukoitujen yhteistapahtumien todennäköisyyksien summina taulukon reunoihin eli marginaaleihin. Tätä toimenpidettä²¹ sanotaan marginalisoinniksi.

Bayesin teoreeman asema

Bayesilainen tilastoteoria, joka siis perustuu yo. teoreeman käyttöön, on yksi tilastomatematiikan pääsuuntauksista. Muita tapoja ovat fisheriläinen ja pearsonilainen lähestymistapa.

Bayes-päättelyt perustuvat suoraviivaisesti todennäköisyyslaskennan perusyhtälöihin²² (ks. alla). Itse teoreema on siis hyvin varmasti oikein.²³ Kiistanalaiseksi jääkin lähinnä kysymys siitä, paljonko teoreemaa käyttäen saataviin tuloksiin on luottamista, kun ottaa huomioon, että laskuissa käytettävää priori-todennäköisyyttä²⁴ ei välttämättä tiedetä, joten on mahdollista syyttää Bayesin kaavaan kulloinkin sijoitettuja lähtöarvoja "hatusta vedetyiksi" ja väittää saatuja tuloksiakin näin ollen arvottomiksi.²⁵

Näin tilastomatematiikan suuntausten välinen perustekeskustelu (tai -väittely) ei koske (kaikkien tunnustaman) Bayesin laskukaavan matemaattista pätevyyttä sinänsä vaan palautuu viime kädessä matematiikan soveltamiseen liittyviin taustafilosofisiin kysymyksiin ja näistä ennen muuta todennäköisyyden käsitteeseen:

Bayesiläiset kannattavat tyypillisesti episteemistä todennäköisyyskäsitystä, jonka mukaan todennäköisyys-käsite ilmaisee henkilön²⁶ uskomuksen astetta²⁷ tai hänen tietonsa varmuusastetta²⁸.
Frekventistisessä eli otoksien suhteellisiin määriin perustuvassa todennäköisyyskäsityksessä todennäköisyyksien ajatellaan kuvaavan toistokoetulosten suhteellisia määriä. Tämä perustuu eräänlaiseen todennäköisyyskäsitteestä tehtyyn käänteispäättelyyn:
1. Jos jossain tilanteessa tietynlainen todennäköisyysjakauma on "oikeasti voimassa", toistokokeiden tulosten suhteelliset frekvenssit (tietyn tuloksen antaneiden kokeiden lukumäärät tehtyjen toistojen kokonaislukumäärällä jaettuina) lähestyvät asymptoottisesti kyseisten tulosten kaiken aikaa voimassaolevia todennäköisyyksiä (ns. suurten lukujen laki); tämä on Kantin terminologiassa "analyyttinen totuus a priori" eli käsitemääritelmistä johdettavissa oleva välttämätön järjen päätelmä.
2. Frekventistinen todennäköisyysfilosofia tarttuu tähän analyyttis-deduktiivis-aprioriseen totuuteen ja käyttää sitä käänteisesti, empiiris-induktiivis-aposteriorisesti: "Tietyn tapahtuman todennäköisyys tietyssä tilanteessa on tämän tapahtuman sattumisen suhteellisen frekvenssin raja-arvo tässä tilanteessa tehdyssä rajoittamattoman pitkässä toistokoe- tai havaintosarjassa."
Frekventistisen tulkinnan ongelmaksi muodostuu, että yleensä käytettävissä ei kuitenkaan ole tarpeeksi toistokoetuloksia,²⁹ joten frekventistit joutuvat puhumaan pikemminkin siitä, miten asioiden "tulisi olla" kuin siitä, miten ne ovat.³⁰ Vaikka tämän käsityksen ajateltiinkin olevan objektiivinen, niin käytännössä, koska ääretöntä sarjaa toistokokeita ei ole oikeastaan missään tilanteessa³¹, siihen pitäytyminen johtaa asianomaiset usein tiedostamattaankin olettamaan asioita, joita he eivät omien kriteeriensä puitteissa pysty mitenkään varmistamaan.³²

Koska episteeminen todennäköisyys on luonteeltaan "vaatimattomampi" kuin frekventistinen, sitä voidaan usein ainakin välttävästi arvioida, joten priori-ongelma ei usein ole merkittävä. Priorin valintaan ei kuitenkaan ole yhtä oikeaa tapaa. Tarkoitus olisi, että priori kuvaa henkilön tietämyksen tilaa, mutta tietämyksen esittäminen matemaattisesti ei ole ongelmatonta. Matemaattiset tietämyksenesittämismenetelmät ovat usein merkittävästi riippuvaisia mm. tutkimusjärjestelyjen suhteen tehdyistä valinnoista eivätkä yleensä ole parametrisoinnista riippumattomia. Riittävän oikealla priorilla saadaan kuitenkin yleensä riittävän oikeita tuloksia, ja yleensä havaintojen kasvaessa priorin merkitys vähenee nopeasti.³³ Järkevien priorivalintojen vaikutusta lopputulokseen voidaan myös arvioida. Voidaankin argumentoida, että priori-ongelma ei ole ongelma, vaan rehellistä oman rajallisuutemme myöntämistä. Yksi bayesiläisen päättelyn vahvuuksista onkin se, että tehdyt oletukset ovat paremmin esillä eivätkä piilossa alan keittokirjamaisten päättelyreseptien takana.

Ehkä merkittävin puute bayesiläisessa hypoteesitestauksessa on se, että sillä voidaan vain vertailla olemassaolevia hypoteeseja keskenään. Yhtä teoriaa ei voida arvioida. Käytännössä jopa bayesilaisen hypoteesitestauksen tiukimmat puolestapuhujat kuten Jaynes vetoavat Fisherin hypoteesitestauksen kaltaisiin kriteereihin tilanteissa, joissa on tarve miettiä että pitäisikö etsiä jotain parempaa teoriaa.

Ongelmistaan huolimatta bayesilainen tapa tarjoaa hyvin perustellun, systemaattisen ja todennäköisyyksiin perustuvan tavan arvioida argumentteja. Siihen on sisäänrakennettuna useimmat olennaiset tieteenfilosofiset teorianvalinnan kriteerit. Bayesin teoreema voidaan laajentaa väittämien välisten uskomusverkkojen systemaattiseen analyysiin (Bayes nets), joka sopii hyvin maailmankatsomusten analyysiin.

Huomattavimpia Bayesin teoreemaa käyttäviä kristittyjä filosofeja on Richard Swinburne. Teoksessaan The Existence of God Swinburne käy läpi mm. kosmologisen ja teleologisen argumentin, pahan ongelman, uskonnolliset kokemukset ja Jeesuksen ylösnousemuksen todisteet ja päätyy siihen, että käsitellyn evidenssin pohjalta Jumalan olemassaolo on todennäköisempää kuin ei.

Bayesilainen tulkinta suunnitteluteoriasta

Usein tietty tilastollinen ongelma voidaan ilmaista useamman tilastollisen paradigman alla. Useimmiten Bayesilainen tapa näyttäisi olevan tarkin ja sen käytön rajat ovat selvemmin nähtävillä koska tehdyt oletukset ovat selvemmin nähtävillä. Myös suunnitteluteoria on esitettävissä bayesilaisessa muodossa. Tietyssä mielessä se, että päättely voidaan ilmaista useammalla tavalla, viittaa päättelyn luotettavuuteen koska tuolloin päättely ei ole riippuvainen valitusta paradigmasta.

Dembskin Fisheriläisessä suunnittelupäättelyssä on siis kolme pääkohtaa:

Vapausasteisuus
Monimutkaisuus
Täsmennys

Bayesilaisessa tulkinnassa kohdat 1. ja 2. tarkoittavat että ei-mielivaltaisille naturalistisille hypoteeseille tarkasteltavana oleva asia on epätodennäköinen. Kohta 3 taas tarkoittaa sitä, että suunnittelija-hypoteesin ennuste asialle on korkea. Esimerkiksi palautumattomasti monimutkaisten asioiden kohdalla evoluutioteoreettinen ennuste on paljon tasaista jakaumaa alempana, koska on erittäin epätodennäköistä että näiden systeemien välivaiheet olisivat elinkelpoisia (kohdat 1 ja 2). Koska näitä rakenteita voidaan täsmentää (analogia ihmisen suunnittelemien rakenteiden kanssa, monen osan systeemit tyypillisiä suunnittelijoille, toimiva kone jolla jokin tarkoitus(teleonomia)), suunnittelyhypoteesin ennuste palautumattoman monimutkaiselle rakenteelle on paljon tasaista jakaumaa korkeampi. Näin suunnittelu on paljon evoluutioteoriaa todennäköisempi selitys näille rakenteille.

Ylläolevan kolmen kohdan lisäksi Dembski tarkastelee toisaalta käytössä olevia resursseja ja toisaalta mahdollisten täsmennyksien määrää. Tämä on oikea intuitio Dembskiltä (ja samalla Fisheriläisen paradigman oikeansuuntainen korjaus), sillä Bayesilaisessa tulkinnassa nämä molemmat ovat sisäänrakennettuina evoluutioteorian ja suunnitteluhypoteesin ennusteiden normituksessa (todennäköisyyksien summa/integraali kaikkien mahdollisten tapausten yli on yksi).

Bayesin teoreeman käytöstä suunnittelun alueella

Suunnittelu-hypoteesin ennusteita voidaan perustella usealla tasolla, joista alla esimerkkejä:

Suunnittelijan erityisen ilmoituksen perusteella tehdyt ennustukset.
Ennusteet suunnittelijan ja ihmisen samankaltaisuuksiin perustuen. (Analogia on yksi tieteellisen päättelyn yleisimpiä muotoja.)
Ennusteet yleisen tietoisen olennon ominaisuuden perusteella.
Ennusteet jotka summataan kaikkien tietoisen olennon motiivien yli. Koska tässä todennäköisyysavaruuden dimensio ja tyyppi on erilainen kuin fysikaalisten parametrien avaruus, se kuvautuu ei-tasaisena ennusteena fysikaalisten parametrien avaruuteen. Esimerkiksi, mikäli annamme 50% todennäköisyyden sille, että Suunnittelija (esimerkiksi Jumala) luo tietoisia havaitsijoita sallivan universumin, kutsutaan tätä universumin ominaisutta O, summaamalla O:n ja ei-O:n yli, saamme silti hyvin suuren ennusteen havaitsijat sallivalle universumille fysikaalisten parametrien avaruudessa verrattuna fysikaalisten parametrien avaruuden tasaiseen jakaumaan. Esimerkiksi painovoiman voimakkuus on 1, kun kaikkien fysiikan voimien voimakkuudet ovat välillä 1 - 10⁴⁰. Painovoima saa olla korkeintaan 3000-kertainen, jotta elämä on mahdollista. Näin todennäköisyys sille, että Jumala luo maailman, jossa painovoima on välillä 1-3000, on 0.5. Vastaavasti todenäköisyys saada painovoiman arvo elämän sallivalle välille puhtaan sattuman perusteella on noin välin 1-3000 pituus verrattuna koko skaalan pituuteen, eli noin 3000/10⁴⁰=10^-36. Jumala-selitys on siis noin 0.5/10^-36 ~ 5*10³⁵ eli melkein miljoona miljoona miljoona miljoona miljoona miljoonaa kertaa todennäköisempi kuin puhdas sattuma (ja siten teismi on tilapäisesti tämän verran ateismia todennäköisempi jo tämän argumentin perusteella).

Teoreeman johtaminen ehdollisesta todennäköisyydestä

Ehdollinen todennäköisyys

Tapahtuman A ehdollinen todennäköisyys, on todennäköisyys tapahtumalle A sillä ehdolla, että tapahtuma B on jo tapahtunut. Ehdollinen todennäköisyys merkitään P(A|B), joka luetaan: "tapahtuman A todennäköisyys ehdolla B". Se määritellään kaavalla

P(A\mid B)={\frac {P(A\cap B)}{P(B)}}.\,

Jos tapahtuman B todennäköisyys on 0, eli $P(B)=0$ , niin $P(A\mid B)$ ei ole määritelty, sillä 0:lla ei saa jakaa.

Bayesin teoreeman johtaminen

Ehdollisen todennäköisyyden määritelmän mukaisesti tapahtuman A todennäköisyys ehdolla B on

P(A|B)={\frac {P(A\cap B)}{P(B)}}.

Vastaavasti tapahtuman B todennäköisyys ehdolla A on

P(B|A)={\frac {P(A\cap B)}{P(A)}}.\!

Näistä kahdesta yhtälöstä saadaan

P(A|B)\,P(B)=P(A\cap B)=P(B|A)\,P(A).\!

Jakamalla näin saadun yhtälön molemmat puolet tekijällä P(B) saadaan Bayesin teoreema

P(A|B)={\frac {P(B|A)\,P(A)}{P(B)}}.\!

Viitteet

^ Näin siksi, että tilannekuvauksesta ei voi muutakaan päätellä; tätä kutsutaan "riittämättömien syiden periaatteeksi": todennäköisyysjakaumaa pidetään tasaisena eli kaikkia vaihtoehtoja yhtä todennäköisinä, ellei muutakaan pystytä osoittamaan.
^ Suotuisia tapauksia on 40 kaikkiaan 80:sta.
^ Suotuisia tapauksia on 10 kaikkiaan 80:sta.
^ Suotuisia tapauksia: (loput) 30 kaikkiaan 80:sta.
^ Kookospaketin keksien (40) osuus kaikista suotuisista kekseistä (40 + 10)
^ Kookoskeksipakettien osuus kaikista paketeista (2/3) jaettuna kookoskeksien osuudella kaikista kekseistä, joka saadaan laskemalla yhteen kussakin pakkauksessa olevien kookoskeksien osuudet suhteessa kaikkiin pakkauksessa oleviin kekseihin: (1/3 * 1 + 1/3 * 1 + 1/3 * 1/4 = 2/3 + 1/3 * 1/4)
^ Kookoskeksipakettien osuus kaikista paketeista (1/3) jaettuna kookoskeksien osuudella kaikista kekseistä, joka saadaan laskemalla yhteen kussakin pakkauksessa olevien kookoskeksien osuudet suhteessa kaikkiin pakkauksessa oleviin kekseihin: (1/3 * 1 + 1/3 * 1/4 + 1/3 * 1/4 = 1/3 + 2/3 * 1/4)
^ Kookospaketin keksien (40) osuus kaikista suotuisista kekseistä (40 + 20)
^ Kookospaketin keksien (40) osuus kaikista suotuisista kekseistä (40 + 5)
^ Ensimmäisessä paketissa olleiden kookoskeksien osuus kaikista kekseistä (1/2 * 1/2) jaettuna kookoskeksien osuudella kaikista kekseistä, joka saadaan laskemalla yhteen molemmissa pakkauksissa olevien kookoskeksien osuudet suhteessa kaikkiin pakkauksessa oleviin kekseihin: (1/2 * 1/2 + 1/2 * 1/4)
^ Todennäköisyys kasvaa sitä mukaa, kun toivottavien pakettien määrä, sekä kookoskeksien määrä toivottavissa paketeissa kasvavat.
^ Siis siihen, että saatiin kookoskeksi, mistä paketista se sitten olikaan peräisin. Toisin sanoen todennäköisyys pienenee sitä mukaa, kun "ei-toivotuissa" paketeissa olevien kookoskeksien osuus kaikista kookoskekseistä kasvaa.
^ Tämä on sitä helpompi huomata, mitä enemmän purkkien sisällöt alun perin poikkesivat: esim. 39 kookos + 1 suklaa -purkki olisi selvästi todennäköisempi kuin 1 kookos + 39 suklaa -purkki.
^ Vertailu perustuu tiistain 2.2.2010 tilanteeseen n. puoliltapäivin Suomen aikaa.
^ Esimerkit ovat tässä myös perusteluna sille, miksi suomenkielisen Wikipedian kirjoittamishetkisestä esityksestä on täällä poikettu.
^ Esim. todennäköisyys, että nopan silmäluku on parillinen ehdolla, että se on kolmella jaollinen, on 1/2 (6 on parillinen, 3 taas ei), kun taas todennäköisyys, että nopan silmäluku on kolmella jaollinen ehdolla, että se on parillinen, on vain 1/3 (6 on kolmella jaollinen, mutta 2 ja 4 eivät ole).
^ Vaikka tässä artikkelissa keskitytäänkin tietynlaisiin sovelluksiin, itse kaavaa voi käyttää todennäköisyyksiä laskettaessa aina, kun lähtökohdiksi tarvitut tiedot ovat käytettävissä. Noppaesimerkki: Jos tiedetään, että P(parillinen) = ${\tfrac {3}{6}}$ , P(kolmella jaollinen) = ${\tfrac {2}{6}}$ ja P(parillinen|kolmella jaollinen) = ${\tfrac {1}{2}}$ , niin P(kolmella jaollinen|parillinen) = ${\frac {{\tfrac {1}{2}}\cdot {\tfrac {2}{6}}}{\tfrac {3}{6}}}={\tfrac {1}{3}}$ .
^ Noppaesimerkki: Tilanteessa, jossa noppaa on heitetty, mutta heiton tuloksesta ei ole mitään tietoa, kolmella jaollisen tuloksen todennäköisyys on ${\tfrac {2}{6}}={\tfrac {1}{3}}$ ja tilanteessa, jossa tiedetään, että heittotulos on parillinen, kolmella jaollisen tuloksen todennäköisyys on edellälasketun mukaisesti edelleenkin ${\tfrac {1}{3}}$ . Tämä johtuu siitä, että parillisuus ja kolmella jaollisuus ovat noppanheittotulosten toisistaan riippumattomia ominaisuuksia. Jos kuitenkin tiedettäisiinkin tuloksen olevan neljällä jaollinen, voitaisiin päätellä, että kolmella jaollisuuden posterioritodennäköisyys putosi nollaan – eihän (kuutio)nopan silmäluku voi olla yhtäaikaa jaollinen sekä 3:lla että 4:llä. Bayesin säännön lausekkeesta voi helposti nähdä, että jos P(B|A) = 0, niin myös P(A|B) = 0.
^ Tässä on seurattu sisäisesti johdonmukaista englanninkielisen Wikipedian merkintätapaa.
^ B on Bayesin sääntöä sovellettaessa vakio siinä mielessä, että vertailevassa hypoteesitestauksessa, jossa yhden "A":n sijasta tarkastellaankin useampia hypoteeseja rinnakkain ja sovelletaan Bayesin sääntöä kuhunkin niistä erikseen, kaikki A:n sisältävät lausekkeet riippuvat kulloisestakin hypoteesista mutta P(B) (kaavan ainoa lauseke, joka ei sisällä A:ta) pysyy vakiona hypoteesista riippumatta. Näin ollen hypoteesien keskinäisissä uskottavuusvertailuissa P(B):n voi jättää huomiottakin (eli vertailla pelkkien $P(B|A)\cdot P(A)$ -tyyppisten lausekkeiden arvoja), mutta jos vertailuarvot halutaan pitää todennäköisyyksinä eikä pelkkinä "suurempi on parempi" -vertailulukuina, ne on normalisoitava eli skaalattava P(B):llä jakamalla. – Todennäköisyytenä P(B) on aina suljetulla reaalilukuvälillä [0,1], ja jotta sitä voisi käyttää Bayesin kaavan mukaisella tavalla, sen arvo ei saa olla tasan 0, kuten englanninkielinen Wikipedia edellä toteaakin.
^ ja sen tulosten jatkokäyttöä – esim. sillä tavoin havaintoaineistosta lasketun jonkin tapahtuman suhteellisen frekvenssin arvon käyttöä kyseisen tapahtuman todennäköisyyden arviona eli estimaattina tai jonkin muuttujan vaikutuksen eliminointia yhdistämällä sen eri arvoilla saadut havaintotulokset ja poistamalla kyseinen muuttuja huomioon otettavien selitystekijöiden joukosta
^ eli perusidentiteetteihin
^ Ellei Bayesin teoreema pätisi, kaikkien tilastomatematiikan haarojen tarvitseman todennäköisyyslaskennan perusteet kyseenalaistuisivat kokonaisuudessaankin – tämä ei siis ensinkään vahvistaisi kilpailevien lähestymistapojenkaan uskottavuutta vaan päinvastoin söisi sitäkin.
^ johdatteluesimerkeissä siis avaamattomien pakettien keksimääriä
^ Englanniksi tämäntyyppinen kritiikki on ilmaistavissa ytimekkäästi: "garbage in, garbage out."
^ viime kädessä kenen hyvänsä tarkemmin määrittelemättömän mutta tarkasti ja johdonmukaisesti päättelevän ja tällä tavoin kunkinhetkisiä näkemyksiään jatkuvasti arvioivan ja tarvittaessa päivittävän älyllisen agentin
^ siis sitä, missä määrin hän "kallistaa korvaansa" tietynsisältöisen väitteen suuntaan
^ siis sitä, miten hyvät perusteet hän pystyy tietyssä tilanteessa esittämään senhetkisen kantansa eli sillä hetkellä käytettävissään olevan informaation perusteella uskottavimmaksi arvioimansa vaihtoehdon puolesta
^ Joissain fysikaalisissa mittauksissa toistoja voi katsoa saatavan frekventismin tarpeisiin riittävästi, esim. "kapean raon kokeessa" valoherkkään pintaan osuneet fotonit muodostavat kuvion, jonka avulla niiden noudattama todennäköisyysjakauma on vakuuttavasti määritettävissä. Useissa muissa yhteyksissä tutkijoiden käytettävissä on kuitenkin vain hyvin rajallinen havaintomäärä, jonka sisältämää informaatiota tulisi sitten mahdollisimman hyvin hyödyntää.
^ "Olettaen, että toistojen lisääminen ei olisi muuttanut tilannetta, 'oikeat todennäköisyydet' ovat samat kuin käytettävissämme nyt olevat havaintotulosten suhteelliset frekvenssit, joita olemme käyttäneet näiden todennäköisyyksien estimaatteina. Siinä tapauksessa tilanteessa, jossa toistoja olisi jatkettu niin kauan, että suhteellisten frekvenssien raja-arvot olisivat olleet riittävällä tarkkuudella riittävän luotettavasti määritettävissä, saadut raja-arvot eli tapahtumien 'oikeat todennäköisyydet' olisivat olleet samat kuin nämä estimaattimme; valitettavasti emme ole nyt sellaisessa tilanteessa emmekä voi siihen päästäkään, mutta oletetaanpa sentään yhtä kaikki, että käytettävissämme nyt olevat estimaatit eivät liiaksi poikkea 'oikeista todennäköisyyksistä', ja jatketaan laskemista siltä pohjalta; muutenhan emme saisi mitään tuloksia. Voimmehan sitä paitsi laskea todennäköisyyksiä sille, että todellinen tilanne on ainakin melko lähellä saamiamme tuloksia ja ilmoittaa raporteissamme myös näiden laskelmiemme arvot; sittenhän vastuu siirtyykin lukijalle, joka päättäköön, mihin ja miten näitä tuloksia käyttää."
^ ja asymptoottiarvioihin riittäviä toistosarjojakin vain hyvin harvoin
^ Näitä vaihtoehtoja voi havainnollistaa Juice Leskisen sanoin: "Älä usko poliitikkoa: hän luulee tietävänsä; älä usko tiedemiestä: hän tietää luulevansa." Tässä tapauksessa frekventistit siis vastaavat suunnilleen Juicen "poliitikkoa" ja bayesiläiset puolestaan "tiedemiestä".
^ Siis laskentatulokset riippuvat suhteessa yhä enemmän $P(A|B)={\frac {P(B|A)\,P(A)}{P(B)}}\,\!$ ja vastaavasti suhteessa vähemmän $P(A)$ :sta.

Kirjallisuutta

E.T. Jaynes, Probability Theory, The Logic of Science, 2003, Cambridge University Press. (Jaynes väittää todistavansa enemmän kuin todistaa ja mm. väitti että Nasaretin kaupungin olemassaolo on epätodennäköistä kun siitä ei ole todisteita (vaikka todisteita toki on ja vaikkei olisikaan Jaynesin päättely oli virheellistä, eikä se tässä noudattanut Bayesin teoreemaa), mutta Jaynesin bayesilaisen hypoteesitestauksen periaatteiden ja frekventististen menetelmien ongelmien käsittely on selkeää ja hyvää luettavaa. Kirjan vedosversio on ladattavissa http://bayes.wustl.edu/etj/prob/book.pdf)
R. Swinburne, The Existence of God, 2. painos, 2004, Clarendon Press.

[1] Näin siksi, että tilannekuvauksesta ei voi muutakaan päätellä; tätä kutsutaan "riittämättömien syiden periaatteeksi": todennäköisyysjakaumaa pidetään tasaisena eli kaikkia vaihtoehtoja yhtä todennäköisinä, ellei muutakaan pystytä osoittamaan.

[2] Suotuisia tapauksia on 40 kaikkiaan 80:sta.

[3] Suotuisia tapauksia on 10 kaikkiaan 80:sta.

[4] Suotuisia tapauksia: (loput) 30 kaikkiaan 80:sta.

[5] Kookospaketin keksien (40) osuus kaikista suotuisista kekseistä (40 + 10)

[6] Kookoskeksipakettien osuus kaikista paketeista (2/3) jaettuna kookoskeksien osuudella kaikista kekseistä, joka saadaan laskemalla yhteen kussakin pakkauksessa olevien kookoskeksien osuudet suhteessa kaikkiin pakkauksessa oleviin kekseihin: (1/3 * 1 + 1/3 * 1 + 1/3 * 1/4 = 2/3 + 1/3 * 1/4)

[7] Kookoskeksipakettien osuus kaikista paketeista (1/3) jaettuna kookoskeksien osuudella kaikista kekseistä, joka saadaan laskemalla yhteen kussakin pakkauksessa olevien kookoskeksien osuudet suhteessa kaikkiin pakkauksessa oleviin kekseihin: (1/3 * 1 + 1/3 * 1/4 + 1/3 * 1/4 = 1/3 + 2/3 * 1/4)

[8] Kookospaketin keksien (40) osuus kaikista suotuisista kekseistä (40 + 20)

[9] Kookospaketin keksien (40) osuus kaikista suotuisista kekseistä (40 + 5)

[10] Ensimmäisessä paketissa olleiden kookoskeksien osuus kaikista kekseistä (1/2 * 1/2) jaettuna kookoskeksien osuudella kaikista kekseistä, joka saadaan laskemalla yhteen molemmissa pakkauksissa olevien kookoskeksien osuudet suhteessa kaikkiin pakkauksessa oleviin kekseihin: (1/2 * 1/2 + 1/2 * 1/4)

[11] Todennäköisyys kasvaa sitä mukaa, kun toivottavien pakettien määrä, sekä kookoskeksien määrä toivottavissa paketeissa kasvavat.

[12] Siis siihen, että saatiin kookoskeksi, mistä paketista se sitten olikaan peräisin. Toisin sanoen todennäköisyys pienenee sitä mukaa, kun "ei-toivotuissa" paketeissa olevien kookoskeksien osuus kaikista kookoskekseistä kasvaa.

[13] Tämä on sitä helpompi huomata, mitä enemmän purkkien sisällöt alun perin poikkesivat: esim. 39 kookos + 1 suklaa -purkki olisi selvästi todennäköisempi kuin 1 kookos + 39 suklaa -purkki.

[14] Vertailu perustuu tiistain 2.2.2010 tilanteeseen n. puoliltapäivin Suomen aikaa.

[15] Esimerkit ovat tässä myös perusteluna sille, miksi suomenkielisen Wikipedian kirjoittamishetkisestä esityksestä on täällä poikettu.

[16] Esim. todennäköisyys, että nopan silmäluku on parillinen ehdolla, että se on kolmella jaollinen, on 1/2 (6 on parillinen, 3 taas ei), kun taas todennäköisyys, että nopan silmäluku on kolmella jaollinen ehdolla, että se on parillinen, on vain 1/3 (6 on kolmella jaollinen, mutta 2 ja 4 eivät ole).

[17] Vaikka tässä artikkelissa keskitytäänkin tietynlaisiin sovelluksiin, itse kaavaa voi käyttää todennäköisyyksiä laskettaessa aina, kun lähtökohdiksi tarvitut tiedot ovat käytettävissä. Noppaesimerkki: Jos tiedetään, että P(parillinen) = ${\tfrac {3}{6}}$ , P(kolmella jaollinen) = ${\tfrac {2}{6}}$ ja P(parillinen|kolmella jaollinen) = ${\tfrac {1}{2}}$ , niin P(kolmella jaollinen|parillinen) = ${\frac {{\tfrac {1}{2}}\cdot {\tfrac {2}{6}}}{\tfrac {3}{6}}}={\tfrac {1}{3}}$ .

[18] Noppaesimerkki: Tilanteessa, jossa noppaa on heitetty, mutta heiton tuloksesta ei ole mitään tietoa, kolmella jaollisen tuloksen todennäköisyys on ${\tfrac {2}{6}}={\tfrac {1}{3}}$ ja tilanteessa, jossa tiedetään, että heittotulos on parillinen, kolmella jaollisen tuloksen todennäköisyys on edellälasketun mukaisesti edelleenkin ${\tfrac {1}{3}}$ . Tämä johtuu siitä, että parillisuus ja kolmella jaollisuus ovat noppanheittotulosten toisistaan riippumattomia ominaisuuksia. Jos kuitenkin tiedettäisiinkin tuloksen olevan neljällä jaollinen, voitaisiin päätellä, että kolmella jaollisuuden posterioritodennäköisyys putosi nollaan – eihän (kuutio)nopan silmäluku voi olla yhtäaikaa jaollinen sekä 3:lla että 4:llä. Bayesin säännön lausekkeesta voi helposti nähdä, että jos P(B|A) = 0, niin myös P(A|B) = 0.

[19] Tässä on seurattu sisäisesti johdonmukaista englanninkielisen Wikipedian merkintätapaa.

[20] B on Bayesin sääntöä sovellettaessa vakio siinä mielessä, että vertailevassa hypoteesitestauksessa, jossa yhden "A":n sijasta tarkastellaankin useampia hypoteeseja rinnakkain ja sovelletaan Bayesin sääntöä kuhunkin niistä erikseen, kaikki A:n sisältävät lausekkeet riippuvat kulloisestakin hypoteesista mutta P(B) (kaavan ainoa lauseke, joka ei sisällä A:ta) pysyy vakiona hypoteesista riippumatta. Näin ollen hypoteesien keskinäisissä uskottavuusvertailuissa P(B):n voi jättää huomiottakin (eli vertailla pelkkien $P(B|A)\cdot P(A)$ -tyyppisten lausekkeiden arvoja), mutta jos vertailuarvot halutaan pitää todennäköisyyksinä eikä pelkkinä "suurempi on parempi" -vertailulukuina, ne on normalisoitava eli skaalattava P(B):llä jakamalla. – Todennäköisyytenä P(B) on aina suljetulla reaalilukuvälillä [0,1], ja jotta sitä voisi käyttää Bayesin kaavan mukaisella tavalla, sen arvo ei saa olla tasan 0, kuten englanninkielinen Wikipedia edellä toteaakin.

[21] sen tulosten jatkokäyttöä – esim. sillä tavoin havaintoaineistosta lasketun jonkin tapahtuman suhteellisen frekvenssin arvon käyttöä kyseisen tapahtuman todennäköisyyden arviona eli estimaattina tai jonkin muuttujan vaikutuksen eliminointia yhdistämällä sen eri arvoilla saadut havaintotulokset ja poistamalla kyseinen muuttuja huomioon otettavien selitystekijöiden joukosta

[22] rusidentiteetteihin

[23] Ellei Bayesin teoreema pätisi, kaikkien tilastomatematiikan haarojen tarvitseman todennäköisyyslaskennan perusteet kyseenalaistuisivat kokonaisuudessaankin – tämä ei siis ensinkään vahvistaisi kilpailevien lähestymistapojenkaan uskottavuutta vaan päinvastoin söisi sitäkin.

[24] tteluesimerkeissä siis avaamattomien pakettien keksimääriä

[25] Englanniksi tämäntyyppinen kritiikki on ilmaistavissa ytimekkäästi: "garbage in, garbage out."

[26] viime kädessä kenen hyvänsä tarkemmin määrittelemättömän mutta tarkasti ja johdonmukaisesti päättelevän ja tällä tavoin kunkinhetkisiä näkemyksiään jatkuvasti arvioivan ja tarvittaessa päivittävän älyllisen agentin

[27] siis sitä, missä määrin hän "kallistaa korvaansa" tietynsisältöisen väitteen suuntaan

[28] siis sitä, miten hyvät perusteet hän pystyy tietyssä tilanteessa esittämään senhetkisen kantansa eli sillä hetkellä käytettävissään olevan informaation perusteella uskottavimmaksi arvioimansa vaihtoehdon puolesta

[29] Joissain fysikaalisissa mittauksissa toistoja voi katsoa saatavan frekventismin tarpeisiin riittävästi, esim. "kapean raon kokeessa" valoherkkään pintaan osuneet fotonit muodostavat kuvion, jonka avulla niiden noudattama todennäköisyysjakauma on vakuuttavasti määritettävissä. Useissa muissa yhteyksissä tutkijoiden käytettävissä on kuitenkin vain hyvin rajallinen havaintomäärä, jonka sisältämää informaatiota tulisi sitten mahdollisimman hyvin hyödyntää.

[30] "Olettaen, että toistojen lisääminen ei olisi muuttanut tilannetta, 'oikeat todennäköisyydet' ovat samat kuin käytettävissämme nyt olevat havaintotulosten suhteelliset frekvenssit, joita olemme käyttäneet näiden todennäköisyyksien estimaatteina. Siinä tapauksessa tilanteessa, jossa toistoja olisi jatkettu niin kauan, että suhteellisten frekvenssien raja-arvot olisivat olleet riittävällä tarkkuudella riittävän luotettavasti määritettävissä, saadut raja-arvot eli tapahtumien 'oikeat todennäköisyydet' olisivat olleet samat kuin nämä estimaattimme; valitettavasti emme ole nyt sellaisessa tilanteessa emmekä voi siihen päästäkään, mutta oletetaanpa sentään yhtä kaikki, että käytettävissämme nyt olevat estimaatit eivät liiaksi poikkea 'oikeista todennäköisyyksistä', ja jatketaan laskemista siltä pohjalta; muutenhan emme saisi mitään tuloksia. Voimmehan sitä paitsi laskea todennäköisyyksiä sille, että todellinen tilanne on ainakin melko lähellä saamiamme tuloksia ja ilmoittaa raporteissamme myös näiden laskelmiemme arvot; sittenhän vastuu siirtyykin lukijalle, joka päättäköön, mihin ja miten näitä tuloksia käyttää."

[31] symptoottiarvioihin riittäviä toistosarjojakin vain hyvin harvoin

[32] Näitä vaihtoehtoja voi havainnollistaa Juice Leskisen sanoin: "Älä usko poliitikkoa: hän luulee tietävänsä; älä usko tiedemiestä: hän tietää luulevansa." Tässä tapauksessa frekventistit siis vastaavat suunnilleen Juicen "poliitikkoa" ja bayesiläiset puolestaan "tiedemiestä".

[33] Siis laskentatulokset riippuvat suhteessa yhä enemmän $P(A|B)={\frac {P(B|A)\,P(A)}{P(B)}}\,\!$ ja vastaavasti suhteessa vähemmän $P(A)$ :sta.

@@ Rivi 156: / Rivi 156: @@
 *# Jos jossain tilanteessa tietynlainen todennäköisyysjakauma on "oikeasti voimassa", toistokokeiden tulosten suhteelliset frekvenssit (tietyn tuloksen antaneiden kokeiden lukumäärät tehtyjen toistojen kokonaislukumäärällä jaettuina) lähestyvät asymptoottisesti kyseisten tulosten kaiken aikaa voimassaolevia todennäköisyyksiä (ns. suurten lukujen laki); tämä on Kantin terminologiassa "analyyttinen totuus ''a priori''" eli käsitemääritelmistä johdettavissa oleva välttämätön järjen päätelmä.
 *# Frekventistinen todennäköisyysfilosofia tarttuu tähän analyyttis-deduktiivis-aprioriseen totuuteen ja käyttää sitä käänteisesti, empiiris-induktiivis-aposteriorisesti: "Tietyn tapahtuman todennäköisyys tietyssä tilanteessa on tämän tapahtuman sattumisen suhteellisen frekvenssin raja-arvo tässä tilanteessa tehdyssä rajoittamattoman pitkässä toistokoe- tai havaintosarjassa."
-* Frekventistisen tulkinnan ongelmaksi muodostuu, että yleensä käytettävissä ei kuitenkaan ole tarpeeksi toistokoetuloksia,<ref>Joissain fysikaalisissa mittauksissa toistoja voi katsoa saatavan frekventismin tarpeisiin riittävästi, esim. "[[wp:kapean raon koe|kapean raon kokeessa]]" valoherkkään pintaan osuneet fotonit muodostavat kuvion, jonka avulla niiden noudattama todennäköisyysjakauma on vakuuttavasti määritettävissä. Useissa muissa yhteyksissä tutkijoiden käytettävissä on kuitenkin vain hyvin rajallinen havaintomäärä, jonka sisältämää informaatiota tulisi sitten mahdollisimman hyvin hyödyntää.</ref> joten frekventistit joutuvat puhumaan pikemminkin siitä, miten asioiden "tulisi olla" kuin siitä, miten ne ovat.<ref>"Olettaen, että toistojen lisääminen ei olisi muuttanut tilannetta, 'oikeat todennäköisyydet' ovat samat kuin käytettävissämme nyt olevat havaintotulosten suhteelliset frekvenssit, joita olemme käyttäneet näiden todennäköisyyksien estimaatteina. Siinä tapauksessa tilanteessa, jossa toistoja olisi jatkettu niin kauan, että suhteellisten frekvenssien raja-arvot olisivat olleet riittävällä tarkkuudella riittävän luotettavasti määritettävissä, saadut raja-arvot eli tapahtumien 'oikeat todennäköisyydet' olisivat olleet samat kuin nämä estimaattimme; valitettavasti emme ole nyt sellaisessa tilanteessa emmekä voi siihen päästäkään, mutta oletetaanpa sentään yhtä kaikki, että käytettävissämme nyt olevat estimaatit eivät liiaksi poikkea 'oikeista todennäköisyyksistä', ja jatketaan laskemista siltä pohjalta; muutenhan emme saisi mitään tuloksia. Voimmehan sitä paitsi laskea todennäköisyyksiä sille, että todellinen tilanne on ainakin melko lähellä saamiamme tuloksia ja ilmoittaa raporteissamme myös näiden laskelmiemme arvot; sittenhän vastuu siirtyykin lukijalle, joka päättäköön, mihin ja miten näitä tuloksia käyttää."</ref> Vaikka tämän käsityksen ajateltiinkin olevan objektiivinen, niin käytännössä, koska ääretöntä sarjaa toistokokeita ei ole oikeastaan missään tilanteessa<ref>ja asymptoottiarvioihin riittäviä toistosarjojakin vain hyvin harvoin</ref>, siihen pitäytyminen johtaa asianomaiset usein tiedostamattaankin olettamaan asioita, joita he eivät omien kriteeriensä puitteissa pysty mitenkään varmistamaan.<ref>Näitä vaihtoehtoja voi havainnollistaa [[wp:Juice Leskinen|Juice Leskisen]] sanoin: "Älä usko poliitikkoa: hän luulee tietävänsä; älä usko tiedemiestä: hän tietää luulevansa." Tässä tapauksessa frekventistit siis vastaavat suunnilleen Juicen "poliitikkoa" ja bayesiläiset puolestaan "tiedemiestä".</ref>
+* Frekventistisen tulkinnan ongelmaksi muodostuu, että yleensä käytettävissä ei kuitenkaan ole tarpeeksi toistokoetuloksia,<ref>Joissain fysikaalisissa mittauksissa toistoja voi katsoa saatavan frekventismin tarpeisiin riittävästi, esim. "[[wp:Youngin_kaksoisrakokoe|kapean raon kokeessa]]" valoherkkään pintaan osuneet fotonit muodostavat kuvion, jonka avulla niiden noudattama todennäköisyysjakauma on vakuuttavasti määritettävissä. Useissa muissa yhteyksissä tutkijoiden käytettävissä on kuitenkin vain hyvin rajallinen havaintomäärä, jonka sisältämää informaatiota tulisi sitten mahdollisimman hyvin hyödyntää.</ref> joten frekventistit joutuvat puhumaan pikemminkin siitä, miten asioiden "tulisi olla" kuin siitä, miten ne ovat.<ref>"Olettaen, että toistojen lisääminen ei olisi muuttanut tilannetta, 'oikeat todennäköisyydet' ovat samat kuin käytettävissämme nyt olevat havaintotulosten suhteelliset frekvenssit, joita olemme käyttäneet näiden todennäköisyyksien estimaatteina. Siinä tapauksessa tilanteessa, jossa toistoja olisi jatkettu niin kauan, että suhteellisten frekvenssien raja-arvot olisivat olleet riittävällä tarkkuudella riittävän luotettavasti määritettävissä, saadut raja-arvot eli tapahtumien 'oikeat todennäköisyydet' olisivat olleet samat kuin nämä estimaattimme; valitettavasti emme ole nyt sellaisessa tilanteessa emmekä voi siihen päästäkään, mutta oletetaanpa sentään yhtä kaikki, että käytettävissämme nyt olevat estimaatit eivät liiaksi poikkea 'oikeista todennäköisyyksistä', ja jatketaan laskemista siltä pohjalta; muutenhan emme saisi mitään tuloksia. Voimmehan sitä paitsi laskea todennäköisyyksiä sille, että todellinen tilanne on ainakin melko lähellä saamiamme tuloksia ja ilmoittaa raporteissamme myös näiden laskelmiemme arvot; sittenhän vastuu siirtyykin lukijalle, joka päättäköön, mihin ja miten näitä tuloksia käyttää."</ref> Vaikka tämän käsityksen ajateltiinkin olevan objektiivinen, niin käytännössä, koska ääretöntä sarjaa toistokokeita ei ole oikeastaan missään tilanteessa<ref>ja asymptoottiarvioihin riittäviä toistosarjojakin vain hyvin harvoin</ref>, siihen pitäytyminen johtaa asianomaiset usein tiedostamattaankin olettamaan asioita, joita he eivät omien kriteeriensä puitteissa pysty mitenkään varmistamaan.<ref>Näitä vaihtoehtoja voi havainnollistaa [[wp:Juice Leskinen|Juice Leskisen]] sanoin: "Älä usko poliitikkoa: hän luulee tietävänsä; älä usko tiedemiestä: hän tietää luulevansa." Tässä tapauksessa frekventistit siis vastaavat suunnilleen Juicen "poliitikkoa" ja bayesiläiset puolestaan "tiedemiestä".</ref>
 Koska episteeminen todennäköisyys on luonteeltaan "vaatimattomampi" kuin frekventistinen, sitä voidaan usein ainakin välttävästi arvioida, joten priori-ongelma ei usein ole merkittävä. Priorin valintaan ei kuitenkaan ole yhtä oikeaa tapaa. Tarkoitus olisi, että priori kuvaa henkilön tietämyksen tilaa, mutta tietämyksen esittäminen matemaattisesti ei ole ongelmatonta. Matemaattiset tietämyksenesittämismenetelmät ovat usein merkittävästi riippuvaisia mm. tutkimusjärjestelyjen suhteen tehdyistä valinnoista eivätkä yleensä ole parametrisoinnista riippumattomia. Riittävän oikealla priorilla saadaan kuitenkin yleensä riittävän oikeita tuloksia, ja yleensä havaintojen kasvaessa priorin merkitys vähenee nopeasti.<ref>Siis laskentatulokset riippuvat suhteessa yhä enemmän <math>P(A|B) = \frac{P(B | A)\, P(A)}{P(B)}\,\! </math> ja vastaavasti suhteessa vähemmän <math>P(A)</math>:sta.</ref> Järkevien priorivalintojen vaikutusta lopputulokseen voidaan myös arvioida. Voidaankin argumentoida, että priori-ongelma ei ole ongelma, vaan rehellistä oman rajallisuutemme myöntämistä. Yksi bayesiläisen päättelyn vahvuuksista onkin se, että tehdyt oletukset ovat paremmin esillä eivätkä piilossa alan keittokirjamaisten päättelyreseptien takana.

Anonyymi

Haku

Ero sivun ”Bayesin teoreema” versioiden välillä

Nimiavaruudet

Lisää

Sivun toiminnot

Versio 14. syyskuuta 2011 kello 20.22

Sisällys

Teoreeman esittely

Esimerkki teoreemaan johtavasta järkeilystä