Ero sivun ”Bayesin teoreema” versioiden välillä
(lisätty Jaynesin kirjan linkki) |
(työstöä tutoriaalityyppisemmäksi; välitallennus) |
||
Rivi 1: | Rivi 1: | ||
'''Bayesin teoreema''' (myös '''Bayesin sääntö''' tai '''Bayesin laki''') on [[Ehdollinen todennäköisyys|ehdolliseen todennäköisyyteen]] liittyvä [[teoreema]]. Teoreeman voidaan tulkita kuvaavan uskomusten päivittämistä uuden todisteaineiston valossa ''[[a posteriori]]''. Teoreema on nimetty | '''Bayesin teoreema''' (myös '''Bayesin sääntö''' tai '''Bayesin laki''') on [[Ehdollinen todennäköisyys|ehdolliseen todennäköisyyteen]] liittyvä [[teoreema]]. Teoreeman voidaan tulkita kuvaavan uskomusten päivittämistä uuden todisteaineiston valossa ''[[a posteriori]]''. Teoreema on nimetty kehittäjänsä, [[1700-luku|1700-luvulla]] eläneen brittiläisen pastori ja matemaatikko [[Thomas Bayes]]in mukaan. | ||
Bayes siis kehitti teoreemansa 1700-luvulla. Myöhemmin fisheriläinen tilastoteoria ja näennäisen objektiivinen frekventistinen todennäköisyyskäsitys saivat vallalla olevan paradigman aseman. Bayesiläisen analyysin kannattajat eivät juuri saaneet julkaisujaan läpi alan lehdissä, ja vasta noin 1980-luvulta alkaen Bayesin teoreema on taas saanut merkittävää tieteellistä jalansijaa ja päässyt tuottamaan useita selviä parannuksia tieteen tutkimusmenetelmiin. Teoreema on siis hyvä osoitus tieteellisten paradigmojen voimasta ja tieteen itseäänkorjaavuuden rajoista, vaikka kyse on maailmankatsomuksellisesti paljon neutraalimmasta asiasta kuin esimerkiksi materialismin tai evolutionismin valtaparadigman asema nykyään. | |||
==Teoreeman esittely== | ==Teoreeman esittely== | ||
===Esimerkki | ===Esimerkki teoreemaan johtavasta järkeilystä=== | ||
Pertti pitää kekseistä, varsinkin kookoskekseistä. Eräänä päivänä hän on ostanut itselleen kaksi keksipakettia, ykköspaketissa on 40 kookoskeksiä, kakkospaketissa taas keksilajitelma, jossa on 10 kaurakeksiä, 10 kanelikeksiä, 10 suklaakeksiä ja 10 kookoskeksiä. Pertti avaa paketit ja keskittyy töihinsä, nappaa sitten puolihuolimattomasti keksin avoimesta paketista ja aikoo syödä sen saman tien, mutta tulee sitten ajatelleeksi, ettei ollenkaan tiedä, kummasta paketista keksi on peräisin. Koska älylliset pähkinät kiehtovat keksiä suljetussa kourassaan pitelevää Perttiä, hän rupeaa miettimään vaihtoehtoja asian selvittämiseksi: | |||
* Jos keksi on kaura-, kaneli- tai suklaakeksi, sen on pakko olla peräisin kakkospaketista, koska sellaisia ei ole ykköspaketissa. | |||
* Jos keksi onkin kookoskeksi, se voi olla peräisin kummasta paketista tahansa. | |||
Pertti avaa kouransa ja toteaa keksin kookoskeksiksi. Siispä hän ei nyt tiedä, kummasta paketista se on peräisin. Asian voisi tietysti selvittää laskemalla jommankumman paketin keksit, nythän toisessa on 39, toisessa 40. Laiskana miehenä Pertti haluaa mieluummin laskea 39 keksiä kuin 40, niinpä hän päättää laskevansa sen paketin keksit, josta kädessä oleva kookoskeksi todennäköisemmin on peräisin. Voiko käytettävissä olevasta informaatiosta päätellä jotain tästä todennäköisyydestä? | |||
Selvää siis on, että molemmat paketit ovat nyt mahdollisia vaihtoehtoja, mutta siitä ei ilmeisesti seuraa, että ne olisivat yhtä todennäköisiä. Jos ne nimittäin sitä olisivat, niin lajitelmapaketin muilla kuin kookoskekseillä ei olisi ollut mitään vaikutusta tilanteeseen liittyviin todennäköisyyksiin. Entä jos toisessa paketissa olisi ollut pelkkiä kookoskeksejä ja toisessa vain yksi kookoskeksi 39 muunlaisen keksin seassa? Ilmeisestikään todennäköisyys tämän keksin satunnaiselle sormiin osumiselle ei ole sama kuin kookoskeksipaketin tarkemmin yksilöimättämän keksin saamistodennäköisyys. | |||
Ei siis ole kovinkaan vaikeaa päätellä, että ykköspaketti on todennäköisempi: koska keksi poimittiin satunnaisesti ja kaikilla kekseillä oli alun perin oletettavasti yhtä suuri käteenosumistodennäköisyys<ref>Näin siksi, että tilannekuvauksesta ei voi muutakaan päätellä; tätä kutsutaan "riittämättömien syiden periaatteeksi": todennäköisyysjakaumaa pidetään tasaisena eli kaikkia vaihtoehtoja yhtä todennäköisinä, ellei muutakaan pystytä osoittamaan.</ref>, niin jommastakummasta täydestä paketista valittu keksi on 0,5:n todennäköisyydellä ykköspaketin kookoskeksi<ref>Suotuisia tapauksia on 40 kaikkiaan 80:sta.</ref> mutta vain 0,125:n todennäköisyydellä kakkospaketin kookoskeksi<ref>Suotuisia tapauksia on 10 kaikkiaan 80:sta.</ref> (ja olisi ollut 0,375:n todennäköisyydellä kakkospaketin jokin muu kuin kookoskeksi<ref>Suotuisia tapauksia (loput) 30 kaikkiaan 80:sta.</ref>). | |||
Vaikka Pertillä nyt siis onkin hyvä syy laskea pikemminkin ykkös- kuin kakkospaketin keksit, koko ajatus keksien laskemisesta rupeaa tässä vaiheessa kuitenkin tuntumaan turhan työläältä. Hän päättääkin, ettei laske keksejä, jos vain voi selvittää itselleen, kuinka todennäköistä tässä tilanteessa täsmällisesti ottaen on, että keksi on peräisin ykköspaketista. | |||
# Koska ykköspaketista saadun kookoskeksin alkuperäistodennäköisyys siis on 0,5 (umpimähkäinen valinta kahdesta paketista, minkä jälkeen ykköspaketista nousee välttämättä juuri kookoskeksi) ja kakkospaketista saadun vastaavasti tasan neljäsosa siitä (taaskin umpimähkäinen paketinvalinta, minkä jälkeen 0,25:n todennäköisyys kookoskeksin saamiselle), vaikuttaa siltä, että ykköspaketin todennäköisyys on 0,5 / (0,5 + 0,125) = 0,5 / 0,625 = 0,8. | |||
# Ajatusvauhtiin päästyään Pertti ei malta lopettaa tähän. Entäs, jos paketteja olisikin ollut kolme eikä kaksi? Jos hän olisikin ostanut kaksi kookoskeksipakettia ja yhden lajitelman, satunnainen kookoskeksi olisi saatu jommastakummasta kookoskeksipaketista todennäköisyydellä 2/3 / (2/3 + 1/3 * 1/4) = 2/3 / (8/12 + 1/12) = 2/3 / 9/12 = 2/3 / 3/4 = 8/9 = 0,888... | |||
# Jos taas kookoskeksipaketteja olisikin ollut vain yksi ja lajitelmapaketteja kaksi, kookoskeksipaketin todennäköisyydeksi olisi jäänyt 1/3 / (1/3 + 2/3 * 1/4) = 1/3 / (2/6 + 1/6) = 1/3 / 3/6 = 1/3 / 1/2 = 2/3 = 0,666... | |||
# Koska töiden jatkaminen ei jostain syystä Perttiä juuri nyt hirveästi kiinnosta, hän päättää miettiä asiaa vielä siltäkin kannalta, mitä vaikutusta todennäköisyyksiin olisi lajitelmapaketin koostumuksen muuttamisella: Jos puolet lajitelmapaketin kekseistä olisi ollut kookoskeksejä, niin kahden paketin tapauksessa kookoskeksipaketin todennäköisyys olisi ollut 1/2 / (1/2 + 1/2 * 1/2) = 1/2 / (2/4 + 1/4) = 1/2 / 3/4 = 4 / 6 = 2/3 = 0,666... | |||
# Tilanteessa, jossa kookoskeksejä olisi ollut lajitelmasta vain joka kahdeksas, lukemat olisivat sen sijaan olleet 1/2 / (1/2 + 1/2 * 1/8) = 1/2 / (8/16 + 1/16) = 1/2 / 9/16 = 16/18 = 8/9 = 0,888... Kookoskeksipaketin todennäköisyys oli siis sitä suurempi, mitä suuremman osan ne muodostivat kaikista paketeista, mutta sitä pienempi, mitä suuremman osan kookoskeksit muodostivat lajitelmapaketin sisällöstä. | |||
# Entäs sitten se tapaus, jossa pöydällä ei olisikaan kookoskeksipaketteja vaan ainoastaan erilaisia lajitelmapaketteja, vaikkapa sellainen, jossa kookoskeksejä oli puolet, ja sellainen, jossa niitä oli vain joka neljäs? Ensinmainitun paketin todennäköisyys saadun kookoskeksin alkuperänä olisi nyt 1/2 * 1/2 / (1/2 * 1/2 + 1/2 * 1/4) = 1/4 / (2/8 + 1/8) = 1/4 / 3/8 = 8/12 = 2/3 = 0,666... | |||
Nyt Pertti kokee ahaa-elämyksen: näitä todennäköisyyksiä ei oikeastaan tarvitsekaan laskea erikseen järkeilemällä, vaan voi oikaista: tietynlaisen keksipaketin todennäköisyys saadun kookoskeksin alkuperäksi on ilmeisesti suoraan verrannollinen tällaisten pakettien suhteelliseen osuuteen kaikista paketeista ja kookoskeksien suhteelliseen osuuteen kyseisenlaisen paketin kekseistä mutta kääntäen verrannollinen kookoskeksin saamisen kokonaistodennäköisyyteen (siis siihen, että saatiin kookoskeksi, mistä paketista se sitten olikaan peräisin). | |||
Tämän ahaa-elämyksen tuloksen Pertti päättää kirjoittaa vastaisen varalta muistiin matemaattisena kaavana: | |||
:<math>\mathbb{P}(ekapaketti|kookoskeksi) = \frac{\mathbb{P}(kookoskeksi|ekapaketti) \mathbb{P}(ekapaketti)}{\mathbb{P}(kookoskeksi)}</math> | |||
Tämän kaavan käyttöönotto muuttaa aiempien esimerkkitapausten laskennan rutiinitehtäväksi ja tekee uusienkin muunnelmien ratkaisemisen yhtä suoraviivaiseksi. | |||
===Teoreeman käyttö: esimerkkitapausten tarkastuslaskut=== | |||
Edellä päättelemällä saadut todennäköisyydet voi nyt laskea suoraan tähän kaavaan tehdyillä sijoituksilla. Seuraavassa numerointi vastaa edelläkäytettyä: | |||
# <math>\mathbb{P}(ekapaketti|kookoskeksi) = \frac{\tfrac{40}{40} \cdot \tfrac{1}{2}}{\tfrac{50}{80}} = \frac{4}{5} = 0,8</math> | |||
# <math>\mathbb{P}(ekapaketti|kookoskeksi) = \frac{\tfrac{40}{40} \cdot \tfrac{2}{3}}{\tfrac{90}{120}} = \frac{8}{9} = 0,888...</math> | |||
# <math>\mathbb{P}(ekapaketti|kookoskeksi) = \frac{\tfrac{40}{40} \cdot \tfrac{1}{3}}{\tfrac{60}{120}} = \frac{2}{3} = 0,666...</math> | |||
# <math>\mathbb{P}(ekapaketti|kookoskeksi) = \frac{\tfrac{40}{40} \cdot \tfrac{1}{2}}{\tfrac{60}{80}} = \frac{2}{3} = 0,666...</math> | |||
# <math>\mathbb{P}(ekapaketti|kookoskeksi) = \frac{\tfrac{40}{40} \cdot \tfrac{1}{2}}{\tfrac{45}{80}} = \frac{8}{9} = 0,888...</math> | |||
# <math>\mathbb{P}(ekapaketti|kookoskeksi) = \frac{\tfrac{20}{40} \cdot \tfrac{1}{2}}{\tfrac{30}{80}} = \frac{2}{3} = 0,666...</math> | |||
Kaikki esimerkit siis täsmäävät. | |||
===Toinen esimerkki teoreeman käytöstä=== | |||
Otetaan tarkastelun lähtökohdaksi taaskin Pertin kaksi keksipurkillista: ykköspurkissa on tällä kertaa 10 suklaakeksin lisäksi 30 kookoskeksiä, kakkospurkissa taas molempia laatuja 20 kappaletta. Esimerkkitapahtumat etenevät niin, että Pertti kopeloi taaskin sattumanvaraisesti käteensä toisen purkeista, nostaa siitä yhden keksin niin umpimähkäisesti, ettei jälkeenpäin enää itsekään tiedä, kummasta purkista se oli peräisin, mutta havaitsee saaneensa taaskin kookoskeksin. Millä todennäköisyydellä se nyt on peräisin ykköspurkista? Varmasti se on peräisin siitä purkista, jossa on nyt jäljellä vain 39 keksiä, mutta Pertti ei nytkään käy laskemaan keksimääriä vaan arvioi tilannetta vain edelläannetun informaation perusteella. | |||
Intuitiivisesti on helppo nähdä, että koska kookoskeksejä on | Intuitiivisesti on helppo nähdä, että koska kookoskeksejä on ykköspurkissa suhteellisesti(kin) enemmän kuin kakkospurkissa, ykköspurkki on tässä tapauksessa kakkospurkkia todennäköisempi<ref>Tämä on sitä helpompi huomata, mitä enemmän purkkien sisällöt alun perin poikkesivat: esim. 39 kookos + 1 suklaa -purkki olisi selvästi todennäköisempi kuin 1 kookos + 39 suklaa -purkki.</ref> Bayesin teoreema täsmentää tämän summittaisen arvion antamalla tapahtuman tarkan todennäköisyyden: | ||
:<math>\mathbb{P}( | :<math>\mathbb{P}(ekapurkki|kookoskeksi)</math> on todennäköisyys sille, että Pertti oli tarttunut ykköspurkkiin siinä tapauksessa, että hän on poiminut purkistaan kookoskeksin. Juuri tämän todennäköisyyden haluamme siis selvittää: | ||
:::<math>\mathbb{P}( | :::<math>\mathbb{P}(ekapurkki|kookoskeksi)=?</math> | ||
:<math>\mathbb{P}(kookoskeksi)</math> on todennäköisyys | :<math>\mathbb{P}(kookoskeksi)</math> on lähtötilanteessa vallinnut todennäköisyys, että lopulta Pertti saa sattumalta käteensä kookoskeksin. Koska jokaisella keksillä on alun perin yhtä suuri todennäköisyys päätyä lopuksi Pertin käteen, kookoskeksin saamistodennäköisyys vastaa kookoskeksien suhteellista osuutta kaikista purkeissa olevista kekseistä. Kookoskeksejä on ykköspurkissa 30 ja kakkospurkissa 20, yhteensä siis 50. Koska kummassakin purkissa on alun perin 40 keksiä, keksejä on kaikkiaan 80. Näin saadaan | ||
:::<math>\mathbb{P}(kookoskeksi) = \frac{50}{80}=0,625</math> | :::<math>\mathbb{P}(kookoskeksi) = \frac{50}{80}=0,625</math> | ||
:<math>\mathbb{P}( | :<math>\mathbb{P}(ekapurkki)</math> on todennäköisyys, että Pertti tarttuu sattumanvaraisesti nimenomaan ykköspurkkiin. Kahdesta purkkivaihtoehdosta kumpikin on alun perin yhtä todennäköinen, joten tämä todennäköisyys on 0,5. | ||
::: <math>\mathbb{P}( | ::: <math>\mathbb{P}(ekapurkki)=\frac{1}{2}=0,5</math> | ||
:<math>\mathbb{P}(kookoskeksi|ekapurkki)</math> on todennäköisyys, että Pertti ykköspurkkiin tartuttuaan poimii siitä juuri kookoskeksin. Koska ykköspurkin kaikkiaan 40 keksistä tasan 30 on kookoskeksejä, saadaan todennäköisyydeksi | |||
:::<math>\mathbb{P}(kookoskeksi|ekapurkki)=\frac{30}{40}=0,75</math> | |||
Kaiken tämän informaation avulla voimme nyt laskea todennäköisyyden sille, että Pertin valitsema kookoskeksi on peräisin juuri ykköspurkista: | |||
:<math>\mathbb{P}(ekapurkki|kookoskeksi) = \frac{\mathbb{P}(kookoskeksi|ekapurkki) \mathbb{P}(ekapurkki)}{\mathbb{P}(kookoskeksi)} = \frac{0,75 \cdot 0,5}{0,625} = 0,6</math> | |||
Kysymys on siis siitä, että ykköspurkki on sitä todennäköisempi, mitä suurempi siinä on kookoskeksien osuus ja mitä todennäköisemmin se tuli sattumanvaraisesti valituksi, ja sitä epätodennäköisempi, mitä todennäköisemmin kookoskeksi saatiin "purkista riippumatta". Näiden seikkojen järkevyyden voi mielessään todeta vaikkapa seuraavilla ajatuskokeilla: | |||
# Jos ykköspurkin kookoskeksipitoisuutta olisi alun perin lisätty, kookoskeksiin päätyminen olisi entisestään lisännyt ykköspurkin jälkikäteistodennäköisyyttä kakkospurkkiin verrattuna. | |||
# Jos taas ykköspurkkiin olisikin lisätty suklaakeksejä, sen jälkikäteistodennäköisyys olisi nykyistä pienempi. | |||
# Jos tarjolla olisi ollut kolmaskin purkki, ykköspurkin jälkikäteistodennäköisyys olisi nykyistä pienempi. | |||
# Jos tarjolla olisi ollut vain ykköspurkki, sen "valinta" olisi nykyistä todennäköisempää (vrt. yksipuoluevaalit). | |||
# Jos kakkospurkissa olisi ollut suhteessa nykyistä enemmän kookoskeksejä, ykköspurkkivaihtoehdon jälkikäteistodennäköisyys olisi nykyistä pienempi (koska kakkospurkin todennäköisyys olisi nykyistä suurempi); tässä tapauksessa myös kookoskeksin saamisen kokonaistodennäköisyys olisi kasvanut. | |||
# Jos kakkospurkissa olisi ollut suhteessa nykyistä enemmän muita kuin kookoskekseja, ykköspurkkivaihtoehdon jälkikäteistodennäköisyys olisi nykyistä suurempi (koska kakkospurkin todennäköisyys olisi nykyistä pienempi); tällöin myös kookoskeksin saamisen kokonaistodennäköisyys olisi pienentynyt. | |||
===Teoreeman muoto yleisessä tapauksessa=== | |||
Todennäköisyyslaskennassa tapahtuman ''A'' todennäköisyys ehdolla ''B'' on yleisesti eri asia kuin ''B'' ehdolla ''A''.<ref>Tämä on tietysti järkevää: esim. todennäköisyys, että nopan silmäluku on parillinen ehdolla, että se on kolmella jaollinen, on 1/2 (6 on parillinen, 3 taas ei), kun taas todennäköisyys, että nopan silmäluku on kolmella jaollinen ehdolla, että se on parillinen, on vain 1/3 (6 on kolmella jaollinen, mutta 2 ja 4 eivät ole).</ref> Näiden kahden ehdollisen todennäköisyyden välillä on kuitenkin suhde, jota Bayesin teoreema kuvaa. Teoreema kuuluu seuraavasti: | |||
:<math>\mathbb{P}(B \mid A) = \frac{\mathbb{P}(A \mid B)\;\mathbb{P}(B)}{\mathbb{P}(A)}\!</math> | |||
* <math>\mathbb{P}(A)</math> on ''A'':n priori-todennäköisyys. Se ei riipu ''B'':stä (jota joskus kutsutaan havainnoksi). | |||
* <math>\mathbb{P}(A \mid B)</math> on ''A'':n todennäköisyys ehdolla ''B''. Tätä kutsutaan myös posterioritodennäköisyydeksi. | |||
* <math>\mathbb{P}(B \mid A)</math> on ''B'':n todennäköisyys ehdolla ''A''. | |||
* <math>\mathbb{P}(B)</math> on B:n priori-todennäköisyys. | |||
==Bayesin teoreeman asema== | ==Bayesin teoreeman asema== | ||
Bayesilainen tilastoteoria, joka siis perustuu yo. teoreeman käyttöön, on yksi tilastotieteen matematiikan suuntauksesta. Muita tapoja ovat | Bayesilainen tilastoteoria, joka siis perustuu yo. teoreeman käyttöön, on yksi tilastotieteen matematiikan suuntauksesta. Muita tapoja ovat fisheriläinen ja pearsonilainen lähestymistapa. | ||
Bayesilaisen tavan vahvuus on sen suora johto todennäköisyyslaskennan perusidentiteeteistä (ks. alla). Voidaan sanoa, että teoreema on hyvin varmasti oikein. Kysymys koskee lähinnä sitä, pitäisikö teoreemaa käyttää koska priori-todennäköisyyttä ei välttämättä tiedetä. Näin keskustelu palautuu todennäköisyyden käsitteeseen: | Bayesilaisen tavan vahvuus on sen suora johto todennäköisyyslaskennan perusidentiteeteistä (ks. alla). Voidaan sanoa, että teoreema on hyvin varmasti oikein. Kysymys koskee lähinnä sitä, pitäisikö teoreemaa käyttää koska priori-todennäköisyyttä ei välttämättä tiedetä. Näin keskustelu palautuu todennäköisyyden käsitteeseen: |
Versio 1. helmikuuta 2010 kello 17.16
Bayesin teoreema (myös Bayesin sääntö tai Bayesin laki) on ehdolliseen todennäköisyyteen liittyvä teoreema. Teoreeman voidaan tulkita kuvaavan uskomusten päivittämistä uuden todisteaineiston valossa a posteriori. Teoreema on nimetty kehittäjänsä, 1700-luvulla eläneen brittiläisen pastori ja matemaatikko Thomas Bayesin mukaan.
Bayes siis kehitti teoreemansa 1700-luvulla. Myöhemmin fisheriläinen tilastoteoria ja näennäisen objektiivinen frekventistinen todennäköisyyskäsitys saivat vallalla olevan paradigman aseman. Bayesiläisen analyysin kannattajat eivät juuri saaneet julkaisujaan läpi alan lehdissä, ja vasta noin 1980-luvulta alkaen Bayesin teoreema on taas saanut merkittävää tieteellistä jalansijaa ja päässyt tuottamaan useita selviä parannuksia tieteen tutkimusmenetelmiin. Teoreema on siis hyvä osoitus tieteellisten paradigmojen voimasta ja tieteen itseäänkorjaavuuden rajoista, vaikka kyse on maailmankatsomuksellisesti paljon neutraalimmasta asiasta kuin esimerkiksi materialismin tai evolutionismin valtaparadigman asema nykyään.
Teoreeman esittely
Esimerkki teoreemaan johtavasta järkeilystä
Pertti pitää kekseistä, varsinkin kookoskekseistä. Eräänä päivänä hän on ostanut itselleen kaksi keksipakettia, ykköspaketissa on 40 kookoskeksiä, kakkospaketissa taas keksilajitelma, jossa on 10 kaurakeksiä, 10 kanelikeksiä, 10 suklaakeksiä ja 10 kookoskeksiä. Pertti avaa paketit ja keskittyy töihinsä, nappaa sitten puolihuolimattomasti keksin avoimesta paketista ja aikoo syödä sen saman tien, mutta tulee sitten ajatelleeksi, ettei ollenkaan tiedä, kummasta paketista keksi on peräisin. Koska älylliset pähkinät kiehtovat keksiä suljetussa kourassaan pitelevää Perttiä, hän rupeaa miettimään vaihtoehtoja asian selvittämiseksi:
- Jos keksi on kaura-, kaneli- tai suklaakeksi, sen on pakko olla peräisin kakkospaketista, koska sellaisia ei ole ykköspaketissa.
- Jos keksi onkin kookoskeksi, se voi olla peräisin kummasta paketista tahansa.
Pertti avaa kouransa ja toteaa keksin kookoskeksiksi. Siispä hän ei nyt tiedä, kummasta paketista se on peräisin. Asian voisi tietysti selvittää laskemalla jommankumman paketin keksit, nythän toisessa on 39, toisessa 40. Laiskana miehenä Pertti haluaa mieluummin laskea 39 keksiä kuin 40, niinpä hän päättää laskevansa sen paketin keksit, josta kädessä oleva kookoskeksi todennäköisemmin on peräisin. Voiko käytettävissä olevasta informaatiosta päätellä jotain tästä todennäköisyydestä?
Selvää siis on, että molemmat paketit ovat nyt mahdollisia vaihtoehtoja, mutta siitä ei ilmeisesti seuraa, että ne olisivat yhtä todennäköisiä. Jos ne nimittäin sitä olisivat, niin lajitelmapaketin muilla kuin kookoskekseillä ei olisi ollut mitään vaikutusta tilanteeseen liittyviin todennäköisyyksiin. Entä jos toisessa paketissa olisi ollut pelkkiä kookoskeksejä ja toisessa vain yksi kookoskeksi 39 muunlaisen keksin seassa? Ilmeisestikään todennäköisyys tämän keksin satunnaiselle sormiin osumiselle ei ole sama kuin kookoskeksipaketin tarkemmin yksilöimättämän keksin saamistodennäköisyys.
Ei siis ole kovinkaan vaikeaa päätellä, että ykköspaketti on todennäköisempi: koska keksi poimittiin satunnaisesti ja kaikilla kekseillä oli alun perin oletettavasti yhtä suuri käteenosumistodennäköisyys1, niin jommastakummasta täydestä paketista valittu keksi on 0,5:n todennäköisyydellä ykköspaketin kookoskeksi2 mutta vain 0,125:n todennäköisyydellä kakkospaketin kookoskeksi3 (ja olisi ollut 0,375:n todennäköisyydellä kakkospaketin jokin muu kuin kookoskeksi4).
Vaikka Pertillä nyt siis onkin hyvä syy laskea pikemminkin ykkös- kuin kakkospaketin keksit, koko ajatus keksien laskemisesta rupeaa tässä vaiheessa kuitenkin tuntumaan turhan työläältä. Hän päättääkin, ettei laske keksejä, jos vain voi selvittää itselleen, kuinka todennäköistä tässä tilanteessa täsmällisesti ottaen on, että keksi on peräisin ykköspaketista.
- Koska ykköspaketista saadun kookoskeksin alkuperäistodennäköisyys siis on 0,5 (umpimähkäinen valinta kahdesta paketista, minkä jälkeen ykköspaketista nousee välttämättä juuri kookoskeksi) ja kakkospaketista saadun vastaavasti tasan neljäsosa siitä (taaskin umpimähkäinen paketinvalinta, minkä jälkeen 0,25:n todennäköisyys kookoskeksin saamiselle), vaikuttaa siltä, että ykköspaketin todennäköisyys on 0,5 / (0,5 + 0,125) = 0,5 / 0,625 = 0,8.
- Ajatusvauhtiin päästyään Pertti ei malta lopettaa tähän. Entäs, jos paketteja olisikin ollut kolme eikä kaksi? Jos hän olisikin ostanut kaksi kookoskeksipakettia ja yhden lajitelman, satunnainen kookoskeksi olisi saatu jommastakummasta kookoskeksipaketista todennäköisyydellä 2/3 / (2/3 + 1/3 * 1/4) = 2/3 / (8/12 + 1/12) = 2/3 / 9/12 = 2/3 / 3/4 = 8/9 = 0,888...
- Jos taas kookoskeksipaketteja olisikin ollut vain yksi ja lajitelmapaketteja kaksi, kookoskeksipaketin todennäköisyydeksi olisi jäänyt 1/3 / (1/3 + 2/3 * 1/4) = 1/3 / (2/6 + 1/6) = 1/3 / 3/6 = 1/3 / 1/2 = 2/3 = 0,666...
- Koska töiden jatkaminen ei jostain syystä Perttiä juuri nyt hirveästi kiinnosta, hän päättää miettiä asiaa vielä siltäkin kannalta, mitä vaikutusta todennäköisyyksiin olisi lajitelmapaketin koostumuksen muuttamisella: Jos puolet lajitelmapaketin kekseistä olisi ollut kookoskeksejä, niin kahden paketin tapauksessa kookoskeksipaketin todennäköisyys olisi ollut 1/2 / (1/2 + 1/2 * 1/2) = 1/2 / (2/4 + 1/4) = 1/2 / 3/4 = 4 / 6 = 2/3 = 0,666...
- Tilanteessa, jossa kookoskeksejä olisi ollut lajitelmasta vain joka kahdeksas, lukemat olisivat sen sijaan olleet 1/2 / (1/2 + 1/2 * 1/8) = 1/2 / (8/16 + 1/16) = 1/2 / 9/16 = 16/18 = 8/9 = 0,888... Kookoskeksipaketin todennäköisyys oli siis sitä suurempi, mitä suuremman osan ne muodostivat kaikista paketeista, mutta sitä pienempi, mitä suuremman osan kookoskeksit muodostivat lajitelmapaketin sisällöstä.
- Entäs sitten se tapaus, jossa pöydällä ei olisikaan kookoskeksipaketteja vaan ainoastaan erilaisia lajitelmapaketteja, vaikkapa sellainen, jossa kookoskeksejä oli puolet, ja sellainen, jossa niitä oli vain joka neljäs? Ensinmainitun paketin todennäköisyys saadun kookoskeksin alkuperänä olisi nyt 1/2 * 1/2 / (1/2 * 1/2 + 1/2 * 1/4) = 1/4 / (2/8 + 1/8) = 1/4 / 3/8 = 8/12 = 2/3 = 0,666...
Nyt Pertti kokee ahaa-elämyksen: näitä todennäköisyyksiä ei oikeastaan tarvitsekaan laskea erikseen järkeilemällä, vaan voi oikaista: tietynlaisen keksipaketin todennäköisyys saadun kookoskeksin alkuperäksi on ilmeisesti suoraan verrannollinen tällaisten pakettien suhteelliseen osuuteen kaikista paketeista ja kookoskeksien suhteelliseen osuuteen kyseisenlaisen paketin kekseistä mutta kääntäen verrannollinen kookoskeksin saamisen kokonaistodennäköisyyteen (siis siihen, että saatiin kookoskeksi, mistä paketista se sitten olikaan peräisin).
Tämän ahaa-elämyksen tuloksen Pertti päättää kirjoittaa vastaisen varalta muistiin matemaattisena kaavana:
Tämän kaavan käyttöönotto muuttaa aiempien esimerkkitapausten laskennan rutiinitehtäväksi ja tekee uusienkin muunnelmien ratkaisemisen yhtä suoraviivaiseksi.
Teoreeman käyttö: esimerkkitapausten tarkastuslaskut
Edellä päättelemällä saadut todennäköisyydet voi nyt laskea suoraan tähän kaavaan tehdyillä sijoituksilla. Seuraavassa numerointi vastaa edelläkäytettyä:
Kaikki esimerkit siis täsmäävät.
Toinen esimerkki teoreeman käytöstä
Otetaan tarkastelun lähtökohdaksi taaskin Pertin kaksi keksipurkillista: ykköspurkissa on tällä kertaa 10 suklaakeksin lisäksi 30 kookoskeksiä, kakkospurkissa taas molempia laatuja 20 kappaletta. Esimerkkitapahtumat etenevät niin, että Pertti kopeloi taaskin sattumanvaraisesti käteensä toisen purkeista, nostaa siitä yhden keksin niin umpimähkäisesti, ettei jälkeenpäin enää itsekään tiedä, kummasta purkista se oli peräisin, mutta havaitsee saaneensa taaskin kookoskeksin. Millä todennäköisyydellä se nyt on peräisin ykköspurkista? Varmasti se on peräisin siitä purkista, jossa on nyt jäljellä vain 39 keksiä, mutta Pertti ei nytkään käy laskemaan keksimääriä vaan arvioi tilannetta vain edelläannetun informaation perusteella.
Intuitiivisesti on helppo nähdä, että koska kookoskeksejä on ykköspurkissa suhteellisesti(kin) enemmän kuin kakkospurkissa, ykköspurkki on tässä tapauksessa kakkospurkkia todennäköisempi5 Bayesin teoreema täsmentää tämän summittaisen arvion antamalla tapahtuman tarkan todennäköisyyden:
- on todennäköisyys sille, että Pertti oli tarttunut ykköspurkkiin siinä tapauksessa, että hän on poiminut purkistaan kookoskeksin. Juuri tämän todennäköisyyden haluamme siis selvittää:
- on lähtötilanteessa vallinnut todennäköisyys, että lopulta Pertti saa sattumalta käteensä kookoskeksin. Koska jokaisella keksillä on alun perin yhtä suuri todennäköisyys päätyä lopuksi Pertin käteen, kookoskeksin saamistodennäköisyys vastaa kookoskeksien suhteellista osuutta kaikista purkeissa olevista kekseistä. Kookoskeksejä on ykköspurkissa 30 ja kakkospurkissa 20, yhteensä siis 50. Koska kummassakin purkissa on alun perin 40 keksiä, keksejä on kaikkiaan 80. Näin saadaan
- on todennäköisyys, että Pertti tarttuu sattumanvaraisesti nimenomaan ykköspurkkiin. Kahdesta purkkivaihtoehdosta kumpikin on alun perin yhtä todennäköinen, joten tämä todennäköisyys on 0,5.
- on todennäköisyys, että Pertti ykköspurkkiin tartuttuaan poimii siitä juuri kookoskeksin. Koska ykköspurkin kaikkiaan 40 keksistä tasan 30 on kookoskeksejä, saadaan todennäköisyydeksi
Kaiken tämän informaation avulla voimme nyt laskea todennäköisyyden sille, että Pertin valitsema kookoskeksi on peräisin juuri ykköspurkista:
Kysymys on siis siitä, että ykköspurkki on sitä todennäköisempi, mitä suurempi siinä on kookoskeksien osuus ja mitä todennäköisemmin se tuli sattumanvaraisesti valituksi, ja sitä epätodennäköisempi, mitä todennäköisemmin kookoskeksi saatiin "purkista riippumatta". Näiden seikkojen järkevyyden voi mielessään todeta vaikkapa seuraavilla ajatuskokeilla:
- Jos ykköspurkin kookoskeksipitoisuutta olisi alun perin lisätty, kookoskeksiin päätyminen olisi entisestään lisännyt ykköspurkin jälkikäteistodennäköisyyttä kakkospurkkiin verrattuna.
- Jos taas ykköspurkkiin olisikin lisätty suklaakeksejä, sen jälkikäteistodennäköisyys olisi nykyistä pienempi.
- Jos tarjolla olisi ollut kolmaskin purkki, ykköspurkin jälkikäteistodennäköisyys olisi nykyistä pienempi.
- Jos tarjolla olisi ollut vain ykköspurkki, sen "valinta" olisi nykyistä todennäköisempää (vrt. yksipuoluevaalit).
- Jos kakkospurkissa olisi ollut suhteessa nykyistä enemmän kookoskeksejä, ykköspurkkivaihtoehdon jälkikäteistodennäköisyys olisi nykyistä pienempi (koska kakkospurkin todennäköisyys olisi nykyistä suurempi); tässä tapauksessa myös kookoskeksin saamisen kokonaistodennäköisyys olisi kasvanut.
- Jos kakkospurkissa olisi ollut suhteessa nykyistä enemmän muita kuin kookoskekseja, ykköspurkkivaihtoehdon jälkikäteistodennäköisyys olisi nykyistä suurempi (koska kakkospurkin todennäköisyys olisi nykyistä pienempi); tällöin myös kookoskeksin saamisen kokonaistodennäköisyys olisi pienentynyt.
Teoreeman muoto yleisessä tapauksessa
Todennäköisyyslaskennassa tapahtuman A todennäköisyys ehdolla B on yleisesti eri asia kuin B ehdolla A.6 Näiden kahden ehdollisen todennäköisyyden välillä on kuitenkin suhde, jota Bayesin teoreema kuvaa. Teoreema kuuluu seuraavasti:
- on A:n priori-todennäköisyys. Se ei riipu B:stä (jota joskus kutsutaan havainnoksi).
- on A:n todennäköisyys ehdolla B. Tätä kutsutaan myös posterioritodennäköisyydeksi.
- on B:n todennäköisyys ehdolla A.
- on B:n priori-todennäköisyys.
Bayesin teoreeman asema
Bayesilainen tilastoteoria, joka siis perustuu yo. teoreeman käyttöön, on yksi tilastotieteen matematiikan suuntauksesta. Muita tapoja ovat fisheriläinen ja pearsonilainen lähestymistapa.
Bayesilaisen tavan vahvuus on sen suora johto todennäköisyyslaskennan perusidentiteeteistä (ks. alla). Voidaan sanoa, että teoreema on hyvin varmasti oikein. Kysymys koskee lähinnä sitä, pitäisikö teoreemaa käyttää koska priori-todennäköisyyttä ei välttämättä tiedetä. Näin keskustelu palautuu todennäköisyyden käsitteeseen:
- Bayesilaiset ovat tyypillisesti episteemisen todennäköisyyskäsityksen kannattajia, jossa todennäköisyys kuvaa henkilön uskomuksen ja siten tiedon astetta.
- Frekventistisessä eli otoksien suhteellisiin määriin perustuvassa todennäköisyyskäsityksessä todennäköisyyksien ajatellaan kuvaavan toistokokeiden suhteellisia määriä. Ongelmaksi muodostuu, että yleensä meillä ei ole tarpeeksi toistokokeita. Tämän käsityksen ajateltiin olevan objektiivinen, mutta käytännössä, koska ääretöntä sarjaa toistokokeita ei ole oikeastaan missään tilanteessa, käsityksen käyttäjä olettaa usein itseltäänkin 'piilossa' asioita.
Episteeminen todennäköisyys voidaan usein arvioida välttävällä tavalla, joten priori-ongelma ei usein ole merkittävä. Priorin valintaan ei kuitenkaan ole yhtä oikeaa tapaa. Tarkoitus olisi, että priori kuvaa henkilön tietämyksen tilaa, mutta tietämyksen esittäminen matemaattisesti ei ole ongelmatonta. Matemaattiset menetelmät esittää tämä tietämys ovat usein merkittävästi riippuvaisia tehdyistä valinnoista eivätkä yleensä ole parametrisoinnista riippumattomia. Riittävän oikealla priorilla saadaan kuitenkin yleensä riittävän oikeita tuloksia ja yleensä havaintojen kasvaessa priorin merkitys vähenee nopeasti. Järkevien priorivalintojen vaikutusta lopputulokseen voidaan myös arvioida. Voidaankin argumentoida, että priori-ongelma ei ole ongelma, vaan rehellistä oman rajallisuutemme myöntämistä. Yksi Bayeläisen päättelyn vahvuuksista onkin se, että tehdyt oletukset ovat paremmin esillä eivätkä piilossa alan keittokirjamaisten päättelyreseptien takana.
Ehkä merkittävin puute bayesilaisessa hypoteesitestauksessa on se, että sillä voidaan vain vertailla olemassaolevia hypoteeseja keskenään. Yhtä teoriaa ei voida arvioita. Käytännössä jopa bayesilaisen hypoteesitestauksen tiukimmat puolestapuhujat kuten Jaynes vetoavat Fisherin hypoteesitestauksen kaltaisiin kriteereihin kun tilanteissa joissa on tarve miettiä pitäisikö etsiä jotain parempaa teoriaa.
Ongelmistaan huolimatta bayesilainen tapa tarjoaa hyvin perustellun, systemaattisen ja todennäköisyyksiin perustuvan tavan arvioida argumentteja. Siihen on sisäänrakennettuna useimmat olennaiset tieteenfilosofiset teorianvalinnan kriteerit. Bayesin teoreema voidaan laajentaa väittämien välisten uskomusverkkojen systemaattiseen analyysiin (Bayes nets), joka sopii hyvin maailmankatsomusten analyysiin.
Huomattavimpia Bayesin teoreemaa käyttäviä kristittyjä filosofeja on Richard Swinburne. Teoksessaan The Existence of God Swinburne käy läpi mm. pahan ongelman, uskonnolliset kokemukset ja Jeesuksen ylösnousemuksen todisteet ja päätyy siihen että käsitellyn evidenssin pohjalta kristinusko on vähintään 95% todennäköisyydellä totta.
Bayeslainen tulkinta suunnitteluteoriasta
Usein tietty tilastollinen ongelma voidaan ilmaista useamman tilastollisen paradigman alla. Useimmiten Bayeslainen tapa näyttäisi olevan tarkin ja sen käytön rajat ovat selvemmin nähtävillä koska tehdyt oletukset ovat selvemmin nähtävillä. Myös suunnitteluteoria on esitettävissä bayesilaisessa muodossa. Tietyssä mielessä se, että päättely voidaan ilmaista useammalla tavalla, viittaa päättelyn luotettavuuteen koska tuolloin päättely ei ole riippuvainen valitusta paradigmasta.
Dembskin Fisheriläisessä suunnittelupäättelyssä on siis kolme pääkohtaa:
- Vapausasteisuus
- Monimutkaisuus
- Täsmennys
Bayeslaisessa tulkinnassa kohdat 1. ja 2. tarkoittavat että ei-mielivaltaisille naturalistisille hypoteeseille tarkasteltavana oleva asia on epätodennäköinen. Kohta 3 taas tarkoittaa sitä, että suunnittelija-hypoteesin ennuste asialle on korkea. Esimerkiksi palautumattomasti monimutkaisten asioiden kohdalla evoluutioteoreettinen ennuste on paljon tasaista jakaumaa alempana, koska on erittäin epätodennäköistä että näiden systeemien välivaiheet olisivat elinkelpoisia (kohdat 1 ja 2). Koska näitä rakenteita voidaan täsmentää (analogia ihmisen suunnittelemien rakenteiden kanssa, monen osan systeemit tyypillisiä suunnittelijoille, toimiva kone jolla jokin tarkoitus(teleonomia)), suunnittelyhypoteesin ennuste palautumattoman monimutkaiselle rakenteelle on paljon tasaista jakaumaa korkeampi. Näin suunnittelu on paljon evoluutioteoriaa todennäköisempi selitys näille rakenteille.
Ylläolevan kolmen kohdan lisäksi Dembski tarkastelee toisaalta käytössä olevia resursseja ja toisaalta mahdollisten täsmennyksien määrää. Tämä on oikea intuitio Dembskiltä (ja samalla Fisheriläisen paradigman oikeansuuntainen korjaus), sillä Bayeslaisessa tulkinnassa nämä molemmat ovat sisäänrakennettuina evoluutioteorian ja suunnitteluhypoteesin ennusteiden normituksessa (todennäköisyyksien summa/integraali kaikkien mahdollisten tapausten yli on yksi).
Bayesin teoreeman käytöstä suunnittelun alueella
Suunnittelu-hypoteesin ennusteita voidaan perustella usealla tasolla, joista alla esimerkkejä:
- Suunnittelijan erityisen ilmoituksen perusteella tehdyt ennustukset.
- Ennusteet suunnittelijan ja ihmisen samankaltaisuuksiin perustuen. (Analogia on yksi tieteellisen päättelyn yleisimpiä muotoja.)
- Ennusteet yleisen tietoisen olennon ominaisuuden perusteella.
- Ennusteet jotka summataan kaikkien tietoisen olennon motiivien yli. Koska tässä todennäköisyysavaruuden dimensio ja tyyppi on erilainen kuin fysikaalisten parametrien avaruus, se kuvautuu ei-tasaisena ennusteena fysikaalisten parametrien avaruuteen. Esimerkiksi, mikäli annamme 50% todennäköisyyden sille, että Suunnittelija (tässä tapuksessa siis Jumala) luo tietoisia havaitsijoita sallivan universumin, kutsutaan tätä universumin ominaisutta O, summaamalla O:n ja ei-O:n yli, saamme silti hyvin suuren ennusteen havaitsijat sallivalle universumille fysikaalisten parametrien avaruudessa verrattuna fysikaalisten parametrien avaruuden tasaiseen jakaumaan. Esimerkiksi painovoiman voimakkuus on 1, kun kaikkien fysiikan voimien voimakkuudet ovat välillä 1 - 1040. Painovoima saa olla korkeintaan 3000-kertainen, jotta elämä on mahdollista. Näin todennäköisyys sille, että Jumala luo maailman, jossa painovoima on välillä 1-3000, on 0.5. Vastaavasti todenäköisyys saada painovoiman arvo elämän sallivalle välille puhtaan sattuman perusteella on noin välin 1-3000 pituus verrattuna koko skaalan pituuteen, eli noin 3000/1040=10-36. Jumala-selitys on siis noin 0.5/10-36 ~ 5*1035 eli melkein miljoona miljoona miljoona miljoona miljoona miljoonaa kertaa todennäköisempi kuin puhdas sattuma (ja siten teismi on tilapäisesti tämän verran ateismia todennäköisempi jo tämän argumentin perusteella).
Teoreeman johtaminen ehdollisesta todennäköisyydestä
Ehdollisen todennäköisyyden määritelmän mukaisesti tapahtuman A todennäköisyys ehdolla B on
Vastaavasti tapahtuman B todennäköisyys ehdolla A on
Näistä kahdesta yhtälöstä saadaan
Jakamalla näin saadun yhtälön molemmat puolet tekijällä P(B) saadaan Bayesin teoreema
Kirjallisuutta
- E.T. Jaynes, Probability Theory, The Logic of Science, 2003, Cambridge University Press. (Jaynes väittää todistavansa enemmän kuin todistaa ja Jaynes oli puusilmäinen agnostikko, joka mm. väitti että Nasaretin olemassaolo on epätodennäköistä kun siitä ei ole todisteita (vaikka todisteita toki on ja vaikkei olisikaan Jaynesin päättely oli virheellistä, eikä se tässä noudattanut Bayesin teoreemaa), mutta Jaynesin bayesilaisen hypoteesitestauksen periaatteiden ja frekventististen menetelmien ongelmien käsittely on selkeää ja hyvää luettavaa. Kirjan vedosversio on ladattavissa http://bayes.wustl.edu/etj/prob/book.pdf)
- R. Swinburne, The Existence of God, 2. painos, 2004, Clarendon Press.
- ^ Näin siksi, että tilannekuvauksesta ei voi muutakaan päätellä; tätä kutsutaan "riittämättömien syiden periaatteeksi": todennäköisyysjakaumaa pidetään tasaisena eli kaikkia vaihtoehtoja yhtä todennäköisinä, ellei muutakaan pystytä osoittamaan.
- ^ Suotuisia tapauksia on 40 kaikkiaan 80:sta.
- ^ Suotuisia tapauksia on 10 kaikkiaan 80:sta.
- ^ Suotuisia tapauksia (loput) 30 kaikkiaan 80:sta.
- ^ Tämä on sitä helpompi huomata, mitä enemmän purkkien sisällöt alun perin poikkesivat: esim. 39 kookos + 1 suklaa -purkki olisi selvästi todennäköisempi kuin 1 kookos + 39 suklaa -purkki.
- ^ Tämä on tietysti järkevää: esim. todennäköisyys, että nopan silmäluku on parillinen ehdolla, että se on kolmella jaollinen, on 1/2 (6 on parillinen, 3 taas ei), kun taas todennäköisyys, että nopan silmäluku on kolmella jaollinen ehdolla, että se on parillinen, on vain 1/3 (6 on kolmella jaollinen, mutta 2 ja 4 eivät ole).