Ero sivun ”Bayesin teoreema” versioiden välillä

ApoWikistä
p (→‎Bayesin kaavan rakenne: -ylimääräisiä rivinvaihtoja)
 
(9 välissä olevaa versiota 5 käyttäjän tekeminä ei näytetä)
Rivi 1: Rivi 1:
'''Bayesin teoreema''' (myös '''Bayesin sääntö''' tai '''Bayesin laki''') on [[wp:Ehdollinen todennäköisyys|ehdolliseen todennäköisyyteen]] liittyvä [[wp:teoreema|teoreema]]. Teoreeman voidaan tulkita kuvaavan uskomusten päivittämistä uuden todisteaineiston valossa ''[[wp:a posteriori|a posteriori]]''. Teoreema on nimetty kehittäjänsä, 1700-luvulla eläneen brittiläisen pastori ja matemaatikko [[wp:Thomas Bayes|Thomas Bayes]]in mukaan.
'''Bayesin teoreema''' (myös '''Bayesin sääntö''' tai '''Bayesin laki''') on [[wp:Ehdollinen todennäköisyys|ehdolliseen todennäköisyyteen]] liittyvä [[wp:teoreema|teoreema]]. Teoreeman voidaan tulkita kuvaavan uskomusten päivittämistä uuden todisteaineiston valossa ''[[wp:a posteriori|a posteriori]]''. Teoreema on nimetty kehittäjänsä, 1700-luvulla eläneen brittiläisen pastorin ja matemaatikon [[wp:Thomas Bayes|Thomas Bayes]]in mukaan.


Bayes siis kehitti teoreemansa 1700-luvulla. Myöhemmin fisheriläinen tilastoteoria ja näennäisen objektiivinen frekventistinen todennäköisyyskäsitys saivat vallalla olevan paradigman aseman. Bayesiläisen analyysin kannattajat eivät juuri saaneet julkaisujaan läpi alan lehdissä, ja vasta noin 1980-luvulta alkaen Bayesin teoreema on taas saanut merkittävää tieteellistä jalansijaa ja päässyt tuottamaan useita selviä parannuksia tieteen tutkimusmenetelmiin. Teoreema on siis hyvä osoitus tieteellisten paradigmojen voimasta ja tieteen itseäänkorjaavuuden rajoista, vaikka kyse on maailmankatsomuksellisesti paljon neutraalimmasta asiasta kuin esimerkiksi materialismin tai evolutionismin valtaparadigman asema nykyään.
Bayes siis kehitti teoreemansa 1700-luvulla. Myöhemmin [[wp:Ronald Fisher|fisheriläinen]] tilastoteoria ja näennäisen objektiivinen [http://en.wikipedia.org/wiki/Frequency_probability frekventistinen todennäköisyyskäsitys] saivat vallalla olevan [[AW:S#paradigma|paradigman]] aseman. Bayesiläisen [[AW:S#analyysi|analyysin]] kannattajat eivät juuri saaneet julkaisujaan läpi alan lehdissä, ja vasta noin 1980-luvulta alkaen Bayesin teoreema on taas saanut merkittävää tieteellistä jalansijaa ja päässyt tuottamaan useita selviä parannuksia tieteen tutkimusmenetelmiin. Teoreema on siis hyvä osoitus tieteellisten paradigmojen voimasta ja tieteen itseäänkorjaavuuden rajoista, vaikka kyse on maailmankatsomuksellisesti paljon neutraalimmasta asiasta kuin esimerkiksi evoluutioteorian valtaparadigman asema nykyään.




Rivi 7: Rivi 7:


Tarkoitus on esimerkkien avulla tutustuttaa lukija tarkasteltavien kysymysten luonteeseen. Jos perusajatus on jo tuttu, tämän osion voi hyvin ohittaa.
Tarkoitus on esimerkkien avulla tutustuttaa lukija tarkasteltavien kysymysten luonteeseen. Jos perusajatus on jo tuttu, tämän osion voi hyvin ohittaa.


===Esimerkki teoreemaan johtavasta järkeilystä===
===Esimerkki teoreemaan johtavasta järkeilystä===
Rivi 16: Rivi 15:
Pertti avaa kouransa ja toteaa keksin kookoskeksiksi. Siispä hän ei nyt tiedä, kummasta paketista se on peräisin. Asian voisi tietysti selvittää laskemalla jommankumman paketin keksit, nythän toisessa on 39, toisessa 40. Laiskana miehenä Pertti haluaa mieluummin laskea 39 keksiä kuin 40, niinpä hän päättää laskevansa sen paketin keksit, josta kädessä oleva kookoskeksi todennäköisemmin on peräisin. Voiko käytettävissä olevasta informaatiosta päätellä jotain tästä todennäköisyydestä?
Pertti avaa kouransa ja toteaa keksin kookoskeksiksi. Siispä hän ei nyt tiedä, kummasta paketista se on peräisin. Asian voisi tietysti selvittää laskemalla jommankumman paketin keksit, nythän toisessa on 39, toisessa 40. Laiskana miehenä Pertti haluaa mieluummin laskea 39 keksiä kuin 40, niinpä hän päättää laskevansa sen paketin keksit, josta kädessä oleva kookoskeksi todennäköisemmin on peräisin. Voiko käytettävissä olevasta informaatiosta päätellä jotain tästä todennäköisyydestä?


Selvää siis on, että molemmat paketit ovat nyt mahdollisia vaihtoehtoja, mutta siitä ei ilmeisesti seuraa, että ne olisivat yhtä todennäköisiä. Jos ne nimittäin sitä olisivat, niin lajitelmapaketin muilla kuin kookoskekseillä ei olisi ollut mitään vaikutusta tilanteeseen liittyviin todennäköisyyksiin. Entä jos toisessa paketissa olisi ollut pelkkiä kookoskeksejä ja toisessa vain yksi kookoskeksi 39 muunlaisen keksin seassa? Ilmeisestikään todennäköisyys tämän keksin satunnaiselle sormiin osumiselle ei ole sama kuin kookoskeksipaketin tarkemmin yksilöimättämän keksin saamistodennäköisyys.
Selvää siis on, että molemmat paketit ovat nyt mahdollisia vaihtoehtoja, mutta siitä ei ilmeisesti seuraa, että ne olisivat yhtä todennäköisiä. Jos ne nimittäin sitä olisivat, niin lajitelmapaketin muilla kuin kookoskekseillä ei olisi ollut mitään vaikutusta tilanteeseen liittyviin todennäköisyyksiin. Entä jos toisessa paketissa olisi ollut pelkkiä kookoskeksejä ja toisessa vain yksi kookoskeksi 39 muunlaisen keksin seassa? Ilmeisestikään todennäköisyys tämän keksin satunnaiselle sormiin osumiselle ei ole sama kuin kookoskeksipaketin tarkemmin yksilöimättömän keksin saamistodennäköisyys.


Ei siis ole kovinkaan vaikeaa päätellä, että ykköspaketti on todennäköisempi: koska keksi poimittiin satunnaisesti ja kaikilla kekseillä oli alun perin oletettavasti yhtä suuri käteenosumistodennäköisyys<ref>Näin siksi, että tilannekuvauksesta ei voi muutakaan päätellä; tätä kutsutaan "riittämättömien syiden periaatteeksi": todennäköisyysjakaumaa pidetään tasaisena eli kaikkia vaihtoehtoja yhtä todennäköisinä, ellei muutakaan pystytä osoittamaan.</ref>, niin jommastakummasta täydestä paketista valittu keksi on 0,5:n todennäköisyydellä ykköspaketin kookoskeksi<ref>Suotuisia tapauksia on 40 kaikkiaan 80:sta.</ref> mutta vain 0,125:n todennäköisyydellä kakkospaketin kookoskeksi<ref>Suotuisia tapauksia on 10 kaikkiaan 80:sta.</ref> (ja olisi ollut 0,375:n todennäköisyydellä kakkospaketin jokin muu kuin kookoskeksi<ref>Suotuisia tapauksia: (loput) 30 kaikkiaan 80:sta.</ref>).
Ei siis ole kovinkaan vaikeaa päätellä, että ykköspaketti on todennäköisempi: koska keksi poimittiin satunnaisesti ja kaikilla kekseillä oli alun perin oletettavasti yhtä suuri käteenosumistodennäköisyys<ref>Näin siksi, että tilannekuvauksesta ei voi muutakaan päätellä; tätä kutsutaan "riittämättömien syiden periaatteeksi": todennäköisyysjakaumaa pidetään tasaisena eli kaikkia vaihtoehtoja yhtä todennäköisinä, ellei muutakaan pystytä osoittamaan.</ref>, niin jommastakummasta täydestä paketista valittu keksi on 0,5:n todennäköisyydellä ykköspaketin kookoskeksi<ref>Suotuisia tapauksia on 40 kaikkiaan 80:sta.</ref> mutta vain 0,125:n todennäköisyydellä kakkospaketin kookoskeksi<ref>Suotuisia tapauksia on 10 kaikkiaan 80:sta.</ref> (ja olisi ollut 0,375:n todennäköisyydellä kakkospaketin jokin muu kuin kookoskeksi<ref>Suotuisia tapauksia: (loput) 30 kaikkiaan 80:sta.</ref>).


Vaikka Pertillä nyt siis onkin hyvä syy laskea pikemminkin ykkös- kuin kakkospaketin keksit, koko ajatus keksien laskemisesta rupeaa tässä vaiheessa kuitenkin tuntumaan turhan työläältä. Hän päättääkin, ettei laske keksejä, jos vain voi selvittää itselleen, kuinka todennäköistä tässä tilanteessa täsmällisesti ottaen on, että keksi on peräisin ykköspaketista.
Vaikka Pertillä nyt siis onkin hyvä syy laskea pikemminkin ykkös- kuin kakkospaketin keksit, koko ajatus keksien laskemisesta rupeaa tässä vaiheessa kuitenkin tuntumaan turhan työläältä. Hän päättääkin, ettei laske keksejä, jos vain voi selvittää itselleen, kuinka todennäköistä tässä tilanteessa täsmällisesti ottaen on, että keksi on peräisin ykköspaketista.
# Koska ykköspaketista saadun kookoskeksin alkuperäistodennäköisyys siis on 0,5 (umpimähkäinen valinta kahdesta paketista, minkä jälkeen ykköspaketista nousee välttämättä juuri kookoskeksi) ja kakkospaketista saadun vastaavasti tasan neljäsosa siitä (taaskin umpimähkäinen paketinvalinta, minkä jälkeen 0,25:n todennäköisyys kookoskeksin saamiselle), vaikuttaa siltä, että ykköspaketin todennäköisyys on 0,5 / (0,5 + 0,125) = 0,5 / 0,625 = 0,8.
# Koska ykköspaketista saadun kookoskeksin alkuperäistodennäköisyys siis on 0,5 (umpimähkäinen valinta kahdesta paketista, minkä jälkeen ykköspaketista nousee välttämättä juuri kookoskeksi) ja kakkospaketista saadun vastaavasti tasan neljäsosa siitä (taaskin umpimähkäinen paketinvalinta, minkä jälkeen 0,25:n todennäköisyys kookoskeksin saamiselle), vaikuttaa siltä, että ykköspaketin todennäköisyys on 0,5 / (0,5 + 0,125)<ref>Kookospaketin keksien (40) osuus kaikista suotuisista kekseistä (40 + 10)</ref> = 0,5 / 0,625 = 0,8.
# Ajatusvauhtiin päästyään Pertti ei malta lopettaa tähän. Entäs, jos paketteja olisikin ollut kolme eikä kaksi? Jos hän olisikin ostanut kaksi kookoskeksipakettia ja yhden lajitelman, satunnainen kookoskeksi olisi saatu jommastakummasta kookoskeksipaketista todennäköisyydellä 2/3 / (2/3 + 1/3 * 1/4) = 2/3 / (8/12 + 1/12) = 2/3 / 9/12 = 2/3 / 3/4 = 8/9 = 0,888...
# Ajatusvauhtiin päästyään Pertti ei malta lopettaa tähän. Entäs, jos paketteja olisikin ollut kolme eikä kaksi? Jos hän olisikin ostanut kaksi kookoskeksipakettia ja yhden lajitelman, satunnainen kookoskeksi olisi saatu jommastakummasta ''kookoskeksipaketista'' todennäköisyydellä 2/3 / (2/3 + 1/3 * 1/4)<ref>Kookoskeksipakettien osuus kaikista paketeista (2/3) jaettuna kookoskeksien osuudella kaikista kekseistä, joka saadaan laskemalla yhteen kussakin pakkauksessa olevien kookoskeksien osuudet suhteessa kaikkiin pakkauksessa oleviin kekseihin: (1/3 * 1 + 1/3 * 1 + 1/3 * 1/4 = 2/3 + 1/3 * 1/4)</ref> = 2/3 / (8/12 + 1/12) = 2/3 / 9/12 = 2/3 / 3/4 = 8/9 = 0,888...
# Jos taas kookoskeksipaketteja olisikin ollut vain yksi ja lajitelmapaketteja kaksi, kookoskeksipaketin todennäköisyydeksi olisi jäänyt 1/3 / (1/3 + 2/3 * 1/4) = 1/3 / (2/6 + 1/6) = 1/3 / 3/6 = 1/3 / 1/2 = 2/3 = 0,666...
# Jos taas kookoskeksipaketteja olisikin ollut vain yksi ja lajitelmapaketteja kaksi, kookoskeksipaketin todennäköisyydeksi olisi jäänyt 1/3 / (1/3 + 2/3 * 1/4)<ref>Kookoskeksipakettien osuus kaikista paketeista (1/3) jaettuna kookoskeksien osuudella kaikista kekseistä, joka saadaan laskemalla yhteen kussakin pakkauksessa olevien kookoskeksien osuudet suhteessa kaikkiin pakkauksessa oleviin kekseihin: (1/3 * 1 + 1/3 * 1/4 + 1/3 * 1/4 = 1/3 + 2/3 * 1/4)</ref> = 1/3 / (2/6 + 1/6) = 1/3 / 3/6 = 1/3 / 1/2 = 2/3 = 0,666...
# Koska töiden jatkaminen ei jostain syystä Perttiä juuri nyt hirveästi kiinnosta, hän päättää miettiä asiaa vielä siltäkin kannalta, mitä vaikutusta todennäköisyyksiin olisi lajitelmapaketin koostumuksen muuttamisella: Jos puolet lajitelmapaketin kekseistä olisi ollut kookoskeksejä, niin kahden paketin tapauksessa kookoskeksipaketin todennäköisyys olisi ollut 1/2 / (1/2 + 1/2 * 1/2) = 1/2 / (2/4 + 1/4) = 1/2 / 3/4 = 4 / 6 = 2/3 = 0,666...
# Koska töiden jatkaminen ei jostain syystä Perttiä juuri nyt hirveästi kiinnosta, hän päättää miettiä asiaa vielä siltäkin kannalta, mitä vaikutusta todennäköisyyksiin olisi lajitelmapaketin koostumuksen muuttamisella: Jos puolet lajitelmapaketin kekseistä olisi ollut kookoskeksejä, niin kahden paketin tapauksessa kookoskeksipaketin todennäköisyys olisi ollut 1/2 / (1/2 + 1/2 * 1/2)<ref>Kookospaketin keksien (40) osuus kaikista suotuisista kekseistä (40 + 20)</ref> = 1/2 / (2/4 + 1/4) = 1/2 / 3/4 = 4 / 6 = 2/3 = 0,666...
# Tilanteessa, jossa kookoskeksejä olisi ollut lajitelmasta vain joka kahdeksas, lukemat olisivat sen sijaan olleet 1/2 / (1/2 + 1/2 * 1/8) = 1/2 / (8/16 + 1/16) = 1/2 / 9/16 = 16/18 = 8/9 = 0,888... Kookoskeksipaketin todennäköisyys oli siis sitä suurempi, mitä suuremman osan ne muodostivat kaikista paketeista, mutta sitä pienempi, mitä suuremman osan kookoskeksit muodostivat lajitelmapaketin sisällöstä.
# Tilanteessa, jossa kookoskeksejä olisi ollut lajitelmasta vain joka kahdeksas, lukemat olisivat sen sijaan olleet 1/2 / (1/2 + 1/2 * 1/8)<ref>Kookospaketin keksien (40) osuus kaikista suotuisista kekseistä (40 + 5)</ref> = 1/2 / (8/16 + 1/16) = 1/2 / 9/16 = 16/18 = 8/9 = 0,888...  
# Entäs sitten se tapaus, jossa pöydällä ei olisikaan kookoskeksipaketteja vaan ainoastaan erilaisia lajitelmapaketteja, vaikkapa sellainen, jossa kookoskeksejä oli puolet, ja sellainen, jossa niitä oli vain joka neljäs? Ensinmainitun paketin todennäköisyys saadun kookoskeksin alkuperänä olisi nyt 1/2 * 1/2 / (1/2 * 1/2 + 1/2 * 1/4) = 1/4 / (2/8 + 1/8) = 1/4 / 3/8 = 8/12 = 2/3 = 0,666...
#:Kookoskeksipaketin todennäköisyys oli siis sitä ''suurempi'', mitä ''suuremman'' osan ne muodostivat ''kaikista paketeista'', mutta sitä ''pienempi'', mitä ''suuremman'' osan kookoskeksit muodostivat ''lajitelmapaketin'' sisällöstä.
# Entäs sitten se tapaus, jossa pöydällä ei olisikaan kookoskeksipaketteja vaan ainoastaan erilaisia lajitelmapaketteja, vaikkapa sellainen, jossa kookoskeksejä oli puolet, ja sellainen, jossa niitä oli vain joka neljäs? Ensinmainitun paketin todennäköisyys saadun kookoskeksin alkuperänä olisi nyt 1/2 * 1/2 / (1/2 * 1/2 + 1/2 * 1/4)<ref>Ensimmäisessä paketissa olleiden kookoskeksien osuus kaikista kekseistä (1/2 * 1/2) jaettuna kookoskeksien osuudella kaikista kekseistä, joka saadaan laskemalla yhteen molemmissa pakkauksissa olevien kookoskeksien osuudet suhteessa kaikkiin pakkauksessa oleviin kekseihin: (1/2 * 1/2 + 1/2 * 1/4)</ref> = 1/4 / (2/8 + 1/8) = 1/4 / 3/8 = 8/12 = 2/3 = 0,666...


Nyt Pertti kokee ahaa-elämyksen: näitä todennäköisyyksiä ei oikeastaan tarvitsekaan laskea erikseen järkeilemällä, vaan voi oikaista: tietynlaisen keksipaketin todennäköisyys saadun kookoskeksin alkuperäksi on ilmeisesti suoraan verrannollinen tällaisten pakettien suhteelliseen osuuteen kaikista paketeista ja kookoskeksien suhteelliseen osuuteen kyseisenlaisen paketin kekseistä mutta kääntäen verrannollinen kookoskeksin saamisen kokonaistodennäköisyyteen (siis siihen, että saatiin kookoskeksi, mistä paketista se sitten olikaan peräisin).
Nyt Pertti kokee ahaa-elämyksen: näitä todennäköisyyksiä ei oikeastaan tarvitsekaan laskea erikseen järkeilemällä, vaan voi oikaista: tietynlaisen keksipaketin todennäköisyys saadun kookoskeksin alkuperäksi on ilmeisesti suoraan verrannollinen tällaisten pakettien suhteelliseen osuuteen kaikista paketeista ja kookoskeksien suhteelliseen osuuteen kyseisenlaisen paketin kekseistä<ref>Todennäköisyys kasvaa sitä mukaa, kun toivottavien pakettien määrä, sekä kookoskeksien määrä toivottavissa paketeissa kasvavat.</ref> mutta kääntäen verrannollinen kookoskeksin saamisen kokonaistodennäköisyyteen<ref>Siis siihen, että saatiin kookoskeksi, mistä paketista se sitten olikaan peräisin. Toisin sanoen todennäköisyys pienenee sitä mukaa, kun "ei-toivotuissa" paketeissa olevien kookoskeksien osuus kaikista kookoskekseistä kasvaa.</ref>.


Tämän ahaa-elämyksen tuloksen Pertti päättää kirjoittaa vastaisen varalta muistiin matemaattisena kaavana:
Tämän ahaa-elämyksen tuloksen Pertti päättää kirjoittaa vastaisen varalta muistiin matemaattisena kaavana:
Rivi 86: Rivi 86:


Tässä osiossa pureudutaan kaavamuodossa esitetyn Bayesin teoreeman yksityiskohtiin.
Tässä osiossa pureudutaan kaavamuodossa esitetyn Bayesin teoreeman yksityiskohtiin.


=== Wikipedia-artikkelien vertailua<ref>Vertailu perustuu tiistain 2.2.2010 tilanteeseen n. puoliltapäivin Suomen aikaa.</ref> ===
=== Wikipedia-artikkelien vertailua<ref>Vertailu perustuu tiistain 2.2.2010 tilanteeseen n. puoliltapäivin Suomen aikaa.</ref> ===


Bayesin teoreeman mielekkäiden käyttötapojen ymmärtämisen lähtökohtana on itse kaavan hahmottaminen. Tämä ei näköjään välttämättä ole kovinkaan helppoa, kuten seuraava esimerkkiparikin osoittanee.<ref>Esimerkit ovat tässä myös perusteluna sille, miksi suomenkielisen Wikipedian kirjoittamishetkisestä esityksestä on täällä poikettu.</ref>
Bayesin teoreeman mielekkäiden käyttötapojen ymmärtämisen lähtökohtana on itse kaavan hahmottaminen. Tämä ei näköjään välttämättä ole kovinkaan helppoa, kuten seuraava esimerkkiparikin osoittanee.<ref>Esimerkit ovat tässä myös perusteluna sille, miksi suomenkielisen Wikipedian kirjoittamishetkisestä esityksestä on täällä poikettu.</ref>


==== Englanninkielisen Wikipedia-artikkelin ''Simple statement of theorem'' -osio ====
==== Englanninkielisen Wikipedia-artikkelin ''Simple statement of theorem'' -osio ====
Rivi 108: Rivi 106:


==== Suomenkielisen Wikipedia-artikkelin ''Teoreeman esittely'' -osio ====
==== Suomenkielisen Wikipedia-artikkelin ''Teoreeman esittely'' -osio ====
{{Malline:Quotation|
Tapahtuman ''A'' todennäköisyys ehdolla ''B'' (merkitään P(A{{!}}B)) on yleisessä tapauksessa eri asia kuin todennäköisyys tapahtumalle ''B'' ehdolla ''A'' (merkitään P(B{{!}}A)). Näiden kahden ehdollisen todennäköisyyden välillä on kuitenkin suhde, jota Bayesin teoreema kuvaa. Teoreema kuuluu seuraavasti:


Tapahtuman ''A'' todennäköisyys ehdolla ''B'' (merkitään P(A|B)) on yleisessä tapauksessa eri asia kuin todennäköisyys tapahtumalle ''B'' ehdolla ''A'' (merkitään P(B|A)). Näiden kahden ehdollisen todennäköisyyden välillä on kuitenkin suhde, jota Bayesin teoreema kuvaa. Teoreema kuuluu seuraavasti:
:<math>P(B | A) = \frac{P(A | B)\;P(B)}{P(A)}\!</math>
 
:<math>P(B \mid A) = \frac{P(A \mid B)\;P(B)}{P(A)}\!</math>


missä
missä
Rivi 118: Rivi 116:
* <math>P(B \mid A)</math> on ''B'':n todennäköisyys ehdolla ''A''.
* <math>P(B \mid A)</math> on ''B'':n todennäköisyys ehdolla ''A''.
* <math>P(B)\,</math> on B:n priori-todennäköisyys.
* <math>P(B)\,</math> on B:n priori-todennäköisyys.
}}


==== Vertailevaa kommentointia ====
==== Vertailevaa kommentointia ====
Rivi 128: Rivi 127:


Asetelma on siis sellainen, että lähtökohdaksi otetaan P(''A''):n, P(''B''|''A''):n ja P(''B''):n arvot ja näistä lasketaan P(''A''|''B'').<ref>Vaikka tässä artikkelissa keskitytäänkin tietynlaisiin sovelluksiin, itse kaavaa voi käyttää todennäköisyyksiä laskettaessa aina, kun lähtökohdiksi tarvitut tiedot ovat käytettävissä. Noppaesimerkki: Jos tiedetään, että P(parillinen) = <math>\tfrac{3}{6}</math>, P(kolmella jaollinen) = <math>\tfrac{2}{6}</math> ja P(parillinen|kolmella jaollinen) = <math>\tfrac{1}{2}</math>, niin P(kolmella jaollinen|parillinen) = <math>\frac{\tfrac{1}{2} \cdot \tfrac{2}{6}}{\tfrac{3}{6}} = \tfrac{1}{3}</math>.</ref> Yleensä siis kiinnostuksen kohteena ovat tässä A:n todennäköisyydet, ja siksi juuri niitä sanotaan '''prioritodennäköisyydeksi''' (P(A)) ja '''posterioritodennäköisyydeksi''' (P(A|B)). Nämä nimitykset taas saavat selityksensä siitä, että ajatellaan tilannetta, jossa ensin A:n todennäköisyys on P(A), sitten B tapahtuu (tai havaitaan tapahtuneeksi), ja tämän havainnon perusteella tarkennetaan käsitystä A:n todennäköisyydestä, jolloin sen uudeksi arvoksi B:n tapahtumisen huomioonottamisen jälkeen saadaan P(A|B). P(A) siis kuvaa alkuperäistodennäköisyyttä (todennäköisyyttä ''a priori'') ja P(A|B) puolestaan jälkikäteistodennäköisyyttä (todennäköisyyttä ''a posteriori'').<ref>Noppaesimerkki: Tilanteessa, jossa noppaa on heitetty, mutta heiton tuloksesta ei ole mitään tietoa, kolmella jaollisen tuloksen todennäköisyys on <math>\tfrac{2}{6}=\tfrac{1}{3}</math> ja tilanteessa, jossa tiedetään, että heittotulos on parillinen, kolmella jaollisen tuloksen todennäköisyys on edellälasketun mukaisesti edelleenkin <math>\tfrac{1}{3}</math>. Tämä johtuu siitä, että parillisuus ja kolmella jaollisuus ovat noppanheittotulosten toisistaan riippumattomia ominaisuuksia. Jos kuitenkin tiedettäisiinkin tuloksen olevan neljällä jaollinen, voitaisiin päätellä, että kolmella jaollisuuden posterioritodennäköisyys putosi nollaan &ndash; eihän (kuutio)nopan silmäluku voi olla yhtäaikaa jaollinen sekä 3:lla että 4:llä. Bayesin säännön lausekkeesta voi helposti nähdä, että jos P(B|A) = 0, niin myös P(A|B) = 0.</ref>
Asetelma on siis sellainen, että lähtökohdaksi otetaan P(''A''):n, P(''B''|''A''):n ja P(''B''):n arvot ja näistä lasketaan P(''A''|''B'').<ref>Vaikka tässä artikkelissa keskitytäänkin tietynlaisiin sovelluksiin, itse kaavaa voi käyttää todennäköisyyksiä laskettaessa aina, kun lähtökohdiksi tarvitut tiedot ovat käytettävissä. Noppaesimerkki: Jos tiedetään, että P(parillinen) = <math>\tfrac{3}{6}</math>, P(kolmella jaollinen) = <math>\tfrac{2}{6}</math> ja P(parillinen|kolmella jaollinen) = <math>\tfrac{1}{2}</math>, niin P(kolmella jaollinen|parillinen) = <math>\frac{\tfrac{1}{2} \cdot \tfrac{2}{6}}{\tfrac{3}{6}} = \tfrac{1}{3}</math>.</ref> Yleensä siis kiinnostuksen kohteena ovat tässä A:n todennäköisyydet, ja siksi juuri niitä sanotaan '''prioritodennäköisyydeksi''' (P(A)) ja '''posterioritodennäköisyydeksi''' (P(A|B)). Nämä nimitykset taas saavat selityksensä siitä, että ajatellaan tilannetta, jossa ensin A:n todennäköisyys on P(A), sitten B tapahtuu (tai havaitaan tapahtuneeksi), ja tämän havainnon perusteella tarkennetaan käsitystä A:n todennäköisyydestä, jolloin sen uudeksi arvoksi B:n tapahtumisen huomioonottamisen jälkeen saadaan P(A|B). P(A) siis kuvaa alkuperäistodennäköisyyttä (todennäköisyyttä ''a priori'') ja P(A|B) puolestaan jälkikäteistodennäköisyyttä (todennäköisyyttä ''a posteriori'').<ref>Noppaesimerkki: Tilanteessa, jossa noppaa on heitetty, mutta heiton tuloksesta ei ole mitään tietoa, kolmella jaollisen tuloksen todennäköisyys on <math>\tfrac{2}{6}=\tfrac{1}{3}</math> ja tilanteessa, jossa tiedetään, että heittotulos on parillinen, kolmella jaollisen tuloksen todennäköisyys on edellälasketun mukaisesti edelleenkin <math>\tfrac{1}{3}</math>. Tämä johtuu siitä, että parillisuus ja kolmella jaollisuus ovat noppanheittotulosten toisistaan riippumattomia ominaisuuksia. Jos kuitenkin tiedettäisiinkin tuloksen olevan neljällä jaollinen, voitaisiin päätellä, että kolmella jaollisuuden posterioritodennäköisyys putosi nollaan &ndash; eihän (kuutio)nopan silmäluku voi olla yhtäaikaa jaollinen sekä 3:lla että 4:llä. Bayesin säännön lausekkeesta voi helposti nähdä, että jos P(B|A) = 0, niin myös P(A|B) = 0.</ref>


=== Bayesin kaava selityksineen ===
=== Bayesin kaava selityksineen ===
Rivi 141: Rivi 139:
* <math>P(B)\!</math> on ''B'':n priori- eli marginaalitodennäköisyys. P(B) toimii Bayesin säännön ''normalisointi-'' eli ''skaalausvakiona''<ref>''B'' on Bayesin sääntöä sovellettaessa vakio siinä mielessä, että '''vertailevassa hypoteesitestauksessa''', jossa yhden "''A''":n sijasta tarkastellaankin useampia hypoteeseja rinnakkain ja sovelletaan Bayesin sääntöä kuhunkin niistä erikseen, kaikki ''A'':n sisältävät lausekkeet riippuvat kulloisestakin hypoteesista mutta P(B) (kaavan ainoa lauseke, joka ei sisällä ''A'':ta) pysyy vakiona hypoteesista riippumatta. Näin ollen hypoteesien keskinäisissä uskottavuusvertailuissa P(B):n voi jättää huomiottakin (eli vertailla pelkkien <math>P(B|A) \cdot P(A)</math> -tyyppisten lausekkeiden arvoja), mutta jos vertailuarvot halutaan pitää todennäköisyyksinä eikä pelkkinä "suurempi on parempi" -vertailulukuina, ne on normalisoitava eli skaalattava P(B):llä jakamalla. &ndash; Todennäköisyytenä P(B) on aina suljetulla reaalilukuvälillä [0,1], ja jotta sitä voisi käyttää Bayesin kaavan mukaisella tavalla, sen arvo ei saa olla tasan 0, kuten englanninkielinen Wikipedia edellä toteaakin.</ref>. ''B'':tä kutsutaan joskus havainnoksi, ja Bayesin teoreeman tyypillinen käyttötapa lähtee siitä, että ''B'':n on havaittu tapahtuneen tai olevan voimassa ja että nyt halutaan tietää, miten tämän seikan huomioon ottaminen vaikuttaa ''A'':n todennäköisyyteen eli miten ''A'':n prioritodennäköisyys ''B'':tä koskevan informaation huomioonottamisen myötä päivittyy ''A'':n posterioritodennäköisyydeksi.
* <math>P(B)\!</math> on ''B'':n priori- eli marginaalitodennäköisyys. P(B) toimii Bayesin säännön ''normalisointi-'' eli ''skaalausvakiona''<ref>''B'' on Bayesin sääntöä sovellettaessa vakio siinä mielessä, että '''vertailevassa hypoteesitestauksessa''', jossa yhden "''A''":n sijasta tarkastellaankin useampia hypoteeseja rinnakkain ja sovelletaan Bayesin sääntöä kuhunkin niistä erikseen, kaikki ''A'':n sisältävät lausekkeet riippuvat kulloisestakin hypoteesista mutta P(B) (kaavan ainoa lauseke, joka ei sisällä ''A'':ta) pysyy vakiona hypoteesista riippumatta. Näin ollen hypoteesien keskinäisissä uskottavuusvertailuissa P(B):n voi jättää huomiottakin (eli vertailla pelkkien <math>P(B|A) \cdot P(A)</math> -tyyppisten lausekkeiden arvoja), mutta jos vertailuarvot halutaan pitää todennäköisyyksinä eikä pelkkinä "suurempi on parempi" -vertailulukuina, ne on normalisoitava eli skaalattava P(B):llä jakamalla. &ndash; Todennäköisyytenä P(B) on aina suljetulla reaalilukuvälillä [0,1], ja jotta sitä voisi käyttää Bayesin kaavan mukaisella tavalla, sen arvo ei saa olla tasan 0, kuten englanninkielinen Wikipedia edellä toteaakin.</ref>. ''B'':tä kutsutaan joskus havainnoksi, ja Bayesin teoreeman tyypillinen käyttötapa lähtee siitä, että ''B'':n on havaittu tapahtuneen tai olevan voimassa ja että nyt halutaan tietää, miten tämän seikan huomioon ottaminen vaikuttaa ''A'':n todennäköisyyteen eli miten ''A'':n prioritodennäköisyys ''B'':tä koskevan informaation huomioonottamisen myötä päivittyy ''A'':n posterioritodennäköisyydeksi.


'''Marginaalitodennäköisyyksistä''' puhuminen liittyy ajatukseen, että nämä todennäköisyydet summaavat kyseisten tapahtumien todennäköisyydet kaikkien tilanteiden "yli": kun mitään lisäinformaatiota ei käytetä näiden todennäköisyyksien laskemiseen, mitään vaihtoehtoja ei ole suljettu niistä pois. Taulukkomuotoisissa esityksissä nämä arvot saadaan ristiintaulukoitujen yhteistapahtumien todennäköisyyksien summina taulukon reunoihin eli marginaaleihin. Tätä toimenpidettä<ref>ja sen tulosten jatkokäyttöä &ndash; esim. sillä tavoin havaintoaineistosta lasketun jonkin tapahtuman suhteellisen frekvenssin arvon käyttöä kyseisen tapahtuman todennäköisyyden arviona eli estimaattina tai jonkin muuttujan vaikutuksen eliminointia yhdistämällä sen eri arvoilla saadut havaintotulokset ja poistamalla kyseinen muuttuja huomioon otettavien selitystekijöiden joukosta</ref> sanotaan ''marginalisoinniksi''.
'''Marginaalitodennäköisyyksistä''' puhuminen liittyy ajatukseen, että nämä todennäköisyydet summaavat kyseisten tapahtumien todennäköisyydet kaikkien vaihtoehtoisten tilanteiden "yli": kun mitään lisäinformaatiota ei käytetä näiden todennäköisyyksien laskemiseen, mitään vaihtoehtoja ei ole suljettu niistä pois. Taulukkomuotoisissa esityksissä nämä arvot saadaan ristiintaulukoitujen yhteistapahtumien todennäköisyyksien summina taulukon reunoihin eli marginaaleihin. Tätä toimenpidettä<ref>ja sen tulosten jatkokäyttöä &ndash; esim. sillä tavoin havaintoaineistosta lasketun jonkin tapahtuman suhteellisen frekvenssin arvon käyttöä kyseisen tapahtuman todennäköisyyden arviona eli estimaattina tai jonkin muuttujan vaikutuksen eliminointia yhdistämällä sen eri arvoilla saadut havaintotulokset ja poistamalla kyseinen muuttuja huomioon otettavien selitystekijöiden joukosta</ref> sanotaan ''marginalisoinniksi''.


==Bayesin teoreeman asema==


==Bayesin teoreeman asema==
Bayesilainen tilastoteoria, joka siis perustuu yo. teoreeman käyttöön, on yksi tilastomatematiikan pääsuuntauksista. Muita tapoja ovat [[wp:Ronald Fisher|fisheriläinen]] ja [[wp:Karl Pearson|pearsonilainen]] lähestymistapa.


Bayesilainen tilastoteoria, joka siis perustuu yo. teoreeman käyttöön, on yksi tilastotieteen matematiikan suuntauksesta. Muita tapoja ovat fisheriläinen ja pearsonilainen lähestymistapa.
Bayes-päättelyt perustuvat suoraviivaisesti todennäköisyyslaskennan perusyhtälöihin<ref>eli perusidentiteetteihin</ref> (ks. alla). Itse teoreema on siis hyvin varmasti oikein.<ref>Ellei Bayesin teoreema pätisi, kaikkien tilastomatematiikan haarojen tarvitseman todennäköisyyslaskennan perusteet kyseenalaistuisivat kokonaisuudessaankin – tämä ei siis ensinkään vahvistaisi kilpailevien lähestymistapojenkaan uskottavuutta vaan päinvastoin söisi sitäkin.</ref> Kiistanalaiseksi jääkin lähinnä kysymys siitä, paljonko teoreemaa käyttäen saataviin tuloksiin on luottamista, kun ottaa huomioon, että laskuissa käytettävää priori-todennäköisyyttä<ref>johdatteluesimerkeissä siis avaamattomien pakettien keksimääriä</ref> ei välttämättä tiedetä, joten on mahdollista syyttää Bayesin kaavaan kulloinkin sijoitettuja lähtöarvoja "hatusta vedetyiksi" ja väittää saatuja tuloksiakin näin ollen arvottomiksi.<ref>Englanniksi tämäntyyppinen kritiikki on ilmaistavissa ytimekkäästi: ''"garbage in, garbage out."''</ref>


Bayesilaisen tavan vahvuus on sen suora johto todennäköisyyslaskennan perusidentiteeteistä (ks. alla). Voidaan sanoa, että teoreema on hyvin varmasti oikein. Kysymys koskee lähinnä sitä, pitäisikö teoreemaa käyttää koska priori-todennäköisyyttä ei välttämättä tiedetä. Näin keskustelu palautuu todennäköisyyden käsitteeseen:
Näin tilastomatematiikan suuntausten välinen perustekeskustelu (tai -väittely) ei koske (kaikkien tunnustaman) Bayesin laskukaavan matemaattista pätevyyttä sinänsä vaan palautuu viime kädessä matematiikan soveltamiseen liittyviin ''taustafilosofisiin kysymyksiin'' ja näistä ennen muuta ''todennäköisyyden käsitteeseen'':
*Bayesilaiset ovat tyypillisesti episteemisen todennäköisyyskäsityksen kannattajia, jossa todennäköisyys kuvaa henkilön uskomuksen ja siten tiedon astetta.
* ''Bayesiläiset'' kannattavat tyypillisesti ''episteemistä todennäköisyyskäsitystä'', jonka mukaan todennäköisyys-käsite ilmaisee henkilön<ref>viime kädessä kenen hyvänsä tarkemmin määrittelemättömän mutta tarkasti ja johdonmukaisesti päättelevän ja tällä tavoin kunkinhetkisiä näkemyksiään jatkuvasti arvioivan ja tarvittaessa päivittävän älyllisen agentin</ref> uskomuksen astetta<ref>siis sitä, missä määrin hän "kallistaa korvaansa" tietynsisältöisen väitteen suuntaan</ref> tai hänen tietonsa varmuusastetta<ref>siis sitä, miten hyvät perusteet hän pystyy tietyssä tilanteessa esittämään senhetkisen kantansa eli sillä hetkellä käytettävissään olevan informaation perusteella uskottavimmaksi arvioimansa vaihtoehdon puolesta</ref>.
*Frekventistisessä eli otoksien suhteellisiin määriin perustuvassa todennäköisyyskäsityksessä todennäköisyyksien ajatellaan kuvaavan toistokokeiden suhteellisia määriä. Ongelmaksi muodostuu, että yleensä meillä ei ole tarpeeksi toistokokeita. Tämän käsityksen ajateltiin olevan objektiivinen, mutta käytännössä, koska ääretöntä sarjaa toistokokeita ei ole oikeastaan missään tilanteessa, käsityksen käyttäjä olettaa usein itseltäänkin 'piilossa' asioita.
* ''Frekventistisessä'' eli otoksien suhteellisiin määriin perustuvassa todennäköisyyskäsityksessä todennäköisyyksien ajatellaan kuvaavan toistokoetulosten suhteellisia määriä. Tämä perustuu eräänlaiseen todennäköisyyskäsitteestä tehtyyn käänteispäättelyyn:
*# Jos jossain tilanteessa tietynlainen todennäköisyysjakauma on "oikeasti voimassa", toistokokeiden tulosten suhteelliset frekvenssit (tietyn tuloksen antaneiden kokeiden lukumäärät tehtyjen toistojen kokonaislukumäärällä jaettuina) lähestyvät asymptoottisesti kyseisten tulosten kaiken aikaa voimassaolevia todennäköisyyksiä (ns. suurten lukujen laki); tämä on Kantin terminologiassa "analyyttinen totuus ''a priori''" eli käsitemääritelmistä johdettavissa oleva välttämätön järjen päätelmä.
*# Frekventistinen todennäköisyysfilosofia tarttuu tähän analyyttis-deduktiivis-aprioriseen totuuteen ja käyttää sitä käänteisesti, empiiris-induktiivis-aposteriorisesti: "Tietyn tapahtuman todennäköisyys tietyssä tilanteessa on tämän tapahtuman sattumisen suhteellisen frekvenssin raja-arvo tässä tilanteessa tehdyssä rajoittamattoman pitkässä toistokoe- tai havaintosarjassa."
* Frekventistisen tulkinnan ongelmaksi muodostuu, että yleensä käytettävissä ei kuitenkaan ole tarpeeksi toistokoetuloksia,<ref>Joissain fysikaalisissa mittauksissa toistoja voi katsoa saatavan frekventismin tarpeisiin riittävästi, esim. "[[wp:Youngin_kaksoisrakokoe|kapean raon kokeessa]]" valoherkkään pintaan osuneet fotonit muodostavat kuvion, jonka avulla niiden noudattama todennäköisyysjakauma on vakuuttavasti määritettävissä. Useissa muissa yhteyksissä tutkijoiden käytettävissä on kuitenkin vain hyvin rajallinen havaintomäärä, jonka sisältämää informaatiota tulisi sitten mahdollisimman hyvin hyödyntää.</ref> joten frekventistit joutuvat puhumaan pikemminkin siitä, miten asioiden "tulisi olla" kuin siitä, miten ne ovat.<ref>"Olettaen, että toistojen lisääminen ei olisi muuttanut tilannetta, 'oikeat todennäköisyydet' ovat samat kuin käytettävissämme nyt olevat havaintotulosten suhteelliset frekvenssit, joita olemme käyttäneet näiden todennäköisyyksien estimaatteina. Siinä tapauksessa tilanteessa, jossa toistoja olisi jatkettu niin kauan, että suhteellisten frekvenssien raja-arvot olisivat olleet riittävällä tarkkuudella riittävän luotettavasti määritettävissä, saadut raja-arvot eli tapahtumien 'oikeat todennäköisyydet' olisivat olleet samat kuin nämä estimaattimme; valitettavasti emme ole nyt sellaisessa tilanteessa emmekä voi siihen päästäkään, mutta oletetaanpa sentään yhtä kaikki, että käytettävissämme nyt olevat estimaatit eivät liiaksi poikkea 'oikeista todennäköisyyksistä', ja jatketaan laskemista siltä pohjalta; muutenhan emme saisi mitään tuloksia. Voimmehan sitä paitsi laskea todennäköisyyksiä sille, että todellinen tilanne on ainakin melko lähellä saamiamme tuloksia ja ilmoittaa raporteissamme myös näiden laskelmiemme arvot; sittenhän vastuu siirtyykin lukijalle, joka päättäköön, mihin ja miten näitä tuloksia käyttää."</ref> Vaikka tämän käsityksen ajateltiinkin olevan objektiivinen, niin käytännössä, koska ääretöntä sarjaa toistokokeita ei ole oikeastaan missään tilanteessa<ref>ja asymptoottiarvioihin riittäviä toistosarjojakin vain hyvin harvoin</ref>, siihen pitäytyminen johtaa asianomaiset usein tiedostamattaankin olettamaan asioita, joita he eivät omien kriteeriensä puitteissa pysty mitenkään varmistamaan.<ref>Näitä vaihtoehtoja voi havainnollistaa [[wp:Juice Leskinen|Juice Leskisen]] sanoin: "Älä usko poliitikkoa: hän luulee tietävänsä; älä usko tiedemiestä: hän tietää luulevansa." Tässä tapauksessa frekventistit siis vastaavat suunnilleen Juicen "poliitikkoa" ja bayesiläiset puolestaan "tiedemiestä".</ref>


Episteeminen todennäköisyys voidaan usein arvioida välttävällä tavalla, joten priori-ongelma ei usein ole merkittävä. Priorin valintaan ei kuitenkaan ole yhtä oikeaa tapaa. Tarkoitus olisi, että priori kuvaa henkilön tietämyksen tilaa, mutta tietämyksen esittäminen matemaattisesti ei ole ongelmatonta. Matemaattiset menetelmät esittää tämä tietämys ovat usein merkittävästi riippuvaisia tehdyistä valinnoista eivätkä yleensä ole parametrisoinnista riippumattomia. Riittävän oikealla priorilla saadaan kuitenkin yleensä riittävän oikeita tuloksia ja yleensä havaintojen kasvaessa priorin merkitys vähenee nopeasti. Järkevien priorivalintojen vaikutusta lopputulokseen voidaan myös arvioida. Voidaankin argumentoida, että priori-ongelma ei ole ongelma, vaan rehellistä oman rajallisuutemme myöntämistä. Yksi Bayeläisen päättelyn vahvuuksista onkin se, että tehdyt oletukset ovat paremmin esillä eivätkä piilossa alan keittokirjamaisten päättelyreseptien takana.
Koska episteeminen todennäköisyys on luonteeltaan "vaatimattomampi" kuin frekventistinen, sitä voidaan usein ainakin välttävästi arvioida, joten priori-ongelma ei usein ole merkittävä. Priorin valintaan ei kuitenkaan ole yhtä oikeaa tapaa. Tarkoitus olisi, että priori kuvaa henkilön tietämyksen tilaa, mutta tietämyksen esittäminen matemaattisesti ei ole ongelmatonta. Matemaattiset tietämyksenesittämismenetelmät ovat usein merkittävästi riippuvaisia mm. tutkimusjärjestelyjen suhteen tehdyistä valinnoista eivätkä yleensä ole parametrisoinnista riippumattomia. Riittävän oikealla priorilla saadaan kuitenkin yleensä riittävän oikeita tuloksia, ja yleensä havaintojen kasvaessa priorin merkitys vähenee nopeasti.<!-- <ref>Siis laskentatulokset riippuvat suhteessa yhä enemmän <math>P(A|B) = \frac{P(B | A)\, P(A)}{P(B)}\,\! </math> ja vastaavasti suhteessa vähemmän <math>P(A)</math>:sta.</ref> --> Järkevien priorivalintojen vaikutusta lopputulokseen voidaan myös arvioida. Voidaankin argumentoida, että priori-ongelma ei ole ongelma, vaan rehellistä oman rajallisuutemme myöntämistä. Yksi bayesiläisen päättelyn vahvuuksista onkin se, että tehdyt oletukset ovat paremmin esillä eivätkä piilossa alan keittokirjamaisten päättelyreseptien takana.


Ehkä merkittävin puute bayesilaisessa hypoteesitestauksessa on se, että sillä voidaan vain vertailla olemassaolevia hypoteeseja keskenään. Yhtä teoriaa ei voida arvioita. Käytännössä jopa bayesilaisen hypoteesitestauksen tiukimmat puolestapuhujat kuten Jaynes vetoavat Fisherin hypoteesitestauksen kaltaisiin kriteereihin kun tilanteissa joissa on tarve miettiä pitäisikö etsiä jotain parempaa teoriaa.
Ehkä merkittävin puute bayesiläisessa hypoteesitestauksessa on se, että sillä voidaan vain vertailla olemassaolevia hypoteeseja keskenään. Yhtä teoriaa ei voida arvioida. Käytännössä jopa bayesilaisen hypoteesitestauksen tiukimmat puolestapuhujat kuten Jaynes vetoavat Fisherin hypoteesitestauksen kaltaisiin kriteereihin tilanteissa, joissa on tarve miettiä että pitäisikö etsiä jotain parempaa teoriaa.


Ongelmistaan huolimatta bayesilainen tapa tarjoaa hyvin perustellun, systemaattisen ja todennäköisyyksiin perustuvan tavan arvioida argumentteja. Siihen on sisäänrakennettuna useimmat olennaiset tieteenfilosofiset teorianvalinnan kriteerit. Bayesin teoreema voidaan laajentaa väittämien välisten uskomusverkkojen systemaattiseen analyysiin (Bayes nets), joka sopii hyvin maailmankatsomusten analyysiin.  
Ongelmistaan huolimatta bayesilainen tapa tarjoaa hyvin perustellun, systemaattisen ja todennäköisyyksiin perustuvan tavan arvioida argumentteja. Siihen on sisäänrakennettuna useimmat olennaiset tieteenfilosofiset teorianvalinnan kriteerit. Bayesin teoreema voidaan laajentaa väittämien välisten uskomusverkkojen systemaattiseen analyysiin (Bayes nets), joka sopii hyvin maailmankatsomusten analyysiin.  


Huomattavimpia Bayesin teoreemaa käyttäviä kristittyjä filosofeja on Richard Swinburne. Teoksessaan The Existence of God Swinburne käy läpi mm. pahan ongelman, uskonnolliset kokemukset ja Jeesuksen ylösnousemuksen todisteet ja päätyy siihen että käsitellyn evidenssin pohjalta kristinusko on vähintään 95% todennäköisyydellä totta.
Huomattavimpia Bayesin teoreemaa käyttäviä kristittyjä filosofeja on Richard Swinburne. Teoksessaan The Existence of God Swinburne käy läpi mm. kosmologisen ja teleologisen argumentin, [[pahan ongelma]]n, uskonnolliset kokemukset ja [[Jeesuksen ylösnousemus|Jeesuksen ylösnousemuksen todisteet]] ja päätyy siihen, että käsitellyn evidenssin pohjalta Jumalan olemassaolo on todennäköisempää kuin ei.


==Bayeslainen tulkinta suunnitteluteoriasta==
==Bayesilainen tulkinta suunnitteluteoriasta==
Usein tietty tilastollinen ongelma voidaan ilmaista useamman tilastollisen paradigman alla. Useimmiten Bayeslainen tapa näyttäisi olevan tarkin ja sen käytön rajat ovat selvemmin nähtävillä koska tehdyt oletukset ovat selvemmin nähtävillä. Myös [[suunnitteluteoria]] on esitettävissä bayesilaisessa muodossa. Tietyssä mielessä se, että päättely voidaan ilmaista useammalla tavalla, viittaa päättelyn luotettavuuteen koska tuolloin päättely ei ole riippuvainen valitusta paradigmasta.
Usein tietty tilastollinen ongelma voidaan ilmaista useamman tilastollisen paradigman alla. Useimmiten Bayesilainen tapa näyttäisi olevan tarkin ja sen käytön rajat ovat selvemmin nähtävillä koska tehdyt oletukset ovat selvemmin nähtävillä. Myös [[suunnitteluteoria]] on esitettävissä bayesilaisessa muodossa. Tietyssä mielessä se, että päättely voidaan ilmaista useammalla tavalla, viittaa päättelyn luotettavuuteen koska tuolloin päättely ei ole riippuvainen valitusta paradigmasta.


Dembskin Fisheriläisessä [[suunnitteluteoria#täsmennetty monimutkaisuus|suunnittelupäättelyssä]] on siis kolme pääkohtaa:
Dembskin Fisheriläisessä [[suunnitteluteoria#täsmennetty monimutkaisuus|suunnittelupäättelyssä]] on siis kolme pääkohtaa:
Rivi 168: Rivi 170:
#Täsmennys
#Täsmennys


Bayeslaisessa tulkinnassa kohdat 1. ja 2. tarkoittavat että ei-mielivaltaisille naturalistisille hypoteeseille tarkasteltavana oleva asia on epätodennäköinen. Kohta 3 taas tarkoittaa sitä, että suunnittelija-hypoteesin ennuste asialle on korkea. Esimerkiksi palautumattomasti monimutkaisten asioiden kohdalla evoluutioteoreettinen ennuste on paljon tasaista jakaumaa alempana, koska on erittäin epätodennäköistä että näiden systeemien välivaiheet olisivat elinkelpoisia (kohdat 1 ja 2). Koska näitä rakenteita voidaan täsmentää (analogia ihmisen suunnittelemien rakenteiden kanssa, monen osan systeemit tyypillisiä suunnittelijoille, toimiva kone jolla jokin tarkoitus(teleonomia)), suunnittelyhypoteesin ennuste palautumattoman monimutkaiselle rakenteelle on paljon tasaista jakaumaa korkeampi. Näin suunnittelu on paljon evoluutioteoriaa todennäköisempi selitys näille rakenteille.
Bayesilaisessa tulkinnassa kohdat 1. ja 2. tarkoittavat että ei-mielivaltaisille naturalistisille hypoteeseille tarkasteltavana oleva asia on epätodennäköinen. Kohta 3 taas tarkoittaa sitä, että suunnittelija-hypoteesin ennuste asialle on korkea. Esimerkiksi palautumattomasti monimutkaisten asioiden kohdalla evoluutioteoreettinen ennuste on paljon tasaista jakaumaa alempana, koska on erittäin epätodennäköistä että näiden systeemien välivaiheet olisivat elinkelpoisia (kohdat 1 ja 2). Koska näitä rakenteita voidaan täsmentää (analogia ihmisen suunnittelemien rakenteiden kanssa, monen osan systeemit tyypillisiä suunnittelijoille, toimiva kone jolla jokin tarkoitus(teleonomia)), suunnittelyhypoteesin ennuste palautumattoman monimutkaiselle rakenteelle on paljon tasaista jakaumaa korkeampi. Näin suunnittelu on paljon evoluutioteoriaa todennäköisempi selitys näille rakenteille.


Ylläolevan kolmen kohdan lisäksi Dembski tarkastelee toisaalta käytössä olevia resursseja ja toisaalta mahdollisten täsmennyksien määrää. Tämä on oikea intuitio Dembskiltä (ja samalla Fisheriläisen paradigman oikeansuuntainen korjaus), sillä Bayeslaisessa tulkinnassa nämä molemmat ovat sisäänrakennettuina evoluutioteorian ja suunnitteluhypoteesin ennusteiden normituksessa (todennäköisyyksien summa/integraali kaikkien mahdollisten tapausten yli on yksi).
Ylläolevan kolmen kohdan lisäksi Dembski tarkastelee toisaalta käytössä olevia resursseja ja toisaalta mahdollisten täsmennyksien määrää. Tämä on oikea intuitio Dembskiltä (ja samalla Fisheriläisen paradigman oikeansuuntainen korjaus), sillä Bayesilaisessa tulkinnassa nämä molemmat ovat sisäänrakennettuina evoluutioteorian ja suunnitteluhypoteesin ennusteiden normituksessa (todennäköisyyksien summa/integraali kaikkien mahdollisten tapausten yli on yksi).


===Bayesin teoreeman käytöstä suunnittelun alueella===
===Bayesin teoreeman käytöstä suunnittelun alueella===
Rivi 177: Rivi 179:
#Ennusteet suunnittelijan ja ihmisen samankaltaisuuksiin perustuen. (Analogia on yksi tieteellisen päättelyn yleisimpiä muotoja.)
#Ennusteet suunnittelijan ja ihmisen samankaltaisuuksiin perustuen. (Analogia on yksi tieteellisen päättelyn yleisimpiä muotoja.)
#Ennusteet yleisen tietoisen olennon ominaisuuden perusteella.  
#Ennusteet yleisen tietoisen olennon ominaisuuden perusteella.  
#Ennusteet jotka summataan kaikkien tietoisen olennon motiivien yli. Koska tässä todennäköisyysavaruuden dimensio ja tyyppi on erilainen kuin [[Kosminen_hienosäätö | fysikaalisten parametrien]] avaruus, se kuvautuu ei-tasaisena ennusteena fysikaalisten parametrien avaruuteen. Esimerkiksi, mikäli annamme 50% todennäköisyyden sille, että Suunnittelija (tässä tapuksessa siis Jumala) luo tietoisia havaitsijoita sallivan universumin, kutsutaan tätä universumin ominaisutta O, summaamalla O:n ja ei-O:n yli, saamme silti hyvin suuren ennusteen havaitsijat sallivalle universumille fysikaalisten parametrien avaruudessa verrattuna fysikaalisten parametrien avaruuden tasaiseen jakaumaan. Esimerkiksi [[Kosminen_hienosäätö | painovoiman voimakkuus]] on 1, kun kaikkien fysiikan voimien voimakkuudet ovat välillä 1 - 10<sup>40</sup>. Painovoima saa olla korkeintaan 3000-kertainen, jotta elämä on mahdollista. Näin todennäköisyys sille, että Jumala luo maailman, jossa painovoima on välillä 1-3000, on 0.5. Vastaavasti todenäköisyys saada painovoiman arvo elämän sallivalle välille puhtaan sattuman perusteella on noin välin 1-3000 pituus verrattuna koko skaalan pituuteen, eli noin 3000/10<sup>40</sup>=10<sup>-36</sup>. Jumala-selitys on siis noin 0.5/10<sup>-36</sup> ~ 5*10<sup>35</sup> eli melkein miljoona miljoona miljoona miljoona miljoona miljoonaa kertaa todennäköisempi kuin puhdas sattuma (ja siten teismi on tilapäisesti tämän verran ateismia todennäköisempi jo tämän argumentin perusteella).
#Ennusteet jotka summataan kaikkien tietoisen olennon motiivien yli. Koska tässä todennäköisyysavaruuden dimensio ja tyyppi on erilainen kuin [[Kosminen_hienosäätö | fysikaalisten parametrien]] avaruus, se kuvautuu ei-tasaisena ennusteena fysikaalisten parametrien avaruuteen. Esimerkiksi, mikäli annamme 50% todennäköisyyden sille, että Suunnittelija (esimerkiksi Jumala) luo tietoisia havaitsijoita sallivan universumin, kutsutaan tätä universumin ominaisutta O, summaamalla O:n ja ei-O:n yli, saamme silti hyvin suuren ennusteen havaitsijat sallivalle universumille fysikaalisten parametrien avaruudessa verrattuna fysikaalisten parametrien avaruuden tasaiseen jakaumaan. Esimerkiksi [[Kosminen_hienosäätö | painovoiman voimakkuus]] on 1, kun kaikkien fysiikan voimien voimakkuudet ovat välillä 1 - 10<sup>40</sup>. Painovoima saa olla korkeintaan 3000-kertainen, jotta elämä on mahdollista. Näin todennäköisyys sille, että Jumala luo maailman, jossa painovoima on välillä 1-3000, on 0.5. Vastaavasti todenäköisyys saada painovoiman arvo elämän sallivalle välille puhtaan sattuman perusteella on noin välin 1-3000 pituus verrattuna koko skaalan pituuteen, eli noin 3000/10<sup>40</sup>=10<sup>-36</sup>. Jumala-selitys on siis noin 0.5/10<sup>-36</sup> ~ 5*10<sup>35</sup> eli melkein miljoona miljoona miljoona miljoona miljoona miljoonaa kertaa todennäköisempi kuin puhdas sattuma (ja siten teismi on tilapäisesti tämän verran ateismia todennäköisempi jo tämän argumentin perusteella).


==Teoreeman johtaminen ehdollisesta todennäköisyydestä==  <!-- johtamista käsittelevä osa käännetty suoraan en-wikistä -->
==Teoreeman johtaminen ehdollisesta todennäköisyydestä==  <!-- johtamista käsittelevä osa käännetty suoraan en-wikistä -->
Rivi 209: Rivi 211:
==Viitteet==
==Viitteet==


{{Viitteet}}
{{Viitteet|sarakkeet}}


==Kirjallisuutta==
==Kirjallisuutta==
*E.T. Jaynes, [http://www.amazon.com/Probability-Theory-Logic-Science-Vol/dp/0521592712 Probability Theory, The Logic of Science], 2003, Cambridge University Press. (Jaynes väittää todistavansa enemmän kuin todistaa ja Jaynes oli puusilmäinen agnostikko, joka mm. väitti että Nasaretin olemassaolo on epätodennäköistä kun siitä ei ole todisteita (vaikka todisteita toki on ja vaikkei olisikaan Jaynesin päättely oli virheellistä, eikä se tässä noudattanut Bayesin teoreemaa), mutta Jaynesin bayesilaisen hypoteesitestauksen periaatteiden ja frekventististen menetelmien ongelmien käsittely on selkeää ja hyvää luettavaa. Kirjan vedosversio on ladattavissa http://bayes.wustl.edu/etj/prob/book.pdf)  
*E.T. Jaynes, [http://www.amazon.com/Probability-Theory-Logic-Science-Vol/dp/0521592712 Probability Theory, The Logic of Science], 2003, Cambridge University Press. (Jaynes väittää todistavansa enemmän kuin todistaa ja mm. väitti että Nasaretin kaupungin olemassaolo on epätodennäköistä kun siitä ei ole todisteita (vaikka todisteita toki on ja vaikkei olisikaan Jaynesin päättely oli virheellistä, eikä se tässä noudattanut Bayesin teoreemaa), mutta Jaynesin bayesilaisen hypoteesitestauksen periaatteiden ja frekventististen menetelmien ongelmien käsittely on selkeää ja hyvää luettavaa. Kirjan vedosversio on ladattavissa http://bayes.wustl.edu/etj/prob/book.pdf)  
*R. Swinburne, The Existence of God, 2. painos, 2004, Clarendon Press.
*R. Swinburne, The Existence of God, 2. painos, 2004, Clarendon Press.


[[Luokka:Tieteenfilosofia]]
[[Luokka:Tieteenfilosofia]]

Nykyinen versio 14. huhtikuuta 2017 kello 13.11

Bayesin teoreema (myös Bayesin sääntö tai Bayesin laki) on ehdolliseen todennäköisyyteen liittyvä teoreema. Teoreeman voidaan tulkita kuvaavan uskomusten päivittämistä uuden todisteaineiston valossa a posteriori. Teoreema on nimetty kehittäjänsä, 1700-luvulla eläneen brittiläisen pastorin ja matemaatikon Thomas Bayesin mukaan.

Bayes siis kehitti teoreemansa 1700-luvulla. Myöhemmin fisheriläinen tilastoteoria ja näennäisen objektiivinen frekventistinen todennäköisyyskäsitys saivat vallalla olevan paradigman aseman. Bayesiläisen analyysin kannattajat eivät juuri saaneet julkaisujaan läpi alan lehdissä, ja vasta noin 1980-luvulta alkaen Bayesin teoreema on taas saanut merkittävää tieteellistä jalansijaa ja päässyt tuottamaan useita selviä parannuksia tieteen tutkimusmenetelmiin. Teoreema on siis hyvä osoitus tieteellisten paradigmojen voimasta ja tieteen itseäänkorjaavuuden rajoista, vaikka kyse on maailmankatsomuksellisesti paljon neutraalimmasta asiasta kuin esimerkiksi evoluutioteorian valtaparadigman asema nykyään.


Teoreeman esittely[muokkaa]

Tarkoitus on esimerkkien avulla tutustuttaa lukija tarkasteltavien kysymysten luonteeseen. Jos perusajatus on jo tuttu, tämän osion voi hyvin ohittaa.

Esimerkki teoreemaan johtavasta järkeilystä[muokkaa]

Pertti pitää kekseistä, varsinkin kookoskekseistä. Eräänä päivänä hän on ostanut itselleen kaksi keksipakettia, ykköspaketissa on 40 kookoskeksiä, kakkospaketissa taas keksilajitelma, jossa on 10 kaurakeksiä, 10 kanelikeksiä, 10 suklaakeksiä ja 10 kookoskeksiä. Pertti avaa paketit ja keskittyy töihinsä, nappaa sitten puolihuolimattomasti keksin avoimesta paketista ja aikoo syödä sen saman tien, mutta tulee sitten ajatelleeksi, ettei ollenkaan tiedä, kummasta paketista keksi on peräisin. Koska älylliset pähkinät kiehtovat keksiä suljetussa kourassaan pitelevää Perttiä, hän rupeaa miettimään vaihtoehtoja asian selvittämiseksi:

  • Jos keksi on kaura-, kaneli- tai suklaakeksi, sen on pakko olla peräisin kakkospaketista, koska sellaisia ei ole ykköspaketissa.
  • Jos keksi onkin kookoskeksi, se voi olla peräisin kummasta paketista tahansa.

Pertti avaa kouransa ja toteaa keksin kookoskeksiksi. Siispä hän ei nyt tiedä, kummasta paketista se on peräisin. Asian voisi tietysti selvittää laskemalla jommankumman paketin keksit, nythän toisessa on 39, toisessa 40. Laiskana miehenä Pertti haluaa mieluummin laskea 39 keksiä kuin 40, niinpä hän päättää laskevansa sen paketin keksit, josta kädessä oleva kookoskeksi todennäköisemmin on peräisin. Voiko käytettävissä olevasta informaatiosta päätellä jotain tästä todennäköisyydestä?

Selvää siis on, että molemmat paketit ovat nyt mahdollisia vaihtoehtoja, mutta siitä ei ilmeisesti seuraa, että ne olisivat yhtä todennäköisiä. Jos ne nimittäin sitä olisivat, niin lajitelmapaketin muilla kuin kookoskekseillä ei olisi ollut mitään vaikutusta tilanteeseen liittyviin todennäköisyyksiin. Entä jos toisessa paketissa olisi ollut pelkkiä kookoskeksejä ja toisessa vain yksi kookoskeksi 39 muunlaisen keksin seassa? Ilmeisestikään todennäköisyys tämän keksin satunnaiselle sormiin osumiselle ei ole sama kuin kookoskeksipaketin tarkemmin yksilöimättömän keksin saamistodennäköisyys.

Ei siis ole kovinkaan vaikeaa päätellä, että ykköspaketti on todennäköisempi: koska keksi poimittiin satunnaisesti ja kaikilla kekseillä oli alun perin oletettavasti yhtä suuri käteenosumistodennäköisyys1, niin jommastakummasta täydestä paketista valittu keksi on 0,5:n todennäköisyydellä ykköspaketin kookoskeksi2 mutta vain 0,125:n todennäköisyydellä kakkospaketin kookoskeksi3 (ja olisi ollut 0,375:n todennäköisyydellä kakkospaketin jokin muu kuin kookoskeksi4).

Vaikka Pertillä nyt siis onkin hyvä syy laskea pikemminkin ykkös- kuin kakkospaketin keksit, koko ajatus keksien laskemisesta rupeaa tässä vaiheessa kuitenkin tuntumaan turhan työläältä. Hän päättääkin, ettei laske keksejä, jos vain voi selvittää itselleen, kuinka todennäköistä tässä tilanteessa täsmällisesti ottaen on, että keksi on peräisin ykköspaketista.

  1. Koska ykköspaketista saadun kookoskeksin alkuperäistodennäköisyys siis on 0,5 (umpimähkäinen valinta kahdesta paketista, minkä jälkeen ykköspaketista nousee välttämättä juuri kookoskeksi) ja kakkospaketista saadun vastaavasti tasan neljäsosa siitä (taaskin umpimähkäinen paketinvalinta, minkä jälkeen 0,25:n todennäköisyys kookoskeksin saamiselle), vaikuttaa siltä, että ykköspaketin todennäköisyys on 0,5 / (0,5 + 0,125)5 = 0,5 / 0,625 = 0,8.
  2. Ajatusvauhtiin päästyään Pertti ei malta lopettaa tähän. Entäs, jos paketteja olisikin ollut kolme eikä kaksi? Jos hän olisikin ostanut kaksi kookoskeksipakettia ja yhden lajitelman, satunnainen kookoskeksi olisi saatu jommastakummasta kookoskeksipaketista todennäköisyydellä 2/3 / (2/3 + 1/3 * 1/4)6 = 2/3 / (8/12 + 1/12) = 2/3 / 9/12 = 2/3 / 3/4 = 8/9 = 0,888...
  3. Jos taas kookoskeksipaketteja olisikin ollut vain yksi ja lajitelmapaketteja kaksi, kookoskeksipaketin todennäköisyydeksi olisi jäänyt 1/3 / (1/3 + 2/3 * 1/4)7 = 1/3 / (2/6 + 1/6) = 1/3 / 3/6 = 1/3 / 1/2 = 2/3 = 0,666...
  4. Koska töiden jatkaminen ei jostain syystä Perttiä juuri nyt hirveästi kiinnosta, hän päättää miettiä asiaa vielä siltäkin kannalta, mitä vaikutusta todennäköisyyksiin olisi lajitelmapaketin koostumuksen muuttamisella: Jos puolet lajitelmapaketin kekseistä olisi ollut kookoskeksejä, niin kahden paketin tapauksessa kookoskeksipaketin todennäköisyys olisi ollut 1/2 / (1/2 + 1/2 * 1/2)8 = 1/2 / (2/4 + 1/4) = 1/2 / 3/4 = 4 / 6 = 2/3 = 0,666...
  5. Tilanteessa, jossa kookoskeksejä olisi ollut lajitelmasta vain joka kahdeksas, lukemat olisivat sen sijaan olleet 1/2 / (1/2 + 1/2 * 1/8)9 = 1/2 / (8/16 + 1/16) = 1/2 / 9/16 = 16/18 = 8/9 = 0,888...
    Kookoskeksipaketin todennäköisyys oli siis sitä suurempi, mitä suuremman osan ne muodostivat kaikista paketeista, mutta sitä pienempi, mitä suuremman osan kookoskeksit muodostivat lajitelmapaketin sisällöstä.
  6. Entäs sitten se tapaus, jossa pöydällä ei olisikaan kookoskeksipaketteja vaan ainoastaan erilaisia lajitelmapaketteja, vaikkapa sellainen, jossa kookoskeksejä oli puolet, ja sellainen, jossa niitä oli vain joka neljäs? Ensinmainitun paketin todennäköisyys saadun kookoskeksin alkuperänä olisi nyt 1/2 * 1/2 / (1/2 * 1/2 + 1/2 * 1/4)10 = 1/4 / (2/8 + 1/8) = 1/4 / 3/8 = 8/12 = 2/3 = 0,666...

Nyt Pertti kokee ahaa-elämyksen: näitä todennäköisyyksiä ei oikeastaan tarvitsekaan laskea erikseen järkeilemällä, vaan voi oikaista: tietynlaisen keksipaketin todennäköisyys saadun kookoskeksin alkuperäksi on ilmeisesti suoraan verrannollinen tällaisten pakettien suhteelliseen osuuteen kaikista paketeista ja kookoskeksien suhteelliseen osuuteen kyseisenlaisen paketin kekseistä11 mutta kääntäen verrannollinen kookoskeksin saamisen kokonaistodennäköisyyteen12.

Tämän ahaa-elämyksen tuloksen Pertti päättää kirjoittaa vastaisen varalta muistiin matemaattisena kaavana:

-merkinnän voi tässä lukea "todennäköisyys, että paketeista satunnaisesti poimittu kookoskeksi on peräisin ykköspaketista", vastaavasti "todennäköisyys, että ykköspaketista saadaan satunnaisesti kookoskeksi", : "todennäköisyys, että satunnaisesti napattu paketti on ykköspaketti", ja "todennäköisyys, että paketeista satunnaisesti poimittu keksi on kookoskeksi".

Tämän kaavan käyttöönotto muuttaa aiempien esimerkkitapausten laskennan rutiinitehtäväksi ja tekee uusienkin muunnelmien ratkaisemisen yhtä suoraviivaiseksi.


Teoreeman käyttö: esimerkkitapausten tarkastuslaskut[muokkaa]

Edellä päättelemällä saadut todennäköisyydet voi nyt laskea suoraan tähän kaavaan tehdyillä sijoituksilla. Seuraavassa numerointi vastaa edelläkäytettyä:

Kaikki esimerkit siis täsmäävät.


Toinen esimerkki teoreeman käytöstä[muokkaa]

Otetaan tarkastelun lähtökohdaksi taaskin Pertin kaksi keksipurkillista: ykköspurkissa on tällä kertaa 10 suklaakeksin lisäksi 30 kookoskeksiä, kakkospurkissa taas molempia laatuja 20 kappaletta. Esimerkkitapahtumat etenevät niin, että Pertti kopeloi taaskin sattumanvaraisesti käteensä toisen purkeista, nostaa siitä yhden keksin niin umpimähkäisesti, ettei jälkeenpäin enää itsekään tiedä, kummasta purkista se oli peräisin, mutta havaitsee saaneensa taaskin kookoskeksin. Millä todennäköisyydellä se nyt on peräisin ykköspurkista? Varmasti se on peräisin siitä purkista, jossa on nyt jäljellä vain 39 keksiä, mutta Pertti ei nytkään käy laskemaan keksimääriä vaan arvioi tilannetta vain edelläannetun informaation perusteella.

Intuitiivisesti on helppo nähdä, että koska kookoskeksejä on ykköspurkissa suhteellisesti(kin) enemmän kuin kakkospurkissa, ykköspurkki on tässä tapauksessa kakkospurkkia todennäköisempi.13 Bayesin teoreema täsmentää tämän summittaisen arvion antamalla tapahtuman tarkan todennäköisyyden:

on todennäköisyys sille, että Pertti oli tarttunut ykköspurkkiin siinä tapauksessa, että hän on poiminut purkistaan kookoskeksin. Juuri tämän todennäköisyyden haluamme siis selvittää:
on lähtötilanteessa vallinnut todennäköisyys, että lopulta Pertti saa sattumalta käteensä kookoskeksin. Koska jokaisella keksillä on alun perin yhtä suuri todennäköisyys päätyä lopuksi Pertin käteen, kookoskeksin saamistodennäköisyys vastaa kookoskeksien suhteellista osuutta kaikista purkeissa olevista kekseistä. Kookoskeksejä on ykköspurkissa 30 ja kakkospurkissa 20, yhteensä siis 50. Koska kummassakin purkissa on alun perin 40 keksiä, keksejä on kaikkiaan 80. Näin saadaan
on todennäköisyys, että Pertti tarttuu sattumanvaraisesti nimenomaan ykköspurkkiin. Kahdesta purkkivaihtoehdosta kumpikin on alun perin yhtä todennäköinen, joten tämä todennäköisyys on 0,5.
on todennäköisyys, että Pertti ykköspurkkiin tartuttuaan poimii siitä juuri kookoskeksin. Koska ykköspurkin kaikkiaan 40 keksistä tasan 30 on kookoskeksejä, saadaan todennäköisyydeksi

Kaiken tämän informaation avulla voimme nyt laskea todennäköisyyden sille, että Pertin valitsema kookoskeksi on peräisin juuri ykköspurkista:

Kysymys on siis siitä, että ykköspurkki on sitä todennäköisempi, mitä suurempi siinä on kookoskeksien osuus ja mitä todennäköisemmin se tuli sattumanvaraisesti valituksi, ja sitä epätodennäköisempi, mitä todennäköisemmin kookoskeksi saatiin "purkista riippumatta". Näiden seikkojen järkevyyden voi mielessään todeta vaikkapa seuraavilla ajatuskokeilla:

  1. Jos ykköspurkin kookoskeksipitoisuutta olisi alun perin lisätty, kookoskeksiin päätyminen olisi entisestään lisännyt ykköspurkin jälkikäteistodennäköisyyttä kakkospurkkiin verrattuna.
  2. Jos taas ykköspurkkiin olisikin lisätty suklaakeksejä, sen jälkikäteistodennäköisyys olisi nykyistä pienempi.
  3. Jos tarjolla olisi ollut kolmaskin purkki, ykköspurkin jälkikäteistodennäköisyys olisi nykyistä pienempi.
  4. Jos tarjolla olisi ollut vain ykköspurkki, sen "valinta" olisi nykyistä todennäköisempää (vrt. yksipuoluevaalit).
  5. Jos kakkospurkissa olisi ollut suhteessa nykyistä enemmän kookoskeksejä, ykköspurkkivaihtoehdon jälkikäteistodennäköisyys olisi nykyistä pienempi (koska kakkospurkin todennäköisyys olisi nykyistä suurempi); tässä tapauksessa myös kookoskeksin saamisen kokonaistodennäköisyys olisi kasvanut.
  6. Jos kakkospurkissa olisi ollut suhteessa nykyistä enemmän muita kuin kookoskekseja, ykköspurkkivaihtoehdon jälkikäteistodennäköisyys olisi nykyistä suurempi (koska kakkospurkin todennäköisyys olisi nykyistä pienempi); tällöin myös kookoskeksin saamisen kokonaistodennäköisyys olisi pienentynyt.


Bayesin kaavan rakenne[muokkaa]

Tässä osiossa pureudutaan kaavamuodossa esitetyn Bayesin teoreeman yksityiskohtiin.

Wikipedia-artikkelien vertailua14[muokkaa]

Bayesin teoreeman mielekkäiden käyttötapojen ymmärtämisen lähtökohtana on itse kaavan hahmottaminen. Tämä ei näköjään välttämättä ole kovinkaan helppoa, kuten seuraava esimerkkiparikin osoittanee.15

Englanninkielisen Wikipedia-artikkelin Simple statement of theorem -osio[muokkaa]

Bayes gave a special case involving continuous prior and posterior probability distributions and discrete probability distributions of data, but in its simplest setting involving only discrete distributions, Bayes' theorem relates the conditional and marginal probabilities of events A and B, where B has a non-vanishing probability:

.

Each term in Bayes' theorem has a conventional name:

Bayes' theorem in this form gives a mathematical representation of how the conditional probability of event A given B is related to the converse conditional probability of B given A.

Suomenkielisen Wikipedia-artikkelin Teoreeman esittely -osio[muokkaa]

Tapahtuman A todennäköisyys ehdolla B (merkitään P(A|B)) on yleisessä tapauksessa eri asia kuin todennäköisyys tapahtumalle B ehdolla A (merkitään P(B|A)). Näiden kahden ehdollisen todennäköisyyden välillä on kuitenkin suhde, jota Bayesin teoreema kuvaa. Teoreema kuuluu seuraavasti:

missä

  • on A:n priori-todennäköisyys. Se ei riipu B:stä (jota joskus kutsutaan havainnoksi).
  • on A:n todennäköisyys ehdolla B. Tätä kutsutaan myös posterioritodennäköisyydeksi.
  • on B:n todennäköisyys ehdolla A.
  • on B:n priori-todennäköisyys.


Vertailevaa kommentointia[muokkaa]

Huomataan, että näissä selosteissa kaavan rakenne on sinänsä sama, mutta suomenkielisessä versiossa A ja B ovat vaihtaneet paikkaa englanninkieliseen verrattuna. Tämä ei kuitenkaan näy merkintöjen selitteissä, vaan A:n priori- ja posterioritodennäköisyyksistä puhutaan kummassakin selitteessä samaan tapaan, aivan kuin olisi samantekevää, onko yhtälön vasemmalla puolella P(A|B) vaiko P(B|A). Todennäköisyyslaskennassahan siis tapahtuman A todennäköisyys ehdolla B on kuitenkin yleisesti eri asia kuin B ehdolla A.16 Näiden kahden ehdollisen todennäköisyyden välisen suhteen ja sitä kuvaavan Bayesin teoreeman ymmärtämisen kannalta on tärkeää ensinnäkin varmistua siitä, että kaavan kirjoitusasu ja sen osien selitteet vastaavat toisiaan.

Kuten matematiikassa yleensäkin, merkinnät voivat periaatteessa tarkoittaa, mitä niiden vain kulloinkin määritellään tarkoittavan, mutta toisaalta käytännössä kuitenkin tietyt merkintätavat vakiintuvat tiettyihin käyttöihin. Bayesin teoreeman luonteesta kyllä seuraa, että sekä että (mihin ne sitten kulloinkin viittasivatkin) voidaan joka tapauksessa ratkaista toistensa avulla. Siinä mielessä tilanne siis on symmetrinen. Bayesin kaavan hyöty tulee kuitenkin esiin nimenomaan epäsymmetrisissä tilanteissa, joissa toinen tapahtuma on havaittu, toisen todennäköisyyttä vain arvioidaan, ja samoin toinen ehdollinen todennäköisyys on tiedossa, toinen taas jää tällä kaavalla laskettavaksi. Siksi on järkevää antaa A:lle ja B:lle kaavaa kirjoitettaessa eri roolit: toinen kuvaa välittömästi havaittavaa asiaa, toinen ei.

Tämä epäsymmetria tuleekin esiin englanninkielisessä versiossa, jossa P(A|B):stä käytetään posterior probability -nimitystä, mutta P(B|A):sta ei. Vastaavasti P(B):n sanotaan toimivan normalisointivakiona, mutta P(A) ei sellaisena toimi. Näin siksi, että ideana on, että kaavan oikean puolen lausekkeessa olevat arvot ovat tunnettuja, mutta vasemman puolen lauseke, siis juuri tämä posterior probability, on etukäteen tuntematon.

Asetelma on siis sellainen, että lähtökohdaksi otetaan P(A):n, P(B|A):n ja P(B):n arvot ja näistä lasketaan P(A|B).17 Yleensä siis kiinnostuksen kohteena ovat tässä A:n todennäköisyydet, ja siksi juuri niitä sanotaan prioritodennäköisyydeksi (P(A)) ja posterioritodennäköisyydeksi (P(A|B)). Nämä nimitykset taas saavat selityksensä siitä, että ajatellaan tilannetta, jossa ensin A:n todennäköisyys on P(A), sitten B tapahtuu (tai havaitaan tapahtuneeksi), ja tämän havainnon perusteella tarkennetaan käsitystä A:n todennäköisyydestä, jolloin sen uudeksi arvoksi B:n tapahtumisen huomioonottamisen jälkeen saadaan P(A|B). P(A) siis kuvaa alkuperäistodennäköisyyttä (todennäköisyyttä a priori) ja P(A|B) puolestaan jälkikäteistodennäköisyyttä (todennäköisyyttä a posteriori).18

Bayesin kaava selityksineen[muokkaa]

Teoreeman perussisällön voi siis ilmaista seuraavalla kaavalla19:

  • on A:n priori- eli marginaalitodennäköisyys. Se on apriorinen siinä mielessä, että sen määrittämisessä ei oteta huomioon mitään B:hen liittyvää informaatiota.
  • on A:n todennäköisyys ehdolla B. Tätä kutsutaan myös posteriori-todennäköisyydeksi ja sen arvo halutaan Bayesin sääntöä soveltamalla selvittää.
  • on B:n todennäköisyys ehdolla A. Tämä todennäköisyys voidaan tietää tai arvioida siksi, että tyypillisessä tapauksessa A:n merkitys B:n kannalta on helpommin hahmotettavissa kuin B:n merkitys A:n kannalta. Keksiesimerkeissä pakettisisällöt olivat selvillä etukäteen, ja usein muulloinkin A on jonkinlainen jakaumahypoteesi tai muu laaja-alainen oletus, jonka voimassaollessa erilaisten tapahtumaskenaarioiden todennäköisyyksiä voidaan arvioida tai laskea varsin suoraviivaisesti.
  • on B:n priori- eli marginaalitodennäköisyys. P(B) toimii Bayesin säännön normalisointi- eli skaalausvakiona20. B:tä kutsutaan joskus havainnoksi, ja Bayesin teoreeman tyypillinen käyttötapa lähtee siitä, että B:n on havaittu tapahtuneen tai olevan voimassa ja että nyt halutaan tietää, miten tämän seikan huomioon ottaminen vaikuttaa A:n todennäköisyyteen eli miten A:n prioritodennäköisyys B:tä koskevan informaation huomioonottamisen myötä päivittyy A:n posterioritodennäköisyydeksi.

Marginaalitodennäköisyyksistä puhuminen liittyy ajatukseen, että nämä todennäköisyydet summaavat kyseisten tapahtumien todennäköisyydet kaikkien vaihtoehtoisten tilanteiden "yli": kun mitään lisäinformaatiota ei käytetä näiden todennäköisyyksien laskemiseen, mitään vaihtoehtoja ei ole suljettu niistä pois. Taulukkomuotoisissa esityksissä nämä arvot saadaan ristiintaulukoitujen yhteistapahtumien todennäköisyyksien summina taulukon reunoihin eli marginaaleihin. Tätä toimenpidettä21 sanotaan marginalisoinniksi.

Bayesin teoreeman asema[muokkaa]

Bayesilainen tilastoteoria, joka siis perustuu yo. teoreeman käyttöön, on yksi tilastomatematiikan pääsuuntauksista. Muita tapoja ovat fisheriläinen ja pearsonilainen lähestymistapa.

Bayes-päättelyt perustuvat suoraviivaisesti todennäköisyyslaskennan perusyhtälöihin22 (ks. alla). Itse teoreema on siis hyvin varmasti oikein.23 Kiistanalaiseksi jääkin lähinnä kysymys siitä, paljonko teoreemaa käyttäen saataviin tuloksiin on luottamista, kun ottaa huomioon, että laskuissa käytettävää priori-todennäköisyyttä24 ei välttämättä tiedetä, joten on mahdollista syyttää Bayesin kaavaan kulloinkin sijoitettuja lähtöarvoja "hatusta vedetyiksi" ja väittää saatuja tuloksiakin näin ollen arvottomiksi.25

Näin tilastomatematiikan suuntausten välinen perustekeskustelu (tai -väittely) ei koske (kaikkien tunnustaman) Bayesin laskukaavan matemaattista pätevyyttä sinänsä vaan palautuu viime kädessä matematiikan soveltamiseen liittyviin taustafilosofisiin kysymyksiin ja näistä ennen muuta todennäköisyyden käsitteeseen:

  • Bayesiläiset kannattavat tyypillisesti episteemistä todennäköisyyskäsitystä, jonka mukaan todennäköisyys-käsite ilmaisee henkilön26 uskomuksen astetta27 tai hänen tietonsa varmuusastetta28.
  • Frekventistisessä eli otoksien suhteellisiin määriin perustuvassa todennäköisyyskäsityksessä todennäköisyyksien ajatellaan kuvaavan toistokoetulosten suhteellisia määriä. Tämä perustuu eräänlaiseen todennäköisyyskäsitteestä tehtyyn käänteispäättelyyn:
    1. Jos jossain tilanteessa tietynlainen todennäköisyysjakauma on "oikeasti voimassa", toistokokeiden tulosten suhteelliset frekvenssit (tietyn tuloksen antaneiden kokeiden lukumäärät tehtyjen toistojen kokonaislukumäärällä jaettuina) lähestyvät asymptoottisesti kyseisten tulosten kaiken aikaa voimassaolevia todennäköisyyksiä (ns. suurten lukujen laki); tämä on Kantin terminologiassa "analyyttinen totuus a priori" eli käsitemääritelmistä johdettavissa oleva välttämätön järjen päätelmä.
    2. Frekventistinen todennäköisyysfilosofia tarttuu tähän analyyttis-deduktiivis-aprioriseen totuuteen ja käyttää sitä käänteisesti, empiiris-induktiivis-aposteriorisesti: "Tietyn tapahtuman todennäköisyys tietyssä tilanteessa on tämän tapahtuman sattumisen suhteellisen frekvenssin raja-arvo tässä tilanteessa tehdyssä rajoittamattoman pitkässä toistokoe- tai havaintosarjassa."
  • Frekventistisen tulkinnan ongelmaksi muodostuu, että yleensä käytettävissä ei kuitenkaan ole tarpeeksi toistokoetuloksia,29 joten frekventistit joutuvat puhumaan pikemminkin siitä, miten asioiden "tulisi olla" kuin siitä, miten ne ovat.30 Vaikka tämän käsityksen ajateltiinkin olevan objektiivinen, niin käytännössä, koska ääretöntä sarjaa toistokokeita ei ole oikeastaan missään tilanteessa31, siihen pitäytyminen johtaa asianomaiset usein tiedostamattaankin olettamaan asioita, joita he eivät omien kriteeriensä puitteissa pysty mitenkään varmistamaan.32

Koska episteeminen todennäköisyys on luonteeltaan "vaatimattomampi" kuin frekventistinen, sitä voidaan usein ainakin välttävästi arvioida, joten priori-ongelma ei usein ole merkittävä. Priorin valintaan ei kuitenkaan ole yhtä oikeaa tapaa. Tarkoitus olisi, että priori kuvaa henkilön tietämyksen tilaa, mutta tietämyksen esittäminen matemaattisesti ei ole ongelmatonta. Matemaattiset tietämyksenesittämismenetelmät ovat usein merkittävästi riippuvaisia mm. tutkimusjärjestelyjen suhteen tehdyistä valinnoista eivätkä yleensä ole parametrisoinnista riippumattomia. Riittävän oikealla priorilla saadaan kuitenkin yleensä riittävän oikeita tuloksia, ja yleensä havaintojen kasvaessa priorin merkitys vähenee nopeasti. Järkevien priorivalintojen vaikutusta lopputulokseen voidaan myös arvioida. Voidaankin argumentoida, että priori-ongelma ei ole ongelma, vaan rehellistä oman rajallisuutemme myöntämistä. Yksi bayesiläisen päättelyn vahvuuksista onkin se, että tehdyt oletukset ovat paremmin esillä eivätkä piilossa alan keittokirjamaisten päättelyreseptien takana.

Ehkä merkittävin puute bayesiläisessa hypoteesitestauksessa on se, että sillä voidaan vain vertailla olemassaolevia hypoteeseja keskenään. Yhtä teoriaa ei voida arvioida. Käytännössä jopa bayesilaisen hypoteesitestauksen tiukimmat puolestapuhujat kuten Jaynes vetoavat Fisherin hypoteesitestauksen kaltaisiin kriteereihin tilanteissa, joissa on tarve miettiä että pitäisikö etsiä jotain parempaa teoriaa.

Ongelmistaan huolimatta bayesilainen tapa tarjoaa hyvin perustellun, systemaattisen ja todennäköisyyksiin perustuvan tavan arvioida argumentteja. Siihen on sisäänrakennettuna useimmat olennaiset tieteenfilosofiset teorianvalinnan kriteerit. Bayesin teoreema voidaan laajentaa väittämien välisten uskomusverkkojen systemaattiseen analyysiin (Bayes nets), joka sopii hyvin maailmankatsomusten analyysiin.

Huomattavimpia Bayesin teoreemaa käyttäviä kristittyjä filosofeja on Richard Swinburne. Teoksessaan The Existence of God Swinburne käy läpi mm. kosmologisen ja teleologisen argumentin, pahan ongelman, uskonnolliset kokemukset ja Jeesuksen ylösnousemuksen todisteet ja päätyy siihen, että käsitellyn evidenssin pohjalta Jumalan olemassaolo on todennäköisempää kuin ei.

Bayesilainen tulkinta suunnitteluteoriasta[muokkaa]

Usein tietty tilastollinen ongelma voidaan ilmaista useamman tilastollisen paradigman alla. Useimmiten Bayesilainen tapa näyttäisi olevan tarkin ja sen käytön rajat ovat selvemmin nähtävillä koska tehdyt oletukset ovat selvemmin nähtävillä. Myös suunnitteluteoria on esitettävissä bayesilaisessa muodossa. Tietyssä mielessä se, että päättely voidaan ilmaista useammalla tavalla, viittaa päättelyn luotettavuuteen koska tuolloin päättely ei ole riippuvainen valitusta paradigmasta.

Dembskin Fisheriläisessä suunnittelupäättelyssä on siis kolme pääkohtaa:

  1. Vapausasteisuus
  2. Monimutkaisuus
  3. Täsmennys

Bayesilaisessa tulkinnassa kohdat 1. ja 2. tarkoittavat että ei-mielivaltaisille naturalistisille hypoteeseille tarkasteltavana oleva asia on epätodennäköinen. Kohta 3 taas tarkoittaa sitä, että suunnittelija-hypoteesin ennuste asialle on korkea. Esimerkiksi palautumattomasti monimutkaisten asioiden kohdalla evoluutioteoreettinen ennuste on paljon tasaista jakaumaa alempana, koska on erittäin epätodennäköistä että näiden systeemien välivaiheet olisivat elinkelpoisia (kohdat 1 ja 2). Koska näitä rakenteita voidaan täsmentää (analogia ihmisen suunnittelemien rakenteiden kanssa, monen osan systeemit tyypillisiä suunnittelijoille, toimiva kone jolla jokin tarkoitus(teleonomia)), suunnittelyhypoteesin ennuste palautumattoman monimutkaiselle rakenteelle on paljon tasaista jakaumaa korkeampi. Näin suunnittelu on paljon evoluutioteoriaa todennäköisempi selitys näille rakenteille.

Ylläolevan kolmen kohdan lisäksi Dembski tarkastelee toisaalta käytössä olevia resursseja ja toisaalta mahdollisten täsmennyksien määrää. Tämä on oikea intuitio Dembskiltä (ja samalla Fisheriläisen paradigman oikeansuuntainen korjaus), sillä Bayesilaisessa tulkinnassa nämä molemmat ovat sisäänrakennettuina evoluutioteorian ja suunnitteluhypoteesin ennusteiden normituksessa (todennäköisyyksien summa/integraali kaikkien mahdollisten tapausten yli on yksi).

Bayesin teoreeman käytöstä suunnittelun alueella[muokkaa]

Suunnittelu-hypoteesin ennusteita voidaan perustella usealla tasolla, joista alla esimerkkejä:

  1. Suunnittelijan erityisen ilmoituksen perusteella tehdyt ennustukset.
  2. Ennusteet suunnittelijan ja ihmisen samankaltaisuuksiin perustuen. (Analogia on yksi tieteellisen päättelyn yleisimpiä muotoja.)
  3. Ennusteet yleisen tietoisen olennon ominaisuuden perusteella.
  4. Ennusteet jotka summataan kaikkien tietoisen olennon motiivien yli. Koska tässä todennäköisyysavaruuden dimensio ja tyyppi on erilainen kuin fysikaalisten parametrien avaruus, se kuvautuu ei-tasaisena ennusteena fysikaalisten parametrien avaruuteen. Esimerkiksi, mikäli annamme 50% todennäköisyyden sille, että Suunnittelija (esimerkiksi Jumala) luo tietoisia havaitsijoita sallivan universumin, kutsutaan tätä universumin ominaisutta O, summaamalla O:n ja ei-O:n yli, saamme silti hyvin suuren ennusteen havaitsijat sallivalle universumille fysikaalisten parametrien avaruudessa verrattuna fysikaalisten parametrien avaruuden tasaiseen jakaumaan. Esimerkiksi painovoiman voimakkuus on 1, kun kaikkien fysiikan voimien voimakkuudet ovat välillä 1 - 1040. Painovoima saa olla korkeintaan 3000-kertainen, jotta elämä on mahdollista. Näin todennäköisyys sille, että Jumala luo maailman, jossa painovoima on välillä 1-3000, on 0.5. Vastaavasti todenäköisyys saada painovoiman arvo elämän sallivalle välille puhtaan sattuman perusteella on noin välin 1-3000 pituus verrattuna koko skaalan pituuteen, eli noin 3000/1040=10-36. Jumala-selitys on siis noin 0.5/10-36 ~ 5*1035 eli melkein miljoona miljoona miljoona miljoona miljoona miljoonaa kertaa todennäköisempi kuin puhdas sattuma (ja siten teismi on tilapäisesti tämän verran ateismia todennäköisempi jo tämän argumentin perusteella).

Teoreeman johtaminen ehdollisesta todennäköisyydestä[muokkaa]

Ehdollinen todennäköisyys[muokkaa]

Tapahtuman A ehdollinen todennäköisyys, on todennäköisyys tapahtumalle A sillä ehdolla, että tapahtuma B on jo tapahtunut. Ehdollinen todennäköisyys merkitään P(A|B), joka luetaan: "tapahtuman A todennäköisyys ehdolla B". Se määritellään kaavalla

Jos tapahtuman B todennäköisyys on 0, eli , niin ei ole määritelty, sillä 0:lla ei saa jakaa.

Bayesin teoreeman johtaminen[muokkaa]

Ehdollisen todennäköisyyden määritelmän mukaisesti tapahtuman A todennäköisyys ehdolla B on

Vastaavasti tapahtuman B todennäköisyys ehdolla A on

Näistä kahdesta yhtälöstä saadaan

Jakamalla näin saadun yhtälön molemmat puolet tekijällä P(B) saadaan Bayesin teoreema


Viitteet[muokkaa]

  1. ^ Näin siksi, että tilannekuvauksesta ei voi muutakaan päätellä; tätä kutsutaan "riittämättömien syiden periaatteeksi": todennäköisyysjakaumaa pidetään tasaisena eli kaikkia vaihtoehtoja yhtä todennäköisinä, ellei muutakaan pystytä osoittamaan.
  2. ^ Suotuisia tapauksia on 40 kaikkiaan 80:sta.
  3. ^ Suotuisia tapauksia on 10 kaikkiaan 80:sta.
  4. ^ Suotuisia tapauksia: (loput) 30 kaikkiaan 80:sta.
  5. ^ Kookospaketin keksien (40) osuus kaikista suotuisista kekseistä (40 + 10)
  6. ^ Kookoskeksipakettien osuus kaikista paketeista (2/3) jaettuna kookoskeksien osuudella kaikista kekseistä, joka saadaan laskemalla yhteen kussakin pakkauksessa olevien kookoskeksien osuudet suhteessa kaikkiin pakkauksessa oleviin kekseihin: (1/3 * 1 + 1/3 * 1 + 1/3 * 1/4 = 2/3 + 1/3 * 1/4)
  7. ^ Kookoskeksipakettien osuus kaikista paketeista (1/3) jaettuna kookoskeksien osuudella kaikista kekseistä, joka saadaan laskemalla yhteen kussakin pakkauksessa olevien kookoskeksien osuudet suhteessa kaikkiin pakkauksessa oleviin kekseihin: (1/3 * 1 + 1/3 * 1/4 + 1/3 * 1/4 = 1/3 + 2/3 * 1/4)
  8. ^ Kookospaketin keksien (40) osuus kaikista suotuisista kekseistä (40 + 20)
  9. ^ Kookospaketin keksien (40) osuus kaikista suotuisista kekseistä (40 + 5)
  10. ^ Ensimmäisessä paketissa olleiden kookoskeksien osuus kaikista kekseistä (1/2 * 1/2) jaettuna kookoskeksien osuudella kaikista kekseistä, joka saadaan laskemalla yhteen molemmissa pakkauksissa olevien kookoskeksien osuudet suhteessa kaikkiin pakkauksessa oleviin kekseihin: (1/2 * 1/2 + 1/2 * 1/4)
  11. ^ Todennäköisyys kasvaa sitä mukaa, kun toivottavien pakettien määrä, sekä kookoskeksien määrä toivottavissa paketeissa kasvavat.
  12. ^ Siis siihen, että saatiin kookoskeksi, mistä paketista se sitten olikaan peräisin. Toisin sanoen todennäköisyys pienenee sitä mukaa, kun "ei-toivotuissa" paketeissa olevien kookoskeksien osuus kaikista kookoskekseistä kasvaa.
  13. ^ Tämä on sitä helpompi huomata, mitä enemmän purkkien sisällöt alun perin poikkesivat: esim. 39 kookos + 1 suklaa -purkki olisi selvästi todennäköisempi kuin 1 kookos + 39 suklaa -purkki.
  14. ^ Vertailu perustuu tiistain 2.2.2010 tilanteeseen n. puoliltapäivin Suomen aikaa.
  15. ^ Esimerkit ovat tässä myös perusteluna sille, miksi suomenkielisen Wikipedian kirjoittamishetkisestä esityksestä on täällä poikettu.
  16. ^ Esim. todennäköisyys, että nopan silmäluku on parillinen ehdolla, että se on kolmella jaollinen, on 1/2 (6 on parillinen, 3 taas ei), kun taas todennäköisyys, että nopan silmäluku on kolmella jaollinen ehdolla, että se on parillinen, on vain 1/3 (6 on kolmella jaollinen, mutta 2 ja 4 eivät ole).
  17. ^ Vaikka tässä artikkelissa keskitytäänkin tietynlaisiin sovelluksiin, itse kaavaa voi käyttää todennäköisyyksiä laskettaessa aina, kun lähtökohdiksi tarvitut tiedot ovat käytettävissä. Noppaesimerkki: Jos tiedetään, että P(parillinen) = , P(kolmella jaollinen) = ja P(parillinen|kolmella jaollinen) = , niin P(kolmella jaollinen|parillinen) = .
  18. ^ Noppaesimerkki: Tilanteessa, jossa noppaa on heitetty, mutta heiton tuloksesta ei ole mitään tietoa, kolmella jaollisen tuloksen todennäköisyys on ja tilanteessa, jossa tiedetään, että heittotulos on parillinen, kolmella jaollisen tuloksen todennäköisyys on edellälasketun mukaisesti edelleenkin . Tämä johtuu siitä, että parillisuus ja kolmella jaollisuus ovat noppanheittotulosten toisistaan riippumattomia ominaisuuksia. Jos kuitenkin tiedettäisiinkin tuloksen olevan neljällä jaollinen, voitaisiin päätellä, että kolmella jaollisuuden posterioritodennäköisyys putosi nollaan – eihän (kuutio)nopan silmäluku voi olla yhtäaikaa jaollinen sekä 3:lla että 4:llä. Bayesin säännön lausekkeesta voi helposti nähdä, että jos P(B|A) = 0, niin myös P(A|B) = 0.
  19. ^ Tässä on seurattu sisäisesti johdonmukaista englanninkielisen Wikipedian merkintätapaa.
  20. ^ B on Bayesin sääntöä sovellettaessa vakio siinä mielessä, että vertailevassa hypoteesitestauksessa, jossa yhden "A":n sijasta tarkastellaankin useampia hypoteeseja rinnakkain ja sovelletaan Bayesin sääntöä kuhunkin niistä erikseen, kaikki A:n sisältävät lausekkeet riippuvat kulloisestakin hypoteesista mutta P(B) (kaavan ainoa lauseke, joka ei sisällä A:ta) pysyy vakiona hypoteesista riippumatta. Näin ollen hypoteesien keskinäisissä uskottavuusvertailuissa P(B):n voi jättää huomiottakin (eli vertailla pelkkien -tyyppisten lausekkeiden arvoja), mutta jos vertailuarvot halutaan pitää todennäköisyyksinä eikä pelkkinä "suurempi on parempi" -vertailulukuina, ne on normalisoitava eli skaalattava P(B):llä jakamalla. – Todennäköisyytenä P(B) on aina suljetulla reaalilukuvälillä [0,1], ja jotta sitä voisi käyttää Bayesin kaavan mukaisella tavalla, sen arvo ei saa olla tasan 0, kuten englanninkielinen Wikipedia edellä toteaakin.
  21. ^ ja sen tulosten jatkokäyttöä – esim. sillä tavoin havaintoaineistosta lasketun jonkin tapahtuman suhteellisen frekvenssin arvon käyttöä kyseisen tapahtuman todennäköisyyden arviona eli estimaattina tai jonkin muuttujan vaikutuksen eliminointia yhdistämällä sen eri arvoilla saadut havaintotulokset ja poistamalla kyseinen muuttuja huomioon otettavien selitystekijöiden joukosta
  22. ^ eli perusidentiteetteihin
  23. ^ Ellei Bayesin teoreema pätisi, kaikkien tilastomatematiikan haarojen tarvitseman todennäköisyyslaskennan perusteet kyseenalaistuisivat kokonaisuudessaankin – tämä ei siis ensinkään vahvistaisi kilpailevien lähestymistapojenkaan uskottavuutta vaan päinvastoin söisi sitäkin.
  24. ^ johdatteluesimerkeissä siis avaamattomien pakettien keksimääriä
  25. ^ Englanniksi tämäntyyppinen kritiikki on ilmaistavissa ytimekkäästi: "garbage in, garbage out."
  26. ^ viime kädessä kenen hyvänsä tarkemmin määrittelemättömän mutta tarkasti ja johdonmukaisesti päättelevän ja tällä tavoin kunkinhetkisiä näkemyksiään jatkuvasti arvioivan ja tarvittaessa päivittävän älyllisen agentin
  27. ^ siis sitä, missä määrin hän "kallistaa korvaansa" tietynsisältöisen väitteen suuntaan
  28. ^ siis sitä, miten hyvät perusteet hän pystyy tietyssä tilanteessa esittämään senhetkisen kantansa eli sillä hetkellä käytettävissään olevan informaation perusteella uskottavimmaksi arvioimansa vaihtoehdon puolesta
  29. ^ Joissain fysikaalisissa mittauksissa toistoja voi katsoa saatavan frekventismin tarpeisiin riittävästi, esim. "kapean raon kokeessa" valoherkkään pintaan osuneet fotonit muodostavat kuvion, jonka avulla niiden noudattama todennäköisyysjakauma on vakuuttavasti määritettävissä. Useissa muissa yhteyksissä tutkijoiden käytettävissä on kuitenkin vain hyvin rajallinen havaintomäärä, jonka sisältämää informaatiota tulisi sitten mahdollisimman hyvin hyödyntää.
  30. ^ "Olettaen, että toistojen lisääminen ei olisi muuttanut tilannetta, 'oikeat todennäköisyydet' ovat samat kuin käytettävissämme nyt olevat havaintotulosten suhteelliset frekvenssit, joita olemme käyttäneet näiden todennäköisyyksien estimaatteina. Siinä tapauksessa tilanteessa, jossa toistoja olisi jatkettu niin kauan, että suhteellisten frekvenssien raja-arvot olisivat olleet riittävällä tarkkuudella riittävän luotettavasti määritettävissä, saadut raja-arvot eli tapahtumien 'oikeat todennäköisyydet' olisivat olleet samat kuin nämä estimaattimme; valitettavasti emme ole nyt sellaisessa tilanteessa emmekä voi siihen päästäkään, mutta oletetaanpa sentään yhtä kaikki, että käytettävissämme nyt olevat estimaatit eivät liiaksi poikkea 'oikeista todennäköisyyksistä', ja jatketaan laskemista siltä pohjalta; muutenhan emme saisi mitään tuloksia. Voimmehan sitä paitsi laskea todennäköisyyksiä sille, että todellinen tilanne on ainakin melko lähellä saamiamme tuloksia ja ilmoittaa raporteissamme myös näiden laskelmiemme arvot; sittenhän vastuu siirtyykin lukijalle, joka päättäköön, mihin ja miten näitä tuloksia käyttää."
  31. ^ ja asymptoottiarvioihin riittäviä toistosarjojakin vain hyvin harvoin
  32. ^ Näitä vaihtoehtoja voi havainnollistaa Juice Leskisen sanoin: "Älä usko poliitikkoa: hän luulee tietävänsä; älä usko tiedemiestä: hän tietää luulevansa." Tässä tapauksessa frekventistit siis vastaavat suunnilleen Juicen "poliitikkoa" ja bayesiläiset puolestaan "tiedemiestä".

Kirjallisuutta[muokkaa]

  • E.T. Jaynes, Probability Theory, The Logic of Science, 2003, Cambridge University Press. (Jaynes väittää todistavansa enemmän kuin todistaa ja mm. väitti että Nasaretin kaupungin olemassaolo on epätodennäköistä kun siitä ei ole todisteita (vaikka todisteita toki on ja vaikkei olisikaan Jaynesin päättely oli virheellistä, eikä se tässä noudattanut Bayesin teoreemaa), mutta Jaynesin bayesilaisen hypoteesitestauksen periaatteiden ja frekventististen menetelmien ongelmien käsittely on selkeää ja hyvää luettavaa. Kirjan vedosversio on ladattavissa http://bayes.wustl.edu/etj/prob/book.pdf)
  • R. Swinburne, The Existence of God, 2. painos, 2004, Clarendon Press.