Pitäisköhän mennä hieman tieteen taaksi ja katsoa hetken, kuinka luotettavaa se oikeastaan on. Olen tutustunut aika paljon ja seuraan enemmän tai vähemmän tietojenkäsittelyn tutkimusta. Viime keväänä tein tutkielman aikasarjojen tiedonlouhinnasta ja siihen liittyi useiden kymmenien tieteellisissä julkaisuissa julkaistujen tutkimustulosten lukeminen ja liittäminen yhdeksi n. 20 sivun tutkielmaksi. Tietojenkäsittely on tieteenalana teoreettisen matematiikan perillinen (esim. Turing oli teoreettinen matemaatikko), jonka taas lasken käytännössä ainoaksi tieteeksi, joka on eksaktia ja lähestyy edes jollain tavalla "absoluuttista totuutta" omassa asiayhteydessään (, mutta epäilen tuota hyvin paljon).
Mielenkiintoisin paperi oli [KeKa02], jossa todettiin, että suurin osa tehdystä tutkimuksesta aikasarjojen tiedonlouhinnassa oli turhaa. Matemaattisesti mallinnettavissa olevassa tieteessä, jossa tulokset olisi voitu melko yksinkertaisesta tarkistaa muutamalla kymmenellä koodirivillä, mokattiin täysin tutkimus ja saatiin aivan mielettömän surkeata tulosta aikaan. Geenimanipuloidun tuotteen tutkimus on tuotakin hankalempaa ja se, mitä julkisuuteen esitetään, on hyvin pitkälti yksinkertaistettua. En usko, että yhdenkään firman riskianalyysi toteaa, että geenimanipuloitu on täysin vaaratonta. Veikkaanpa, että ennemminkin ne sanoo:
Tiedossa ei ole ongelmia, joita on tullut vastaan todellisessa elämässä ja teoreettinen mahdollisuus näyttää, että ongelmia ei pitäisi tulla. Kuitenkin on nn% mahdollisuus, että jotain tulee, koska kontrollikokeissa tuli blaablaa blaa, joka voidaan katsoa olevan tilastollista harhaa nn% luottamustasolla. Riskin kustannukset ovat xxxxxxxx$ ja (nn%/100) * xxxxxxxx$ < odotettavissa oleva voitto$, joten asialle ei tarvi tehdä mitään eikä siitä kannata tiedottaa.Mallinnusta luultavasti on myös käytetty geenimanipuloitujen tuotteiden tutkimiseen. Mallit ovat rajuja yksinkertaistuksia todellisuudesta, niiden oikeellisuuden varmistaminen on todella hankalaa ja kaikkia vaikuttavia tekijöitä ei malliin saada koskaan mukaan. Yksinkertaisen tietokoneohjelmiston mallintaminen on käytännössä mahdotonta ja luonnossa olevien tapahtumien mallintaminen vielä hankalempaa.
Tiede vaatii aina kriittisyyttä ja kriittisyyden pitäisi entisestään kasvaa, kun jokin esitetään normaalille kansalle esitetyssä lehdessä (kuten Tiede on). Todellisuus vain on, että meille esitetään vain murto-osa siitä informaatiosta, joka tutkijoilla on. Ja siihen on hyvin yksinkertainen syy: Kuka jaksaisi lukea tutkimusdatan analyysiä sivu tolkulla ja matemaattista kaavaa matemaattisen kaavan perään...
[KeKa02] Keogh, E. and Kasetty, S. (2002). On the Need for Time Series Data Mining Benchmarks: A Survey and Empirical Demonstration. In the 8th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. July 23 - 26, 2002. Edmonton, Alberta, Canada. pp 102-111,
http://www.cs.ucr.edu/~eamonn/sigkdd_bench.pdfTeme