Koronan hallitsema kevät on ollut täynnä tilastoja. Testejä, tapauksia, sairaalassa hoidettuja ja tautiin menehtyneitä. Yhtäkkiä koko mediavirta on täynnä pelkkiä tilastoja! Tilastotieteilijä syttyy kuitenkin vasta, kun aletaan selvittää, mitä näiden lukemattomien lukuarvojen takana on. Mikä on perustartuttavuusluku, entä kokonaiskuolleisuus? Montako tautiin sairastunutta todella on, jos testein on havaittu tähän mennessä 6380? Miksi vasta-ainetutkimuksista kerrotaan monta eri prosenttia, ja mikä ihmeen väärä positiivinen?
Tilastotieteilijän näkökulmasta on ollut erityisen mielenkiintoista seurata, miten tänä keväänä on puhuttu epävarmuudesta. Monen mielestä on puhuttu liikaa, mutta itse väitän, että aivan liian vähän.
Viestiä yksinkertaistaessa ja kiteyttäessä on helpointa jättää epävarmuudesta puhuminen vähemmälle. Ehkä viesti on uskottavampikin, kun ei harhaudu selittelemään polveilevasti tiedon tarkkuudesta?
Väitän, että epävarmuuden totuudenmukainen ja täsmällinen kommunikointi kuitenkin kannattaisi pitkän päälle. Silloin viranomainen ei menettäisi uskottavuuttaan, jos ja kun aiemmin annettua tietoa täytyykin myöhemmin täsmentää uuden tiedon valossa. Mutta voiko Pihtiputaan mummolle edes puhua epävarmuuksista? Voi olla, että alkuun on hankalaa, mutta entä jos vain alettaisiin puhua, sinnikkäästi ja täsmällisesti. Ei se tilastolukutaito ainakaan puhumatta kehity, ja olemmehan me tottuneet virhemarginaaliinkin.
Moni on ehkä havahtunut tänä keväänä, että tilastotiede on ylipäätään yhä tieteenalana olemassa. Missä muuten ne uudet koneoppismenetelmät ovat olleet tämän kriisin aikana? Eikö paljon puhuttu tekoäly voisi keksiä miten tämä kriisi hoidetaan parhaiten?
Tilastotiede elää ja uudistuu, mutta käytännön koettelemissa ja teorian mankeloimissa menetelmissä on oma viehätyksensä, kun päädytään kriisin keskelle. Koneoppimisessa on paljon potentiaalia, mutta tavoitteet ja sovelluskohteet ovat usein eri kuin tilastotieteessä.
Itse en ennen tätä kevättä tuntenut edes auttavasti epidemiologiaa. Oma alueeni on Bayes-tilastotieteen laskentamenetelmien perustutkimusta, erityisesti moderniin aikasarja-analyysiin liittyen. Puurtamista sen eteen, että joku kuvitteellinen soveltaja voisi joskus saada laskunsa tehtyä, mieluiten nopeasti ja luotettavasti.
Kun poikkeusolot iskivät, päädyin selvittämään itselleni epidemiologisia peruskäsitteitä ja -malleja. Yllätys oli, kuinka lähelle korona omaa tekemistä tuli. Bayes-mallit ovat olleet läsnä jo koronaepidemian alkumetreiltä. Ja epidemiologian etenemiseen liittyvät kysymyksethän ovat ajassa dynaamisten ilmiöiden mallintamista. Hetkinen – minähän voin itse arvioida vaihtelevaa perustartuttavuuslukua suoraan itse kirjoittamani laskentaohjelman avulla!
En kuitenkaan tyrkyttänyt ”vaihtoehtoista analyysiäni” suoraan mediaan, koska Suomesta löytyy paljon kokeneempiakin epidemiologiaan erikoistuneita tilastotieteilijöitä. Sen sijaan olen kysellyt THL:n mallinnusryhmän suunnalta, voisimmeko auttaa heitä koronamallinnukseen liittyen. Nyt yhteistyö on aloitettu. Ehkä meidänkin perustutkimuksellamme on vielä joku rooli tämän epidemian selättämisessä.
Matti Vihola
Kirjoittaja on apulaisprofessori matematiikan ja tilastotieteen laitoksella
Tilaa JYUnity-lehti
Tilaa tuoreimmat JYUNITY-jutut näppärästi sähköpostiisi. Voit tarvittaessa peruuttaa tilauksesi koska tahansa.