Datatieteilijän sankarimyytti

Shortly in English: Data scientists are today's superheroes who envision big and save any business challenge by spinning some data in notebooks. Sound plausible? Read here what are the problems of putting data scientists on a pedestal, and how to avoid them.

Analytiikka, big data, tekoäly, AI, data science... paljon sanoja, vielä enemmän hypeä, sinisiä sähköaivoja, robotteja ja avaruusaluksia. Olemme kehittämässä liiketoimintaa alueelle jossa fantasioidaan utuisista utopioista. Samaan aikaan todella iso osa yrityksistä haluaa esiintyä edelläkävijöinä ja tarjoilee yksinkertaisimmatkin algoritminsa samalla kiiltävällä kuvastolla. Olemmeko siis jo saavuttaneet haavekuvat vai onko todellisuus niistä vielä kaukana?

Moni kirjoitus muistuttaa, että tekoälyä ja tekoälyksi miellettäviä järjestelmiä on jo yhteiskunnassamme käytössä laajalti. Näiden ratkaisujen todellisesta toiminnasta, rakenteesta ja hyödyistä puhutaan kuitenkin vain vähän, minkä vuoksi ei ole ihme että äänekäs tekoälyhype täyttää ymmärryksen tyhjiötä utopistisilla lupauksilla. Tämän seurauksena datatiede näyttäytyy tavalliselle kansalaiselle lähes mustana magiana, joka on ns. "tavan tallaajan" ulottumattomissa.

Datatiede on nostettu niin korkealle jalustalle, että se alkaa muistuttaa norsunluutornia

Miten tämä hehkutus ja tekoälyn mystifiointi on vaikuttanut ammattiaan harjoittaviin datatieteilijöihin? Ensinnäkin, moderni datatieteilijä on saavuttanut lähes myyttisen imagon. Työpaikkoja on enemmän kuin tekijöitä, kompensaatio työstä on kova ja työtehtävät mielenkiintoisia. Moni juuri aloittanut datatieteilijä ajattelee tulevan uransa koostuvan sankarimaisesta ongelmien ratkomisesta ja täydellisten ratkaisujen tuottamisesta yhdessä samalla tavoin ajattelevan eliittikollegion kanssa. Jokainen toki huomaa, että todellisuus on ehkä hieman ihannettaan karumpi, mutta sankari-datatieteilijän ihanne näyttää muovanneen alaa salakavalasti.

Sankari-eliittiin kuuluva datatieteilijä visioi tulevaisuuden ratkaisuja norsunluutornissaan.

Harmillisen suuri osa suomalaisten organisaatioiden datatieteilijöistä onkin järjestäytynyt tätä sankari-eliittiä mukaillen. Siiloutunut, pieni porukka pohtii ongelmia usein erillisessä data- tai analytiikkatiimissä, ikään kuin omana supersankarien joukkonaan, joka rientää tarvittaessa organisaatiota painavien dataongelmien kimppuun. Tämä asetelma luo pohjan monenlaisille ongelmille:

  1. Ensimmäinen ongelma on kulttuurinen: datatieteilijöiden eliittiporukka yksinkertaisesti ärsyttää, eikä sooloilu tuo projekteihin toimivia lopputuloksia. Digitalisaatio on pakottanut ohjelmistokehittäjät erittäin tiiviiseen yhteistyöhön liiketoiminnan kanssa, ja onkin ilahduttavaa nähdä kuinka sujuvasti Suomessa tehdään nykyään monialaisia softaprojekteja. Jostain syystä datatiimit nähdään kuitenkin tästä erillisenä porukkana. Kun kehitystiimiin tuodaan dataosaamista, painajaisten “eliitti-tiimi” vaatii pääsyä kaikkeen dataan ja tuuppaa kehitystiimin backlogille valtavasti tehtäviä liittyen esimerkiksi datan käsittelyyn. Lopputuloksena kaikesta vaivasta on kasa hankalasti integroitavia Python-notebookkeja ja lupaus paremmasta tulevaisuudesta. Harmillisesti syvemmälle yhteistyölle ei jäänyt kuitenkaan aikaa, koska dataporukka on jo kutsuttu seuraaviin seikkailuihin.
  2. Toinen ongelma liittyy datatiimien diversiteetin puutteeseen. Koodareiden diversiteettiongelmista on keskusteltu iät ja ajat, mutta datatieteilijät voitaisiin lisätä tilanteen polttavuuden vuoksi ongelmalistan kärkeen. Vaikka hyvä tiimi osaa toki ottaa ulkopuolelta tulevia vaatimuksia ja näkemyksiä huomioon, on tiivis samoin ajatteleva porukka kuitenkin pohjimmiltaan kaikukammio - ja se näkyy. Ratkaisut rakennetaan yhdenlaiseen maailmankuvaan ja moraalikäsitykseen perustuen, eikä toisenlaisia näkökulmia tajuta ajatella tarpeeksi laajasti. Edellämainittu eristäytyminen erikoisryhmäksi ei tietenkään helpota tätä tilannetta, vaan pahentaa kuilua “eliitti-tiimin” sekä moninaisten sidosryhmien välillä.
  3. Datatieteilijöiden diversiteettiongelmaa voi laajentaa myös työmenetelmiin. Jostain syystä nimittäin tuntuu, että ohjelmistokehityksen menetelmät koetaan jotenkin datatieteestä irrallisena asiana, vaikka todellisuudessa datatieteilijöiden menetelmät eivät yksinään tuota suurtakaan arvoa, jos dataprojektien lopputulokset jäävät ohjelmistoratkaisusta irrallisiksi. Eripuraakin syntyy kun koetaan, että kalliiden “eliitti-aivojen” työaikaa ei kannata tuhlata dataputken hiomiseen, eikä siihen oikeastaan ole kiinnostustakaan. Versionhallinta, deploy, devops ja testaus ovat normaali osa jokaista ohjelmistoprojektia, eikä datatieteilijöiden “magialla” pötkitä datan hyödyntämisessä pitkälle, mikäli nämä vaiheet puuttuvat.

Kuinka väistää sankarimyytin tuomat ongelmat?

Datatieteilijät työskentelevät samassa ryhmässä muun devaustiimin kanssa.
  1. Datatieteilijät eivät vain suunnittele, vaan toteuttavat softaa yhdessä muun tiimin kanssa. Minkä tahansa dataprojektin kannalta on hyödyllistä, että datatieteilijät ja -insinöörit kykenevät suoriutumaan datan hyödyntämisen lisäksi myös projektissa vaadittavasta perinteisestä ohjelmistokehityksestä. Tällaiseen työskentelyyn kuuluu ymmärrys siitä, että koko tiimi rakentaa yhdessä softaa johon tuodaan lisäarvoa datalla. Onnistumisen kannalta kaikki toteutettava työ onkin siis arvokasta, ja koko tiimi kantaa siitä yhteisen vastuun.
  2. Projektien omistajuus kuuluu alusta asti koko tiimille, etenkin asiakkaalle.
  3. Tiimin diversiteetin puuttuminen pitää tiedostaa ja asian korjaamiseksi on tehtävä töitä. On hyvin loogista, että erilaisista taustoista tulevat ihmiset onnistuvat yhdessä ymmärtämään laajempia käyttäjäryhmiä sekä käyttötapauksia, jonka vuoksi heillä on suurempi todennäköisyys onnistua älykkäässä, useita käyttötapauksia palvelevassa datan hyödyntämisessä. Siksi toimiva datatiimi saavutetaan palkkaamalla ihmisiä erilaisista taustoista.
  4. Datan hyödyntämisen tueksi tarvitaan ymmärrystä bisneksen erityisominaisuuksista. Dataprojekteja ajaa lähes aina taloudellisen kasvun tai säästöjen tavoittelu, eikä projekteja voi siksi suunnitella tai toteuttaa ymmärtämättä kunkin liiketoiminta-alueen lainalaisuuksia. Meidän kannaltamme on ollut hyödyllistä, että lähes kaikissa projekteissamme on mukana palvelumuotoilua, joka mahdollistaa liiketoiminnasta keskustelun kokonaisuutena. Pelkkään teknologiaan keskittyminen tarjoaa mahdollisuuden syvään erikoistumiseen, mutta liiketoimintaymmärryksen tuominen osaksi projektien toteutusta tekee edistyneistä ideoista oikeasti hyödyllisiä ja käyttökelpoisia.
  5. Emme toimita pelkkiä Python-notebookeja (paitsi jos niitä hyvästä syystä pyydetään). Työtapojen monipuolisuuden osalta meillä on pienestä tiimistä huolimatta laajasti kokemusta ja ambitioita erilaisia teknologioita ja ongelmia kohtaan, emmekä jätä töitämme nopean “datapyöräytyksen” tasolle. Vaativatpa projektit sitten arkkitehtuurin suunnittelua, syviä neuroverkkoja, optimointi- tai kombinatoristen ongelmien ratkaisua, tiimistämme löytyy siihen sekä kiinnostusta että osaamista.

Datatieteen tilanne ei ole missään nimessä menetetty, mutta juuri siksi aiheesta on syytä puhua. Ratkaisu ongelmaan löytyy toimintatapojen ja tiimien diversiteetistä, kollegoiden välisestä yhteispelistä ja projektien laajasta omistajuudesta. Näin rakennetaan onnistuneita dataprojekteja, joilla on kyky kasvattaa liiketoimintaa ja tuoda muutakin lisäarvoa yhteiskuntaamme. Vastuu ja mahdollisuus vaikuttaa on meillä, datan ammattilaisilla.

Etsimme jatkuvasti uusia tekijöitä, jotka eivät pelkää tuoda näkemyksiään julki. Tutustu meihin työnantajana täällä: emblica.com/careers


Emblica ei ole se tavallinen datatiimi. Rakennamme räätälöityjä ratkaisuja datan keräämiseen, käsittelyyn ja hyödyntämiseen alalle kuin alalle, etenkin R&D:n rajapinnassa. Oli kohteemme tehdaslinjasto, verkkokauppa tai pelto, löydät meidät työn touhusta, kädet savessa - ainakin toimistoltamme Helsingistä.