Blogi: Avoin data vs. julkinen data

Paljon puhutaan avoimesta datasta ja sen saatavuudesta. Monet miettivät datan avaamista ja sen tallennusmuotoa sekä -paikkaa. Isoimmat kaupungit ovat tehneet datastrategian osaksi tukemaan digitalisaatiota. Miten liiketoiminta voi hyötyä avoimesta datasta?
Avoin data käsitteenä usein sotketaan siihen, että avointa dataa on kaikki mitä verkosta on saatavana. Onko yksittäinen aineisto dataa (esim Excel-sheet) vai data-aineistoa? Onko jalostettu data avointa vai tietosisältöjä? Onko julkinen sisältö verkkosivuilta avointa dataa ja voiko tietopyynnön tekemällä saada avointa dataa? Ovatko tutkimusaineistot avointa dataa vai aineistoa?

Termiologia onkin haastava, myös ammattilaisille. Hyvän ja kattavan listauksen löydät TietoEVRY sivuilta tästä linkistä (julkaistu 05.05.2020).

Lisenssit

Yleisten määritysten mukaan avoin data on koneluettavissa olevaa digitaalista tietoa, jota voi vapaasti käyttää mihin tahansa tarkoitukseen, kun sen alkuperäinen lähde mainitaan. Tällä tarkoitetaan myös kaupallista käyttöä, mutta sitä voidaan rajata lisenssien avulla. Yleisesti käytetään CC BY 4.0 -lisenssiä ja sen käyttö onkin kasvanut Covidin myötä vuonna 2020. Lisensseihin ja sopivan löytymiseen on neuvoja ja generaattori Creative Commons -sivuilla

Omistajuus

GDPR-aikana ovat sensitiivisen datan omistajat varpaillaan eikä suotta. Suomen suurin internetaikakauden tietomurto tapahtui 10/2020, psykoterapiakeskus Vastaamo. Poissuljetaan hankkerit tässä vaiheessa ja pohditaan hieman datan omistajuutta. Data ei eroa omistussuhteesta fyysiseen tuotteeseen, omistaja on siitä ja sen käytöstä vastuussa. Lain näkökulmasta ei voi kuitenkaan omistaa listaa faktoista.

Monet siirtävät datan pilvipalveluihin ja ostavat siihen palveluntarjoajalta tietosuojan. Palveluntarjoajia on useita, tunnetuimpia ovat Amazon, Azure ja Google. Näistä Google on ainut, joka toimii Suomessa (tällä hetkellä). Geologisesti kriittisissä tilanteissa ei näin olekaan vaihtoehtoja palveluntarjoajille. Kuitenkin esim. Azure tarjoaa pilviparin aina lähimmästä maantieteellisestä sijainnista. Näin ollen Kiinan tietoja ei voi valita edes USA:n palvelimelle.

Tallennuspaikka ja -muoto

Tutkimusnäkökulmastaan puolestaan on hyvä huomioida datan tallennuspaikka. Monesti tutkimuksiin kerätään dataan monesta lähteestä jatkokehittämällä ja rikastamalla niitä. Mikäli käytät muuta kuin organisaation tarjoamia palveluita, joissa käyttöehdot on tarkistettu ja suojattu, niin datasi saattaa joutua toisen omistajuuteen. Konkreettinen esimerkki tästä on Dropbox tai Google Drive, joissa datan omistaa palveluntarjoajan lisäksi usein USA.

Datan tallennus-/ jakelumuoto (formaatti) vaikuttaa siihen, miten dataa voidaan rikastaa. Ennen sitä kuitenkin mietittävänä on datan jakotapa: tiedosto, rajapinta eli API vai latauspalvelu. Näistä tiedosto sopii pienille/staattisille aineistoille ja yleensä käytetään .CSV-muotoa, koska se sallii muutosten ja laskelmien tekemisen. API puolestaan on isoille/ dynaamisille aineistolle paras vaihtoehto, koska automaattipäivitykset voidaan määrittää sekä valita tarvittava osa datasta. Latauspalvelu puolestaan käytetään esim. karttatasolla, aineistoille jotka eivät muutu usein ja ovat suurikokoista. Datavelhot toki tekevät syntaktisia ja semanttisia muunnoksia käden käänteessä. Millainen osaaminen datan hallintaa teiltä siis löytyy?

Harvestointi

Datan keräämistä automaattisesti useasta tietolähteestä samaan paikkaan kutsutaan harvestoinniksi. Suomessa kattava sivusto on www.avoindata.fi.

Avoin data vs julkinen data


Sivustoa ylläpitää Digi- ja väestötietovirasto (entinen Väestörekisterikeskus) ja se on kategorioitu vastaamaan Euroopan dataportaalia (EDP). Näin datat määräytyvät oikein myös EDP:n sivulla ja löytyminen muiden maiden portaaleista helpottuu käyttämällä samanlaisia kategorioita. Datan päivitystaajuus avoindata-sivustolla on vuorokausi ja sinne harvestoidaan vain data-aineiston metatiedot sekä linkit. Tämä helpottaa löydettävyyttä eikä toisaalta kuormita datan ylläpitäjiä, koska palveluun ei kopioida mitään.

Datastrategia

Pääkaupunkiseudulla on oma dataportaali https://hri.fi ja datavisio onkin:

Helsingin tuottama data on maailman käytettävintä ja käytetyintä kaupunkidataa vuoteen 2025 mennessä.

Lähde: https://digi.hel.fi/esittely/helsinki-datastrategia/

Samassa linjataan periaatteet, jotka ohjaavat datan avaamista. Tämä on voinut osaltaan johtaa siihen, että kaikki mahdollinen avataan. Onko kaikki sitten käyttökelpoista jatkokehitykseen ja onko liiketoiminta ajatuksissa mukana? Toisaalta myös datan päivitys taajuus on voinut unohtua. Suurin osa muista Suomen kaupungeista ei ole lähtenyt vielä tähän, vaan avaaminen on varovaista ja osin myös pitkissä kantimissa. Jouhevuutta toivotaan mm. tutkimusnäkökulmasta, tietopyynnöt voivat kestää pahimmillaan kuukausia.

Myös Euroopan komissiossa on herätty datanhallintaan ja ensimmäinen datastrategia julkaistiin 02/2020. Ensimmäinen ehdotus koski datan yhteiskäyttöä (tiedote 25.11.2020) ja tarkoitus on antaa lisää data-avaruuksia koskevia ehdotuksia ensi vuonna, joita täydennetään datasäädöksillä. Komission ennustaakin vuodelle 2025 seuraavaa:

Avoin data vs julkinen data


Lähde: https://ec.europa.eu/info/strategy/priorities-2019-2024/europe-fit-digital-age/european-data-strategy_fi (2.12.2020)

Miten tästä eteenpäin?

Post-Covid maailma tulee olemaan erilainen kuin kukaan aavisti. Maailma muuttuu, oletteko mukana muutoksen harjalla, ennakoitteko jo seuraavaa aaltoa vai uppoatteko hyökyyn? Data-ala on tullut jäädäkseen, sen hyödyntäjät tulevat pärjäämään kilpailussa. Taitavista ammattilaisista tulee olemaan pulaa lähivuosina. Osaatteko hyödyntää olemassa olevaa työpotentiaalia ja muuttaa roolituksia tarvittaessa sekä kouluttaa henkilökuntaa tarvittaviin tietotaitoihin? Nyt on aika siirtyä reagoinnista ennustamiseen!

Teksti: Jaana Konttinen, tutkimusasiantuntija, Savonia AMK, jaana.konttinen@savonia.fi