[Sorvi-admin] Tekisittekö datapaketin HS Openiin?
Leo Lahti
leo.lahti at iki.fi
Wed May 9 14:41:24 CEST 2012
Moi Esa,
tässä hieman väliaikatietoja HSOpen-vaalidatapaketista (cc:
sorvi-admin = Juuso Parkkinen & Joona Lehtomäki). Sain 25% (761/2600)
Tilastokeskuksen avoimista PC Axis-tauluista luetuksi R:llä
automatisoidusti. Vain osa tauluista sisältää kuntakohtaista dataa, ja
tällöinkään se ei aina ole yhteen sovitettavissa.
Päädyin lopulta ehdottamaan ratkaisua, jossa Tilastokeskuksen "kuntien
avainluvut" yhdistettäisiin kuntakohtaisiin vaalitilastoihin. Tällä
pitäisi jo saada kiintoisa ja helppokäyttöinen datasetti HSOpeniin.
Tämän hetken drafti on liitteenä (municipality.info.csv), mutta
tarkoituksena olisi vielä hieman lisätä taulukkoon kuntatason
vaalidataa vuosien 1996-2012 kunnallis- ja muistakin vaaleista
Tilastokeskukselta
(http://pxweb2.stat.fi/database/StatFin/databasetree_fi.asp).
Lisäksi liitteenä on toinen taulukko vaalipiirikohtaista dataa
(election.region.info.csv). Pistän kuntatason datojen lisäksi tulemaan
myös tällaisia täydentäviä aineistoja, jos niitä irtoaa matkan
varrella kätevästi.
Homma on toteutettu niin, että samat aineistot ovat luettavissa
suoraan R:ään / soRviin, mikäli joku intoutuu testailemaan niiden
käyttöä HSOpenin yhteydessä.
Saadaan valmiiksi tämän viikon aikana, pistän heti tulemaan kun on
purkissa. Kerro jos toivot erityistä takarajaa, niin pistän sitten sen
mitä siihen mennessä on kasassa.
Leo
2012/5/8 Mäkinen Esa <Esa.Makinen at hs.fi>:
> Moi,
>
> Kuulostaa hyvältä suunnitelmalta, tehdään näin.
>
> Mä voin panna kaiken jakoon meidän dynamic.hs.fi -palvelimelle. Kestää isoakin rasitusta, jos tarpeen. Lähetä tiedosto vain mulle, niin hoidan asian.
>
> Esa
>
>
>
>
>
> Esa Mäkinen
> Toimittaja
>
> Helsingin Sanomat / Kulttuuri
> Puh. (09) 122 2581
> Gsm 040 3540 371
> esa.makinen at hs.fi
> Twitter: @EsaMakinen
> PL 85, 00089 SANOMA
> www.hs.fi
> a Sanoma company
>
> -----Alkuperäinen viesti-----
> Lähettäjä: lmlahti at gmail.com [mailto:lmlahti at gmail.com] Puolesta Leo Lahti
> Lähetetty: 8. toukokuuta 2012 12:40
> Vastaanottaja: Mäkinen Esa
> Aihe: Re: Tekisittekö datapaketin HS Openiin?
>
> Hyviä pointteja.
>
> Luulisin, että näilläkin datoilla saa jo kaikenlaista tehdyksi, eli
> voidaan ottaa tavoitteeksi pistää datat jakoon tällä viikolla.
> Pistetään se, mitä järkevästi saadaan kasatuksi ja voidaan myöhemmin
> lisätä, jos Tilastokeskukselta saa vielä lisää vetoapua. Vaikuttivat
> kiinnostuneilta jeesaamaan niiltä osin kuin on helposti tehtävissä.
>
> Yhdistely ei onnistu kaikkien taulujen osalta, mutta voidaan pyrkiä
> liittämään yhteen datamatriisiin (kunnat x muuttujat) kaikki mitä
> voidaan. Yksi ongelma tässä on, että sarakkeiden sisällön
> ymmärtämiseksi joutuu helposti turvautumaan Tilastokeskuksen
> sivustoon, jossa datasetit kuvauksineen löytyvät vähän sieltä sun
> täältä. Tsekkaan mitä tältä osin saisi tehdyksi, ja pyrin pistämään
> huomiseen mennessä lisäinfoa. Hyvähän se olisi, jos ihmiset voisivat
> HSOpenissa keskittyä jatkoanalyysiin.
>
> Onko HS:ltä saatavissa palvelintilaa, jonne aineistot voisi pistää
> jakoon? Voidaan vielä varmistaa Tilastokeskuksen ok jos halutaan,
> mutta lisenssi kyllä sallii muokkauksen ja levittämisen nimeä-ehdolla.
> Toinen vaihtoehto olisi esim pistää aineistot USB-tikuille, ja jakoon
> HSOpenin aikana.
>
> / Leo
>
>
> 2012/5/8 Mäkinen Esa <Esa.Makinen at hs.fi>:
>> Moi,
>>
>> Vaikuttaa mielenkiintoiselta. Ei ole tarvetta kääntää CSV-tiedostoa Exceliksi. Sen verran pitää jengin nähdä vaivaa.
>>
>> Kysymys lähinnä olisi, että koska niitä voisi julkaista?
>>
>> Toinen ongelmahan on se, että datat pitää jotenkin pystyä yhdistämään toisiinsa. Perusavaimena voinee käyttää kunnan nimeä, mutta täytynee tehdä jotkut ohjeet, miten datasettejä yhdistetään Google Docsissa yms.
>>
>> Yksi ajatus mulla oli se, että olisi yksi iso tiedosto, jossa on helvetin monta saraketta kuntakohtaista dataa.
>>
>> Esa
>>
>>
>>
>>
>>
>> Esa Mäkinen
>> Toimittaja
>>
>> Helsingin Sanomat / Kulttuuri
>> Puh. (09) 122 2581
>> Gsm 040 3540 371
>> esa.makinen at hs.fi
>> Twitter: @EsaMakinen
>> PL 85, 00089 SANOMA
>> www.hs.fi
>> a Sanoma company
>>
>> -----Alkuperäinen viesti-----
>> Lähettäjä: lmlahti at gmail.com [mailto:lmlahti at gmail.com] Puolesta Leo Lahti
>> Lähetetty: 7. toukokuuta 2012 15:31
>> Vastaanottaja: Mäkinen Esa
>> Kopio: juuso.parkkinen at gmail.com
>> Aihe: Re: Tekisittekö datapaketin HS Openiin?
>>
>> Terve Esa,
>>
>> Tilastokeskuksen StatFin-tietokannan n. 2600 avoimesta datasetistä
>> (http://pxweb2.stat.fi/database/StatFin/databasetree_fi.asp) 201 kpl
>> oli konvertoitavissa automatisoidusti csv-formaattiin. Näissä on
>> erilaisia tietoja kuntatason sosioekonomisista indikaattoreista,
>> aiempien vaalien tuloksista/ääniaktiivisuudesta jne. Näillä pääsee
>> varmasti alkuun. Tilastokeskuksen sivuilta ladattavalla ilmaisella PC
>> Edit-ohjelmalla pitäisi onnistua loppujenkin tiedostojen luku ja
>> konvertointi, mutta se pitää käsittääkseni tehdä datasetti kerrallaan
>> ja toimii vain Windows-puolella. Selvitän tämän vielä.
>>
>> Olin Tilastokeskukseen yhteydessä (Hans Baumgartner). Lisenssin
>> puolesta käytölle HSOpenissa ei ole mitään esteitä. Lupasin pistää
>> Hansille lisätietoja ongelmallisista tiedostoista - vaikuttivat
>> erittäin kiitollisilta palautteesta ja saatetaan saada lisää
>> datasettejä kovertoitua csv:ksi myöhemmin tällä viikolla.
>>
>> Excel lukee suoraan csv:tä, joten mielestäni näitä ei kannata alkaa
>> muuttamaan >200 tiedostoa erikseen excel-fileiksi - en ole selvittänyt
>> saisiko tämän jotenkin automatisoitua ja epäilen että siinä voi olla
>> ongelmia.
>>
>> Maanmittauslaitoksen kauttaa saa kuntarajat shape-fileinä, meillä on
>> niihinkin sorvissa luku- ja visualisointirutiineja, lisäksi
>> OpenGISillä ym:lla pitäisi onnistua kuvien piirtely, jos esim. kuntia
>> tahdotaan väritellä eri sävyillä datojen mukaan jne. Tällaisista
>> lähteistä voi saada täydentävää materiaalia datavaaliteemaan.
>>
>> Palaan vielä asiaan, kun saan Tilastokeskukselta lisätietoa tällä
>> viikolla. Kerro, jos tarvitset tässä vaiheessa lisätietoja tai tulee
>> muita ideoita mieleen.
>>
>> Leo
>>
>>
>> 2012/5/3 Mäkinen Esa <Esa.Makinen at hs.fi>:
>>> Moi,
>>>
>>> Mainiota! Jos maksaisimme 300 euroa tästä duunista, olisiko se sopiva?`
>>>
>>> Saisitteko ensi viikon alkupuolella, jotta saisimme datat kehittäjille?
>>>
>>> Poikolan Anttia voi vielä konsultoida, jos haluaa jotain lisätietoa. Antti toivoikin, että pääsisi sanomaan sanansa asiaan. Antti on siis mukana HS Openin järkkäilyissä.
>>>
>>> esa
>>>
>>>
>>>
>>>
>>>
>>>
>>> Esa Mäkinen
>>> Toimittaja
>>>
>>> Helsingin Sanomat / Kulttuuri
>>> Puh. (09) 122 2581
>>> Gsm 040 3540 371
>>> esa.makinen at hs.fi
>>> Twitter: @EsaMakinen
>>> PL 85, 00089 SANOMA
>>> www.hs.fi
>>> a Sanoma company
>>>
>>> -----Alkuperäinen viesti-----
>>> Lähettäjä: lmlahti at gmail.com [mailto:lmlahti at gmail.com] Puolesta Leo Lahti
>>> Lähetetty: 3. toukokuuta 2012 11:43
>>> Vastaanottaja: Mäkinen Esa
>>> Kopio: juuso.parkkinen at gmail.com
>>> Aihe: Re: Tekisittekö datapaketin HS Openiin?
>>>
>>> Moi, pitäisi onnistua, ja datavaaliasiaa olisi muutenkin nyt hyvä
>>> saada edistetyksi.
>>>
>>> Joidenkin PC Axis-tiedostojen kanssa on ollut ongelmia, mutta ainakin
>>> iso osa pitäisi saada muunnettua automatisoidusti R:ssä (toinen
>>> vaihtoehto on ilmeisesti Tilastokeskuksen PC Edit, mutta voi olla että
>>> sillä pitäisi käsitellä jokainen datasetti erikseen mikä on tietysti
>>> hankalaa kun aineistoja voi olla kymmeniä tai ehkä satoja). Katsomme
>>> asiaa lähipäivinä ja palataan tähän viimeistään ensi viikolla.
>>>
>>> Leo
>>>
>>>
>>>
>>> 2012/5/3 Mäkinen Esa <Esa.Makinen at hs.fi>:
>>>> Terve,
>>>>
>>>> Seuraavan HS Openin teema on datavaalit, ja sitä varten tarvitsisimme tilastokeskukselta kuntakohtaista dataa.
>>>>
>>>> Olen käsittänyt, että Sorvilla pystyisi hakemaan tilastokeskuksen pc-axis -dataa ja muuttamaan sen toiseen muotoon.
>>>>
>>>> Olisitteko halukkaita tekemään hakemaan tilastokeskuksen Stat.fi:stä kaiken kuntia koskevan datan, ja tekemään siitä excel- ja csv-muotoisen tiedoston? Maksaisimme korvauksen tästä.
>>>>
>>>> Esa
>>>>
>>>>
>>>>
>>>>
>>>>
>>>>
>>>>
>>>>
>>>>
>>>> Esa Mäkinen
>>>> Toimittaja
>>>>
>>>> Helsingin Sanomat / Kulttuuri
>>>> Puh. (09) 122 2581
>>>> Gsm 040 3540 371
>>>> esa.makinen at hs.fi
>>>> Twitter: @EsaMakinen
>>>> PL 85, 00089 SANOMA
>>>> www.hs.fi
>>>> a Sanoma company
>>>>
-------------- next part --------------
A non-text attachment was scrubbed...
Name: municipality.info.csv
Type: text/csv
Size: 148796 bytes
Desc: not available
URL: <http://lists.r-forge.r-project.org/pipermail/sorvi-admin/attachments/20120509/c1e6cfdc/attachment-0002.csv>
-------------- next part --------------
A non-text attachment was scrubbed...
Name: election.region.info.csv
Type: text/csv
Size: 4900 bytes
Desc: not available
URL: <http://lists.r-forge.r-project.org/pipermail/sorvi-admin/attachments/20120509/c1e6cfdc/attachment-0003.csv>
More information about the Sorvi-admin
mailing list