[Sorvi-admin] Fwd: Re(2): Re(2): Re(2): tilastokeskuksen avointen aineistojen url-listaus

Thu May 24 12:37:34 CEST 2012

Moikka Louhos-posse. Liitteenä HansB:n äsken lähettämä linkkilista
Tilastokeskuksen aineistojen kokeellisiin XML-versioihin, jos joku
ehtii/tahtoo kokeilla onnistuuko luku R:ssä.

Leo

---------- Forwarded message ----------
From: Baumgartner Hans <hans.baumgartner at stat.fi>
Date: 2012/5/24
Subject: Re(2): Re(2): Re(2): tilastokeskuksen avointen aineistojen
url-listaus
To: Leo Lahti <leo.lahti at iki.fi>

Terve,

Tässä testimielessä StatFin "kannan" sisältö XDF XML -muodossa.
http://pxweb2.stat.fi/database/StatFin/StatFin_rap_xml.csv

Tässä on tämänhetkinen "kannan" tilanne. XDF-tiedostoja ei vielä päivitetä
kun
ehkä pyynnöstä.
Muunnokset ovat käynnissä ja kestävät ehkä pari tuntia ....

Muista että tämä on Beta testausta ....

Hans Baumgartner
Tilastokeskus

Leo Lahti  (22.5.2012  12:44):
>Moi,
>
>> Teemme tätä täysin ilman lisäresursseja.
>
>Meillä sama juttu.. harrastuspohjalta.
>
>
>> Ajattelin testata kokonaan testimielessä StatFin "kannan" muuntamista
>> XDF-muotoon. Tämä vaatii hieman koodaamista meidän puoleltamme ...
>> katsotaan mitä voimme tehdä.
>
>XML-pohjaisena voisi ajatella sen olevan laajemmin luettavissa.
>
>
>> Teoriassa olisi mahdollista tehdä PX-Editistä Opensource tuote.
>> En vain millään usko että Opensource yhteisössä olisi APL osaajia.
>>
>
>Voi hyvin olla, eikä niitä muokattuja versioitakaan ihan itsestään ilmaannu
>välttämättä, vaikka pistäisi koodit jakoonkin.
>
>/ Leo
>
>
>> Leo Lahti  (22.5.2012  11:59):
>
>> >Terve Hans, kiitos erittäin paljon näistä. Tämä on mielestäni hyvää ja
>> >tärkeää keskustelua.
>> >
>> >R:n px-lukurutiinit on tosiaan eksperimentaalisia, en tiedä paraneeko
tämä
>> >tilanne tulevaisuudessa ainakaan kovin nopeasti. Mutta se on ollut
>> >toistaseksi ainoa käytettävissä ollut keino lukea px-tiedostoja
>> >automatisoidusti linuxin R-asennuksiin. Sama ongelma on nyt tullut
vastaan
>> >myös muille aineistoja kokeilleille, ja itse törmäsin siihen nyt
toisenkin
>> >projektin yhteydessä joka sisälsi px-dataa. Windows ei ole yhtä yleinen
>> >järjestelmä laskentapuolella. Tiedostojen automaattinen haku winenkään
>> >kautta ei ole sujuvaa, jos varsinainen laskentaympäristö ja muu data
>> >sijaitsee unix-puolella.
>> >
>> >Meitä aihe kiinnostaa, koska rakennamme avoimeksi tutkimusvälineeksi
>> >(kohderyhmänä tutkimusryhmät, järjestöt, datajournalistit jne)
>> >järjestelmäriippumatonta ohjelmakirjastoa, jonka avulla olisi
mahdollista
>> >tehokkaasti hakea ja yhdistellä tietoa eri lähteistä (Tilastokeskus,
>> >ministeröiden sivut, Maanmittauslaitos jnejne). Tätä edistäisi hyvin,
jos
>> >Tilastokeskuksen aineistoja olisi tulevaisuudessa saatavilla sellaisessa
>> >formaatissa jota voi lukea Windowsin lisäksi muissakin järjestelmissä
>> >standardivälinein.  Tämä on erityisen keskeistä silloin, kun tiedostoja
>> >pitää lukea runsaita määriä jolloin manuaalinen muokkaus PC
>> >Axis/Edit-ohjelmilla ei ole realistinen vaihtoehto.
>> >
>> >Yritämme löytää jossain välissä aikaa lähettämääsi XDF-formaattiin
>> >tutustumiseen. Se saattaisi olla hyvä mahdollisuus. Metatietojen
>> >esittämiseen ja eri taulujen tehokkaaseen yhdistämiseen tosiaan
tarvitaan
>> >hierarkkisempaa rakennetta kuin kaksiulotteiset csv-taulut, ja se on
>> selvää
>> >että monet tiedot eivät ole suoraan vertailukelpoisia.
>> >
>> >Eli tässä hieman näkökulmia meidän suunnasta, toivottavasti palaute on
>> >teille hyödyllistä. Jatketaan keskustelua tilanteen mukaan, saatan olla
>> >vielä lisääkin yhteydessä näiden tiimoilta. Kaiken kaikkiaan erinomainen
>> >juttu, että tuota dataa on jo saatavilla ainakin PX-muodossa, ja isoa
osaa
>> >(n. 30% kuten eilisessä blogauksessani) siitä voi jo nyt hyödyntää
>> >automaattisin välinein. Tiedostomuotojen osalta kehittämistä voisi
tosiaan
>> >vielä miettiä jatkoa ajatellen, arvelisin että tulevaisuudessa moni
muukin
>> >meidän lisäksi on kiinnostunut tekemään automatisoituja hakuja.
>> >
>> >ystävällisesti,
>> >Leo Lahti, TkT/VTK
>> >
>> >
>> >2012/5/11 Baumgartner Hans <hans.baumgartner at stat.fi>
>> >
>> >> Terve,
>> >>
>> >>
>> >> Kiitos palautteesta.
>> >>
>> >>
>> >> Tänään vakioin koko kannan. Kaikki tiedostot ovat sen jälkeen 100%
>> >> PC-Axis muodossa. Joku yksittäinen tiedosto voi tietenkin olla "rikki"
>> >> mutta sekin pyritään korjaamaan ensi viikon aikana.
>> >>
>> >>
>> >> Näyttää siltä että Espanjalaiset R:än PC-Axis parseria tehneet eivät
>> >> ole testanneet kunnolla tuotettaan. Lähettämissäsi linkeissä olleet
>> >> px-tiedostostot eivät mielestäni ole millään PC-Axis standardin
>> vastaisia.
>> >> Virheilmoitukset eivät kuvaa virhettä ... ainakaan selkeästi.
>> >>
>> >> Jos tiedostomuodon parseria tehdään epämääräisin tiedoin ja vielä
ilman
>> >> kunnon testitiedostoja niin tämä on valitettavasti lopputulos.
>> >>
>> >> Oletan että ongelmat ovat seuraavia:
>> >> 1. Datassa on lukujen lisäksi tietenkin myös "." ".." "..." "...."
jne.
>> >> ".......
>> >> " ja "-"
>> >>   Meidän erotinmerkit on aina standardin mukaiset!
>> >> 2. Datan voi teoriassa olla vaikka yhdessä pitkässä "pötkössä".
>> >>   SUOSITUS on kuitenkin formatoida dataosio niin kuin metadata kuvaa
>> sen.
>> >> 3. Todella suuret taulukot "matriisit" 200milj rivejä ja 10 000
>> sarakkeita
>> >>   Suurin tiedosto yli 600MB
>> >> 4. En usko että parseria on testattu monikielisten taulukoidsen
kanssa.
>> >>   Jos parseri on tehty oikein kaikki pitäisi toimia, koska PC-Axis
>> >> tiedostot
>> >>   ovat taakseppäin yhteensopivia.
>> >>   jne.
>> >>
>> >>
>> >>
>> >> >> Nyt meillä olisi pyrkimyksenä koota Tilastokeskuksen aineistojen
>> >> >> pohjalta mahdollisimman paljon kuntakohtaista tietoa yhteen
>> >> >> datamatriisiin, kunnat x muuttujat. Sain toistaiseksi
automaattisesti
>> >> >> konvertoitua 201 PC Axis-tiedostoa CSV-formaattiin R:llä. Vielä
olisi
>> >> >> n. 2400 fileä, joiden konversio kaatui, pääasiassa johonkin alla
>> >> >> listatuista kolmesta ongelmasta. Meidän kannalta on melko sama,
onko
>> >> >> data saatavissa PC Axis-, xdf- tai csv-formaatissa, kunhan
erillisten
>> >> >> taulujen luenta ja yhdistely saataisiin automatisoiduksi. Otan
>> >> >> mielelläni vastaan vinkkejä asian suhteen, jos tulee jotakin
mieleen.
>> >>
>> >> Kaikki ei ole yhdistettävissä aikasarjaksi vaikka se näyttää siltä.
>> Tiedot
>> >> eivät välttämättä ole vertailukelkoisia.
>> >>
>> >> Mitä tapahtuu taulukon muille metatiedoille kun taulukko muunnetaan
CSV
>> >> muotoon.
>> >> Ainakin taulukon alahuomautus (note ja notex) ovat pakko olla mukana
>> muuten
>> >> tiedon käyttö on vaikeaa.
>> >>
>> >> Jos tässä on kysessä jatkuvapäivitteinen datamatriisi niin huomioikaa
>> >> seuraavat
>> >> asiat.
>> >> Metodit, luokitukset ja tiedostonimet voivat muuttua tarpeen mukaan.
>> >> Tällaisessa "kannassa" on aina "euromuunnos" meneillään.
>> >> esim. alueluokitukset muuttuvat vuosittain eikä niitä välttämättä
>> (usein se
>> >> kyllä onnistuu) voi summata kunnista uusimpaan aluelukoitukseen.
>> >>
>> >> Huomaa myös että joissakin taulkoissa on salattua tietoa.
>> >>
>> >>
>> >> >> Käsitinhän oikein, että XDF-formaatti on teillä vasta kokeilussa,
ja
>> >> >> suurinta osaa datoista ei ole saatavana tuossa muodossa?
>> >>
>> >> Tilastotaulukoita ei ole vielä saatavissa XDF-muodossa.
>> >>
>> >>
>> >> >> PC Edit on ongelmallinen, koska toimii vain Window-ympäristössä,
>> mutta
>> >> >> tieteellinen laskenta tapahtuu tyypillisesti unix-ympäristössä.
>> >> >> Aineistojen sujuva automatisoitu haku suoraan laskentaympäristöön
ei
>> >> >> siis onnistu.
>> >>
>> >> Testasimme px-tiedoston luvun PX-Editillä (3.0) Winessä. Ensimmäinen
>> testi
>> >> meni
>> >> ongelmitta läpi.
>> >> Tulemme itse käyttämään Linuxissa PX-Editiä winessä tulevaisuudessa.
>> >>
>> >> On olemassa myös WINDOWS PC-Axis ohjelma joka on tarkoitettu
>> >> loppukäyttäjille.
>> >> http://tilastokeskus.fi/tup/pcaxis/lataus_asennus.html
>> >> Tämä ei tietenkään ratkaise ongelmaa.
>> >>
>> >>
>> >> Toivottavasti tästä on jotakin hyötyä ...
>> >>
>> >>
>> >> Hans
>> >>
>> >>
>> >>
>> >>
>> >>
>> >>
>> >> Leo Lahti  (8.5.2012  14:56):
>> >> >Moi, tarkennus äskeiseen. Sain R:llä luettua taulukkomuotoon 761 PC
>> >> >Axis-tiedostoa, eli n. 25% Tilastokeskuksen avoimista 2600
>> >> >aineistosta.
>> >> >
>> >> >Leo
>> >> >
>> >> >2012/5/8 Leo Lahti <leo.lahti at iki.fi>:
>> >> >> Käsitinhän oikein, että XDF-formaatti on teillä vasta kokeilussa,
ja
>> >> >> suurinta osaa datoista ei ole saatavana tuossa muodossa?
>> >> >>
>> >> >> Lupasin pistää tiedoksi ongelmia, joihin törmäsin yrittäessäni
lukea
>> >> >> PC-Axis-tiedostoja R:llä. Ainakin viestin lopussa luetellut kolme
>> >> >> virhetyyppiä toistuvat usein. Voin tarvittaessa tuottaa
laajempaakin
>> >> >> listaa ongelmallisista tiedostoista.
>> >> >>
>> >> >> PC Edit on ongelmallinen, koska toimii vain Window-ympäristössä,
>> mutta
>> >> >> tieteellinen laskenta tapahtuu tyypillisesti unix-ympäristössä.
>> >> >> Aineistojen sujuva automatisoitu haku suoraan laskentaympäristöön
ei
>> >> >> siis onnistu.
>> >> >>
>> >> >> Nyt meillä olisi pyrkimyksenä koota Tilastokeskuksen aineistojen
>> >> >> pohjalta mahdollisimman paljon kuntakohtaista tietoa yhteen
>> >> >> datamatriisiin, kunnat x muuttujat. Sain toistaiseksi
automaattisesti
>> >> >> konvertoitua 201 PC Axis-tiedostoa CSV-formaattiin R:llä. Vielä
olisi
>> >> >> n. 2400 fileä, joiden konversio kaatui, pääasiassa johonkin alla
>> >> >> listatuista kolmesta ongelmasta. Meidän kannalta on melko sama,
onko
>> >> >> data saatavissa PC Axis-, xdf- tai csv-formaatissa, kunhan
erillisten
>> >> >> taulujen luenta ja yhdistely saataisiin automatisoiduksi. Otan
>> >> >> mielelläni vastaan vinkkejä asian suhteen, jos tulee jotakin
mieleen.
>> >> >>
>> >> >> Palataan muiden kohtien osalta asiaan tuonnempana. Iso kiitos
avusta!
>> >> >>
>> >> >> yst. / Leo Lahti
>> >> >>
>> >> >>
>> >> >>
>> >> >> * VIRHE 1
>> >> >>
>> >> >>  *** caught segfault ***
>> >> >> address 0x7fffd86214b8, cause 'memory not mapped'
>> >> >>
>> >> >> Traceback:
>> >> >>  1: strsplit(a, "//=//")
>> >> >>  2: do.call(rbind, strsplit(a, "//=//"))
>> >> >>  3: read.px("http://pxweb2.stat.
>> >> fi/database/StatFin/asu/ashi/003_ashi_tau_108.px")
>> >> >>
>> >> >>
>> >> >> =============================================
>> >> >>
>> >> >> * VIRHE 2
>> >> >>
>> >> >>> px <- read.px(bad.px.files[["http://pxweb2.stat.
>> >> fi/database/StatFin/asu/ashi/004_ashi_tau_109_fi.px" ]]); df <-
as.data.
>> >> frame(px)
>> >> >> Segmentation fault
>> >> >>
>> >> >> ==============================================
>> >> >>
>> >> >> * VIRHE 3
>> >> >>
>> >> >>> px <- read.px("http://pxweb2.stat.
>> >> fi/database/StatFin/kan/pt/190_pt_tau_109_fi.px");
>> >> >>> df <- as.data.frame(px)
>> >> >> Error in data.frame(do.call(expand.grid, values[names.vals]),
>> >> x$DATA$value) :
>> >> >>  arguments imply differing number of rows: 128, 26912
>> >>
>> >>
>> >>
>> >
>>
>>
>>
>
-------------- next part --------------
An HTML attachment was scrubbed...
URL: <http://lists.r-forge.r-project.org/pipermail/sorvi-admin/attachments/20120524/8d074558/attachment-0001.html>
-------------- next part --------------
A non-text attachment was scrubbed...
Name: StatFin_rap_xml.csv
Type: text/csv
Size: 860428 bytes
Desc: not available
URL: <http://lists.r-forge.r-project.org/pipermail/sorvi-admin/attachments/20120524/8d074558/attachment-0001.csv>