Moikka Louhos-posse. Liitteenä HansB:n äsken lähettämä linkkilista Tilastokeskuksen aineistojen kokeellisiin XML-versioihin, jos joku ehtii/tahtoo kokeilla onnistuuko luku R:ssä. <br><br>Leo<br><br><br><div class="gmail_quote">

---------- Forwarded message ----------<br>From: <b class="gmail_sendername">Baumgartner Hans</b> <span dir="ltr"><<a href="mailto:hans.baumgartner@stat.fi">hans.baumgartner@stat.fi</a>></span><br>Date: 2012/5/24<br>

Subject: Re(2): Re(2): Re(2): tilastokeskuksen avointen aineistojen url-listaus<br>To: Leo Lahti <<a href="mailto:leo.lahti@iki.fi">leo.lahti@iki.fi</a>><br><br><br>Terve,<br>

<br>

Tässä testimielessä StatFin "kannan" sisältö XDF XML -muodossa.<br>

<a href="http://pxweb2.stat.fi/database/StatFin/StatFin_rap_xml.csv" target="_blank">http://pxweb2.stat.fi/database/StatFin/StatFin_rap_xml.csv</a><br>

<br>

Tässä on tämänhetkinen "kannan" tilanne. XDF-tiedostoja ei vielä päivitetä kun<br>

ehkä pyynnöstä.<br>

Muunnokset ovat käynnissä ja kestävät ehkä pari tuntia ....<br>

<br>

Muista että tämä on Beta testausta ....<br>

<br>

Hans Baumgartner<br>

Tilastokeskus<br>

<br>

<br>

Leo Lahti  (22.5.2012  12:44):<br>

>Moi,<br>

><br>

>> Teemme tätä täysin ilman lisäresursseja.<br>

><br>

>Meillä sama juttu.. harrastuspohjalta.<br>

><br>

><br>

>> Ajattelin testata kokonaan testimielessä StatFin "kannan" muuntamista<br>

>> XDF-muotoon. Tämä vaatii hieman koodaamista meidän puoleltamme ...<br>

>> katsotaan mitä voimme tehdä.<br>

><br>

>XML-pohjaisena voisi ajatella sen olevan laajemmin luettavissa.<br>

><br>

><br>

>> Teoriassa olisi mahdollista tehdä PX-Editistä Opensource tuote.<br>

>> En vain millään usko että Opensource yhteisössä olisi APL osaajia.<br>

>><br>

><br>

>Voi hyvin olla, eikä niitä muokattuja versioitakaan ihan itsestään ilmaannu<br>

>välttämättä, vaikka pistäisi koodit jakoonkin.<br>

><br>

>/ Leo<br>

><br>

><br>

>> Leo Lahti  (22.5.2012  11:59):<br>

><br>

>> >Terve Hans, kiitos erittäin paljon näistä. Tämä on mielestäni hyvää ja<br>

>> >tärkeää keskustelua.<br>

>> ><br>

>> >R:n px-lukurutiinit on tosiaan eksperimentaalisia, en tiedä paraneeko tämä<br>

>> >tilanne tulevaisuudessa ainakaan kovin nopeasti. Mutta se on ollut<br>

>> >toistaseksi ainoa käytettävissä ollut keino lukea px-tiedostoja<br>

>> >automatisoidusti linuxin R-asennuksiin. Sama ongelma on nyt tullut vastaan<br>

>> >myös muille aineistoja kokeilleille, ja itse törmäsin siihen nyt toisenkin<br>

>> >projektin yhteydessä joka sisälsi px-dataa. Windows ei ole yhtä yleinen<br>

>> >järjestelmä laskentapuolella. Tiedostojen automaattinen haku winenkään<br>

>> >kautta ei ole sujuvaa, jos varsinainen laskentaympäristö ja muu data<br>

>> >sijaitsee unix-puolella.<br>

>> ><br>

>> >Meitä aihe kiinnostaa, koska rakennamme avoimeksi tutkimusvälineeksi<br>

>> >(kohderyhmänä tutkimusryhmät, järjestöt, datajournalistit jne)<br>

>> >järjestelmäriippumatonta ohjelmakirjastoa, jonka avulla olisi mahdollista<br>

>> >tehokkaasti hakea ja yhdistellä tietoa eri lähteistä (Tilastokeskus,<br>

>> >ministeröiden sivut, Maanmittauslaitos jnejne). Tätä edistäisi hyvin, jos<br>

>> >Tilastokeskuksen aineistoja olisi tulevaisuudessa saatavilla sellaisessa<br>

>> >formaatissa jota voi lukea Windowsin lisäksi muissakin järjestelmissä<br>

>> >standardivälinein.  Tämä on erityisen keskeistä silloin, kun tiedostoja<br>

>> >pitää lukea runsaita määriä jolloin manuaalinen muokkaus PC<br>

>> >Axis/Edit-ohjelmilla ei ole realistinen vaihtoehto.<br>

>> ><br>

>> >Yritämme löytää jossain välissä aikaa lähettämääsi XDF-formaattiin<br>

>> >tutustumiseen. Se saattaisi olla hyvä mahdollisuus. Metatietojen<br>

>> >esittämiseen ja eri taulujen tehokkaaseen yhdistämiseen tosiaan tarvitaan<br>

>> >hierarkkisempaa rakennetta kuin kaksiulotteiset csv-taulut, ja se on<br>

>> selvää<br>

>> >että monet tiedot eivät ole suoraan vertailukelpoisia.<br>

>> ><br>

>> >Eli tässä hieman näkökulmia meidän suunnasta, toivottavasti palaute on<br>

>> >teille hyödyllistä. Jatketaan keskustelua tilanteen mukaan, saatan olla<br>

>> >vielä lisääkin yhteydessä näiden tiimoilta. Kaiken kaikkiaan erinomainen<br>

>> >juttu, että tuota dataa on jo saatavilla ainakin PX-muodossa, ja isoa osaa<br>

>> >(n. 30% kuten eilisessä blogauksessani) siitä voi jo nyt hyödyntää<br>

>> >automaattisin välinein. Tiedostomuotojen osalta kehittämistä voisi tosiaan<br>

>> >vielä miettiä jatkoa ajatellen, arvelisin että tulevaisuudessa moni muukin<br>

>> >meidän lisäksi on kiinnostunut tekemään automatisoituja hakuja.<br>

>> ><br>

>> >ystävällisesti,<br>

>> >Leo Lahti, TkT/VTK<br>

>> ><br>

>> ><br>

>> >2012/5/11 Baumgartner Hans <<a href="mailto:hans.baumgartner@stat.fi">hans.baumgartner@stat.fi</a>><br>

>> ><br>

>> >> Terve,<br>

>> >><br>

>> >><br>

>> >> Kiitos palautteesta.<br>

>> >><br>

>> >><br>

>> >> Tänään vakioin koko kannan. Kaikki tiedostot ovat sen jälkeen 100%<br>

>> >> PC-Axis muodossa. Joku yksittäinen tiedosto voi tietenkin olla "rikki"<br>

>> >> mutta sekin pyritään korjaamaan ensi viikon aikana.<br>

>> >><br>

>> >><br>

>> >> Näyttää siltä että Espanjalaiset R:än PC-Axis parseria tehneet eivät<br>

>> >> ole testanneet kunnolla tuotettaan. Lähettämissäsi linkeissä olleet<br>

>> >> px-tiedostostot eivät mielestäni ole millään PC-Axis standardin<br>

>> vastaisia.<br>

>> >> Virheilmoitukset eivät kuvaa virhettä ... ainakaan selkeästi.<br>

>> >><br>

>> >> Jos tiedostomuodon parseria tehdään epämääräisin tiedoin ja vielä ilman<br>

>> >> kunnon testitiedostoja niin tämä on valitettavasti lopputulos.<br>

>> >><br>

>> >> Oletan että ongelmat ovat seuraavia:<br>

>> >> 1. Datassa on lukujen lisäksi tietenkin myös "." ".." "..." "...." jne.<br>

>> >> ".......<br>

>> >> " ja "-"<br>

>> >>   Meidän erotinmerkit on aina standardin mukaiset!<br>

>> >> 2. Datan voi teoriassa olla vaikka yhdessä pitkässä "pötkössä".<br>

>> >>   SUOSITUS on kuitenkin formatoida dataosio niin kuin metadata kuvaa<br>

>> sen.<br>

>> >> 3. Todella suuret taulukot "matriisit" 200milj rivejä ja 10 000<br>

>> sarakkeita<br>

>> >>   Suurin tiedosto yli 600MB<br>

>> >> 4. En usko että parseria on testattu monikielisten taulukoidsen kanssa.<br>

>> >>   Jos parseri on tehty oikein kaikki pitäisi toimia, koska PC-Axis<br>

>> >> tiedostot<br>

>> >>   ovat taakseppäin yhteensopivia.<br>

>> >>   jne.<br>

>> >><br>

>> >><br>

>> >><br>

>> >> >> Nyt meillä olisi pyrkimyksenä koota Tilastokeskuksen aineistojen<br>

>> >> >> pohjalta mahdollisimman paljon kuntakohtaista tietoa yhteen<br>

>> >> >> datamatriisiin, kunnat x muuttujat. Sain toistaiseksi automaattisesti<br>

>> >> >> konvertoitua 201 PC Axis-tiedostoa CSV-formaattiin R:llä. Vielä olisi<br>

>> >> >> n. 2400 fileä, joiden konversio kaatui, pääasiassa johonkin alla<br>

>> >> >> listatuista kolmesta ongelmasta. Meidän kannalta on melko sama, onko<br>

>> >> >> data saatavissa PC Axis-, xdf- tai csv-formaatissa, kunhan erillisten<br>

>> >> >> taulujen luenta ja yhdistely saataisiin automatisoiduksi. Otan<br>

>> >> >> mielelläni vastaan vinkkejä asian suhteen, jos tulee jotakin mieleen.<br>

>> >><br>

>> >> Kaikki ei ole yhdistettävissä aikasarjaksi vaikka se näyttää siltä.<br>

>> Tiedot<br>

>> >> eivät välttämättä ole vertailukelkoisia.<br>

>> >><br>

>> >> Mitä tapahtuu taulukon muille metatiedoille kun taulukko muunnetaan CSV<br>

>> >> muotoon.<br>

>> >> Ainakin taulukon alahuomautus (note ja notex) ovat pakko olla mukana<br>

>> muuten<br>

>> >> tiedon käyttö on vaikeaa.<br>

>> >><br>

>> >> Jos tässä on kysessä jatkuvapäivitteinen datamatriisi niin huomioikaa<br>

>> >> seuraavat<br>

>> >> asiat.<br>

>> >> Metodit, luokitukset ja tiedostonimet voivat muuttua tarpeen mukaan.<br>

>> >> Tällaisessa "kannassa" on aina "euromuunnos" meneillään.<br>

>> >> esim. alueluokitukset muuttuvat vuosittain eikä niitä välttämättä<br>

>> (usein se<br>

>> >> kyllä onnistuu) voi summata kunnista uusimpaan aluelukoitukseen.<br>

>> >><br>

>> >> Huomaa myös että joissakin taulkoissa on salattua tietoa.<br>

>> >><br>

>> >><br>

>> >> >> Käsitinhän oikein, että XDF-formaatti on teillä vasta kokeilussa, ja<br>

>> >> >> suurinta osaa datoista ei ole saatavana tuossa muodossa?<br>

>> >><br>

>> >> Tilastotaulukoita ei ole vielä saatavissa XDF-muodossa.<br>

>> >><br>

>> >><br>

>> >> >> PC Edit on ongelmallinen, koska toimii vain Window-ympäristössä,<br>

>> mutta<br>

>> >> >> tieteellinen laskenta tapahtuu tyypillisesti unix-ympäristössä.<br>

>> >> >> Aineistojen sujuva automatisoitu haku suoraan laskentaympäristöön ei<br>

>> >> >> siis onnistu.<br>

>> >><br>

>> >> Testasimme px-tiedoston luvun PX-Editillä (3.0) Winessä. Ensimmäinen<br>

>> testi<br>

>> >> meni<br>

>> >> ongelmitta läpi.<br>

>> >> Tulemme itse käyttämään Linuxissa PX-Editiä winessä tulevaisuudessa.<br>

>> >><br>

>> >> On olemassa myös WINDOWS PC-Axis ohjelma joka on tarkoitettu<br>

>> >> loppukäyttäjille.<br>

>> >> <a href="http://tilastokeskus.fi/tup/pcaxis/lataus_asennus.html" target="_blank">http://tilastokeskus.fi/tup/pcaxis/lataus_asennus.html</a><br>

>> >> Tämä ei tietenkään ratkaise ongelmaa.<br>

>> >><br>

>> >><br>

>> >> Toivottavasti tästä on jotakin hyötyä ...<br>

>> >><br>

>> >><br>

>> >> Hans<br>

>> >><br>

>> >><br>

>> >><br>

>> >><br>

>> >><br>

>> >><br>

>> >> Leo Lahti  (8.5.2012  14:56):<br>

>> >> >Moi, tarkennus äskeiseen. Sain R:llä luettua taulukkomuotoon 761 PC<br>

>> >> >Axis-tiedostoa, eli n. 25% Tilastokeskuksen avoimista 2600<br>

>> >> >aineistosta.<br>

>> >> ><br>

>> >> >Leo<br>

>> >> ><br>

>> >> >2012/5/8 Leo Lahti <<a href="mailto:leo.lahti@iki.fi">leo.lahti@iki.fi</a>>:<br>

>> >> >> Käsitinhän oikein, että XDF-formaatti on teillä vasta kokeilussa, ja<br>

>> >> >> suurinta osaa datoista ei ole saatavana tuossa muodossa?<br>

>> >> >><br>

>> >> >> Lupasin pistää tiedoksi ongelmia, joihin törmäsin yrittäessäni lukea<br>

>> >> >> PC-Axis-tiedostoja R:llä. Ainakin viestin lopussa luetellut kolme<br>

>> >> >> virhetyyppiä toistuvat usein. Voin tarvittaessa tuottaa laajempaakin<br>

>> >> >> listaa ongelmallisista tiedostoista.<br>

>> >> >><br>

>> >> >> PC Edit on ongelmallinen, koska toimii vain Window-ympäristössä,<br>

>> mutta<br>

>> >> >> tieteellinen laskenta tapahtuu tyypillisesti unix-ympäristössä.<br>

>> >> >> Aineistojen sujuva automatisoitu haku suoraan laskentaympäristöön ei<br>

>> >> >> siis onnistu.<br>

>> >> >><br>

>> >> >> Nyt meillä olisi pyrkimyksenä koota Tilastokeskuksen aineistojen<br>

>> >> >> pohjalta mahdollisimman paljon kuntakohtaista tietoa yhteen<br>

>> >> >> datamatriisiin, kunnat x muuttujat. Sain toistaiseksi automaattisesti<br>

>> >> >> konvertoitua 201 PC Axis-tiedostoa CSV-formaattiin R:llä. Vielä olisi<br>

>> >> >> n. 2400 fileä, joiden konversio kaatui, pääasiassa johonkin alla<br>

>> >> >> listatuista kolmesta ongelmasta. Meidän kannalta on melko sama, onko<br>

>> >> >> data saatavissa PC Axis-, xdf- tai csv-formaatissa, kunhan erillisten<br>

>> >> >> taulujen luenta ja yhdistely saataisiin automatisoiduksi. Otan<br>

>> >> >> mielelläni vastaan vinkkejä asian suhteen, jos tulee jotakin mieleen.<br>

>> >> >><br>

>> >> >> Palataan muiden kohtien osalta asiaan tuonnempana. Iso kiitos avusta!<br>

>> >> >><br>

>> >> >> yst. / Leo Lahti<br>

>> >> >><br>

>> >> >><br>

>> >> >><br>

>> >> >> * VIRHE 1<br>

>> >> >><br>

>> >> >>  *** caught segfault ***<br>

>> >> >> address 0x7fffd86214b8, cause 'memory not mapped'<br>

>> >> >><br>

>> >> >> Traceback:<br>

>> >> >>  1: strsplit(a, "//=//")<br>

>> >> >>  2: do.call(rbind, strsplit(a, "//=//"))<br>

>> >> >>  3: read.px("<a href="http://pxweb2.stat" target="_blank">http://pxweb2.stat</a>.<br>

>> >> fi/database/StatFin/asu/ashi/003_ashi_tau_108.px")<br>

>> >> >><br>

>> >> >><br>

>> >> >> =============================================<br>

>> >> >><br>

>> >> >> * VIRHE 2<br>

>> >> >><br>

>> >> >>> px <- read.px(bad.px.files[["<a href="http://pxweb2.stat" target="_blank">http://pxweb2.stat</a>.<br>

>> >> fi/database/StatFin/asu/ashi/004_ashi_tau_109_fi.px" ]]); df <- as.data.<br>

>> >> frame(px)<br>

>> >> >> Segmentation fault<br>

>> >> >><br>

>> >> >> ==============================================<br>

>> >> >><br>

>> >> >> * VIRHE 3<br>

>> >> >><br>

>> >> >>> px <- read.px("<a href="http://pxweb2.stat" target="_blank">http://pxweb2.stat</a>.<br>

>> >> fi/database/StatFin/kan/pt/190_pt_tau_109_fi.px");<br>

>> >> >>> df <- as.data.frame(px)<br>

>> >> >> Error in data.frame(do.call(expand.grid, values[names.vals]),<br>

>> >> x$DATA$value) :<br>

>> >> >>  arguments imply differing number of rows: 128, 26912<br>

>> >><br>

>> >><br>

>> >><br>

>> ><br>

>><br>

>><br>

>><br>

><br>

<br>

<br>

</div><br>