Tässä vielä jotain matskua Tilastokeskuksen XML-aineistolle.<br><br><div class="gmail_quote">---------- Forwarded message ----------<br>From: <b class="gmail_sendername">Baumgartner Hans</b> <span dir="ltr"><<a href="mailto:hans.baumgartner@stat.fi">hans.baumgartner@stat.fi</a>></span><br>
Date: 2012/5/24<br>Subject: Re(2): Re(2): Re(2): Re(2): tilastokeskuksen avointen aineistojen url-listaus<br>To: Leo Lahti <<a href="mailto:leo.lahti@iki.fi">leo.lahti@iki.fi</a>><br><br><br>Terve,<br>
<br>
Tarvitsette vielä:<br>
<a href="http://www.stat.fi/org/tut/dthemes/drafts/cossi_en.html" target="_blank">http://www.stat.fi/org/tut/dthemes/drafts/cossi_en.html</a><br>
<a href="http://www.stat.fi/org/tut/dthemes/drafts/cossi_pxml_en.html" target="_blank">http://www.stat.fi/org/tut/dthemes/drafts/cossi_pxml_en.html</a><br>
<br>
<a href="http://en.wikipedia.org/wiki/Extensible_Data_Format" target="_blank">http://en.wikipedia.org/wiki/Extensible_Data_Format</a><br>
<a href="http://xml.coverpages.org/xdf.html" target="_blank">http://xml.coverpages.org/xdf.html</a><br>
<br>
Hans<br>
<br>
<br>
Leo Lahti (24.5.2012 13:38):<br>
>Terve Hans, paljon kiitoksia tästä. Koitamme löytää jostain välistä aikaa<br>
>ainakin vilkaista näitä, palaillaan asiaan.<br>
><br>
>Leo<br>
><br>
><br>
>2012/5/24 Baumgartner Hans <<a href="mailto:hans.baumgartner@stat.fi">hans.baumgartner@stat.fi</a>><br>
><br>
>> Terve,<br>
>><br>
>> Tässä testimielessä StatFin "kannan" sisältö XDF XML -muodossa.<br>
>> <a href="http://pxweb2.stat.fi/database/StatFin/StatFin_rap_xml.csv" target="_blank">http://pxweb2.stat.fi/database/StatFin/StatFin_rap_xml.csv</a><br>
>><br>
>> Tässä on tämänhetkinen "kannan" tilanne. XDF-tiedostoja ei vielä päivitetä<br>
>> kun<br>
>> ehkä pyynnöstä.<br>
>> Muunnokset ovat käynnissä ja kestävät ehkä pari tuntia ....<br>
>><br>
>> Muista että tämä on Beta testausta ....<br>
>><br>
>> Hans Baumgartner<br>
>> Tilastokeskus<br>
>><br>
>><br>
>> Leo Lahti (22.5.2012 12:44):<br>
>> >Moi,<br>
>> ><br>
>> >> Teemme tätä täysin ilman lisäresursseja.<br>
>> ><br>
>> >Meillä sama juttu.. harrastuspohjalta.<br>
>> ><br>
>> ><br>
>> >> Ajattelin testata kokonaan testimielessä StatFin "kannan" muuntamista<br>
>> >> XDF-muotoon. Tämä vaatii hieman koodaamista meidän puoleltamme ...<br>
>> >> katsotaan mitä voimme tehdä.<br>
>> ><br>
>> >XML-pohjaisena voisi ajatella sen olevan laajemmin luettavissa.<br>
>> ><br>
>> ><br>
>> >> Teoriassa olisi mahdollista tehdä PX-Editistä Opensource tuote.<br>
>> >> En vain millään usko että Opensource yhteisössä olisi APL osaajia.<br>
>> >><br>
>> ><br>
>> >Voi hyvin olla, eikä niitä muokattuja versioitakaan ihan itsestään<br>
>> ilmaannu<br>
>> >välttämättä, vaikka pistäisi koodit jakoonkin.<br>
>> ><br>
>> >/ Leo<br>
>> ><br>
>> ><br>
>> >> Leo Lahti (22.5.2012 11:59):<br>
>> ><br>
>> >> >Terve Hans, kiitos erittäin paljon näistä. Tämä on mielestäni hyvää ja<br>
>> >> >tärkeää keskustelua.<br>
>> >> ><br>
>> >> >R:n px-lukurutiinit on tosiaan eksperimentaalisia, en tiedä paraneeko<br>
>> tämä<br>
>> >> >tilanne tulevaisuudessa ainakaan kovin nopeasti. Mutta se on ollut<br>
>> >> >toistaseksi ainoa käytettävissä ollut keino lukea px-tiedostoja<br>
>> >> >automatisoidusti linuxin R-asennuksiin. Sama ongelma on nyt tullut<br>
>> vastaan<br>
>> >> >myös muille aineistoja kokeilleille, ja itse törmäsin siihen nyt<br>
>> toisenkin<br>
>> >> >projektin yhteydessä joka sisälsi px-dataa. Windows ei ole yhtä yleinen<br>
>> >> >järjestelmä laskentapuolella. Tiedostojen automaattinen haku winenkään<br>
>> >> >kautta ei ole sujuvaa, jos varsinainen laskentaympäristö ja muu data<br>
>> >> >sijaitsee unix-puolella.<br>
>> >> ><br>
>> >> >Meitä aihe kiinnostaa, koska rakennamme avoimeksi tutkimusvälineeksi<br>
>> >> >(kohderyhmänä tutkimusryhmät, järjestöt, datajournalistit jne)<br>
>> >> >järjestelmäriippumatonta ohjelmakirjastoa, jonka avulla olisi<br>
>> mahdollista<br>
>> >> >tehokkaasti hakea ja yhdistellä tietoa eri lähteistä (Tilastokeskus,<br>
>> >> >ministeröiden sivut, Maanmittauslaitos jnejne). Tätä edistäisi hyvin,<br>
>> jos<br>
>> >> >Tilastokeskuksen aineistoja olisi tulevaisuudessa saatavilla<br>
>> sellaisessa<br>
>> >> >formaatissa jota voi lukea Windowsin lisäksi muissakin järjestelmissä<br>
>> >> >standardivälinein. Tämä on erityisen keskeistä silloin, kun tiedostoja<br>
>> >> >pitää lukea runsaita määriä jolloin manuaalinen muokkaus PC<br>
>> >> >Axis/Edit-ohjelmilla ei ole realistinen vaihtoehto.<br>
>> >> ><br>
>> >> >Yritämme löytää jossain välissä aikaa lähettämääsi XDF-formaattiin<br>
>> >> >tutustumiseen. Se saattaisi olla hyvä mahdollisuus. Metatietojen<br>
>> >> >esittämiseen ja eri taulujen tehokkaaseen yhdistämiseen tosiaan<br>
>> tarvitaan<br>
>> >> >hierarkkisempaa rakennetta kuin kaksiulotteiset csv-taulut, ja se on<br>
>> >> selvää<br>
>> >> >että monet tiedot eivät ole suoraan vertailukelpoisia.<br>
>> >> ><br>
>> >> >Eli tässä hieman näkökulmia meidän suunnasta, toivottavasti palaute on<br>
>> >> >teille hyödyllistä. Jatketaan keskustelua tilanteen mukaan, saatan olla<br>
>> >> >vielä lisääkin yhteydessä näiden tiimoilta. Kaiken kaikkiaan<br>
>> erinomainen<br>
>> >> >juttu, että tuota dataa on jo saatavilla ainakin PX-muodossa, ja isoa<br>
>> osaa<br>
>> >> >(n. 30% kuten eilisessä blogauksessani) siitä voi jo nyt hyödyntää<br>
>> >> >automaattisin välinein. Tiedostomuotojen osalta kehittämistä voisi<br>
>> tosiaan<br>
>> >> >vielä miettiä jatkoa ajatellen, arvelisin että tulevaisuudessa moni<br>
>> muukin<br>
>> >> >meidän lisäksi on kiinnostunut tekemään automatisoituja hakuja.<br>
>> >> ><br>
>> >> >ystävällisesti,<br>
>> >> >Leo Lahti, TkT/VTK<br>
>> >> ><br>
>> >> ><br>
>> >> >2012/5/11 Baumgartner Hans <<a href="mailto:hans.baumgartner@stat.fi">hans.baumgartner@stat.fi</a>><br>
>> >> ><br>
>> >> >> Terve,<br>
>> >> >><br>
>> >> >><br>
>> >> >> Kiitos palautteesta.<br>
>> >> >><br>
>> >> >><br>
>> >> >> Tänään vakioin koko kannan. Kaikki tiedostot ovat sen jälkeen 100%<br>
>> >> >> PC-Axis muodossa. Joku yksittäinen tiedosto voi tietenkin olla<br>
>> "rikki"<br>
>> >> >> mutta sekin pyritään korjaamaan ensi viikon aikana.<br>
>> >> >><br>
>> >> >><br>
>> >> >> Näyttää siltä että Espanjalaiset R:än PC-Axis parseria tehneet eivät<br>
>> >> >> ole testanneet kunnolla tuotettaan. Lähettämissäsi linkeissä olleet<br>
>> >> >> px-tiedostostot eivät mielestäni ole millään PC-Axis standardin<br>
>> >> vastaisia.<br>
>> >> >> Virheilmoitukset eivät kuvaa virhettä ... ainakaan selkeästi.<br>
>> >> >><br>
>> >> >> Jos tiedostomuodon parseria tehdään epämääräisin tiedoin ja vielä<br>
>> ilman<br>
>> >> >> kunnon testitiedostoja niin tämä on valitettavasti lopputulos.<br>
>> >> >><br>
>> >> >> Oletan että ongelmat ovat seuraavia:<br>
>> >> >> 1. Datassa on lukujen lisäksi tietenkin myös "." ".." "..." "...."<br>
>> jne.<br>
>> >> >> ".......<br>
>> >> >> " ja "-"<br>
>> >> >> Meidän erotinmerkit on aina standardin mukaiset!<br>
>> >> >> 2. Datan voi teoriassa olla vaikka yhdessä pitkässä "pötkössä".<br>
>> >> >> SUOSITUS on kuitenkin formatoida dataosio niin kuin metadata kuvaa<br>
>> >> sen.<br>
>> >> >> 3. Todella suuret taulukot "matriisit" 200milj rivejä ja 10 000<br>
>> >> sarakkeita<br>
>> >> >> Suurin tiedosto yli 600MB<br>
>> >> >> 4. En usko että parseria on testattu monikielisten taulukoidsen<br>
>> kanssa.<br>
>> >> >> Jos parseri on tehty oikein kaikki pitäisi toimia, koska PC-Axis<br>
>> >> >> tiedostot<br>
>> >> >> ovat taakseppäin yhteensopivia.<br>
>> >> >> jne.<br>
>> >> >><br>
>> >> >><br>
>> >> >><br>
>> >> >> >> Nyt meillä olisi pyrkimyksenä koota Tilastokeskuksen aineistojen<br>
>> >> >> >> pohjalta mahdollisimman paljon kuntakohtaista tietoa yhteen<br>
>> >> >> >> datamatriisiin, kunnat x muuttujat. Sain toistaiseksi<br>
>> automaattisesti<br>
>> >> >> >> konvertoitua 201 PC Axis-tiedostoa CSV-formaattiin R:llä. Vielä<br>
>> olisi<br>
>> >> >> >> n. 2400 fileä, joiden konversio kaatui, pääasiassa johonkin alla<br>
>> >> >> >> listatuista kolmesta ongelmasta. Meidän kannalta on melko sama,<br>
>> onko<br>
>> >> >> >> data saatavissa PC Axis-, xdf- tai csv-formaatissa, kunhan<br>
>> erillisten<br>
>> >> >> >> taulujen luenta ja yhdistely saataisiin automatisoiduksi. Otan<br>
>> >> >> >> mielelläni vastaan vinkkejä asian suhteen, jos tulee jotakin<br>
>> mieleen.<br>
>> >> >><br>
>> >> >> Kaikki ei ole yhdistettävissä aikasarjaksi vaikka se näyttää siltä.<br>
>> >> Tiedot<br>
>> >> >> eivät välttämättä ole vertailukelkoisia.<br>
>> >> >><br>
>> >> >> Mitä tapahtuu taulukon muille metatiedoille kun taulukko muunnetaan<br>
>> CSV<br>
>> >> >> muotoon.<br>
>> >> >> Ainakin taulukon alahuomautus (note ja notex) ovat pakko olla mukana<br>
>> >> muuten<br>
>> >> >> tiedon käyttö on vaikeaa.<br>
>> >> >><br>
>> >> >> Jos tässä on kysessä jatkuvapäivitteinen datamatriisi niin huomioikaa<br>
>> >> >> seuraavat<br>
>> >> >> asiat.<br>
>> >> >> Metodit, luokitukset ja tiedostonimet voivat muuttua tarpeen mukaan.<br>
>> >> >> Tällaisessa "kannassa" on aina "euromuunnos" meneillään.<br>
>> >> >> esim. alueluokitukset muuttuvat vuosittain eikä niitä välttämättä<br>
>> >> (usein se<br>
>> >> >> kyllä onnistuu) voi summata kunnista uusimpaan aluelukoitukseen.<br>
>> >> >><br>
>> >> >> Huomaa myös että joissakin taulkoissa on salattua tietoa.<br>
>> >> >><br>
>> >> >><br>
>> >> >> >> Käsitinhän oikein, että XDF-formaatti on teillä vasta kokeilussa,<br>
>> ja<br>
>> >> >> >> suurinta osaa datoista ei ole saatavana tuossa muodossa?<br>
>> >> >><br>
>> >> >> Tilastotaulukoita ei ole vielä saatavissa XDF-muodossa.<br>
>> >> >><br>
>> >> >><br>
>> >> >> >> PC Edit on ongelmallinen, koska toimii vain Window-ympäristössä,<br>
>> >> mutta<br>
>> >> >> >> tieteellinen laskenta tapahtuu tyypillisesti unix-ympäristössä.<br>
>> >> >> >> Aineistojen sujuva automatisoitu haku suoraan laskentaympäristöön<br>
>> ei<br>
>> >> >> >> siis onnistu.<br>
>> >> >><br>
>> >> >> Testasimme px-tiedoston luvun PX-Editillä (3.0) Winessä. Ensimmäinen<br>
>> >> testi<br>
>> >> >> meni<br>
>> >> >> ongelmitta läpi.<br>
>> >> >> Tulemme itse käyttämään Linuxissa PX-Editiä winessä tulevaisuudessa.<br>
>> >> >><br>
>> >> >> On olemassa myös WINDOWS PC-Axis ohjelma joka on tarkoitettu<br>
>> >> >> loppukäyttäjille.<br>
>> >> >> <a href="http://tilastokeskus.fi/tup/pcaxis/lataus_asennus.html" target="_blank">http://tilastokeskus.fi/tup/pcaxis/lataus_asennus.html</a><br>
>> >> >> Tämä ei tietenkään ratkaise ongelmaa.<br>
>> >> >><br>
>> >> >><br>
>> >> >> Toivottavasti tästä on jotakin hyötyä ...<br>
>> >> >><br>
>> >> >><br>
>> >> >> Hans<br>
>> >> >><br>
>> >> >><br>
>> >> >><br>
>> >> >><br>
>> >> >><br>
>> >> >><br>
>> >> >> Leo Lahti (8.5.2012 14:56):<br>
>> >> >> >Moi, tarkennus äskeiseen. Sain R:llä luettua taulukkomuotoon 761 PC<br>
>> >> >> >Axis-tiedostoa, eli n. 25% Tilastokeskuksen avoimista 2600<br>
>> >> >> >aineistosta.<br>
>> >> >> ><br>
>> >> >> >Leo<br>
>> >> >> ><br>
>> >> >> >2012/5/8 Leo Lahti <<a href="mailto:leo.lahti@iki.fi">leo.lahti@iki.fi</a>>:<br>
>> >> >> >> Käsitinhän oikein, että XDF-formaatti on teillä vasta kokeilussa,<br>
>> ja<br>
>> >> >> >> suurinta osaa datoista ei ole saatavana tuossa muodossa?<br>
>> >> >> >><br>
>> >> >> >> Lupasin pistää tiedoksi ongelmia, joihin törmäsin yrittäessäni<br>
>> lukea<br>
>> >> >> >> PC-Axis-tiedostoja R:llä. Ainakin viestin lopussa luetellut kolme<br>
>> >> >> >> virhetyyppiä toistuvat usein. Voin tarvittaessa tuottaa<br>
>> laajempaakin<br>
>> >> >> >> listaa ongelmallisista tiedostoista.<br>
>> >> >> >><br>
>> >> >> >> PC Edit on ongelmallinen, koska toimii vain Window-ympäristössä,<br>
>> >> mutta<br>
>> >> >> >> tieteellinen laskenta tapahtuu tyypillisesti unix-ympäristössä.<br>
>> >> >> >> Aineistojen sujuva automatisoitu haku suoraan laskentaympäristöön<br>
>> ei<br>
>> >> >> >> siis onnistu.<br>
>> >> >> >><br>
>> >> >> >> Nyt meillä olisi pyrkimyksenä koota Tilastokeskuksen aineistojen<br>
>> >> >> >> pohjalta mahdollisimman paljon kuntakohtaista tietoa yhteen<br>
>> >> >> >> datamatriisiin, kunnat x muuttujat. Sain toistaiseksi<br>
>> automaattisesti<br>
>> >> >> >> konvertoitua 201 PC Axis-tiedostoa CSV-formaattiin R:llä. Vielä<br>
>> olisi<br>
>> >> >> >> n. 2400 fileä, joiden konversio kaatui, pääasiassa johonkin alla<br>
>> >> >> >> listatuista kolmesta ongelmasta. Meidän kannalta on melko sama,<br>
>> onko<br>
>> >> >> >> data saatavissa PC Axis-, xdf- tai csv-formaatissa, kunhan<br>
>> erillisten<br>
>> >> >> >> taulujen luenta ja yhdistely saataisiin automatisoiduksi. Otan<br>
>> >> >> >> mielelläni vastaan vinkkejä asian suhteen, jos tulee jotakin<br>
>> mieleen.<br>
>> >> >> >><br>
>> >> >> >> Palataan muiden kohtien osalta asiaan tuonnempana. Iso kiitos<br>
>> avusta!<br>
>> >> >> >><br>
>> >> >> >> yst. / Leo Lahti<br>
>> >> >> >><br>
>> >> >> >><br>
>> >> >> >><br>
>> >> >> >> * VIRHE 1<br>
>> >> >> >><br>
>> >> >> >> *** caught segfault ***<br>
>> >> >> >> address 0x7fffd86214b8, cause 'memory not mapped'<br>
>> >> >> >><br>
>> >> >> >> Traceback:<br>
>> >> >> >> 1: strsplit(a, "//=//")<br>
>> >> >> >> 2: do.call(rbind, strsplit(a, "//=//"))<br>
>> >> >> >> 3: read.px("<a href="http://pxweb2.stat" target="_blank">http://pxweb2.stat</a>.<br>
>> >> >> fi/database/StatFin/asu/ashi/003_ashi_tau_108.px")<br>
>> >> >> >><br>
>> >> >> >><br>
>> >> >> >> =============================================<br>
>> >> >> >><br>
>> >> >> >> * VIRHE 2<br>
>> >> >> >><br>
>> >> >> >>> px <- read.px(bad.px.files[["<a href="http://pxweb2.stat" target="_blank">http://pxweb2.stat</a>.<br>
>> >> >> fi/database/StatFin/asu/ashi/004_ashi_tau_109_fi.px" ]]); df <-<br>
>> as.data.<br>
>> >> >> frame(px)<br>
>> >> >> >> Segmentation fault<br>
>> >> >> >><br>
>> >> >> >> ==============================================<br>
>> >> >> >><br>
>> >> >> >> * VIRHE 3<br>
>> >> >> >><br>
>> >> >> >>> px <- read.px("<a href="http://pxweb2.stat" target="_blank">http://pxweb2.stat</a>.<br>
>> >> >> fi/database/StatFin/kan/pt/190_pt_tau_109_fi.px");<br>
>> >> >> >>> df <- as.data.frame(px)<br>
>> >> >> >> Error in data.frame(do.call(expand.grid, values[names.vals]),<br>
>> >> >> x$DATA$value) :<br>
>> >> >> >> arguments imply differing number of rows: 128, 26912<br>
>> >> >><br>
>> >> >><br>
>> >> >><br>
>> >> ><br>
>> >><br>
>> >><br>
>> >><br>
>> ><br>
>><br>
>><br>
>><br>
><br>
<br>
<br>
</div><br>