Moikka Louhos-posse. Liitteenä HansB:n äsken lähettämä linkkilista Tilastokeskuksen aineistojen kokeellisiin XML-versioihin, jos joku ehtii/tahtoo kokeilla onnistuuko luku R:ssä. <br><br>Leo<br><br><br><div class="gmail_quote">
---------- Forwarded message ----------<br>From: <b class="gmail_sendername">Baumgartner Hans</b> <span dir="ltr"><<a href="mailto:hans.baumgartner@stat.fi">hans.baumgartner@stat.fi</a>></span><br>Date: 2012/5/24<br>
Subject: Re(2): Re(2): Re(2): tilastokeskuksen avointen aineistojen url-listaus<br>To: Leo Lahti <<a href="mailto:leo.lahti@iki.fi">leo.lahti@iki.fi</a>><br><br><br>Terve,<br>
<br>
Tässä testimielessä StatFin "kannan" sisältö XDF XML -muodossa.<br>
<a href="http://pxweb2.stat.fi/database/StatFin/StatFin_rap_xml.csv" target="_blank">http://pxweb2.stat.fi/database/StatFin/StatFin_rap_xml.csv</a><br>
<br>
Tässä on tämänhetkinen "kannan" tilanne. XDF-tiedostoja ei vielä päivitetä kun<br>
ehkä pyynnöstä.<br>
Muunnokset ovat käynnissä ja kestävät ehkä pari tuntia ....<br>
<br>
Muista että tämä on Beta testausta ....<br>
<br>
Hans Baumgartner<br>
Tilastokeskus<br>
<br>
<br>
Leo Lahti  (22.5.2012  12:44):<br>
>Moi,<br>
><br>
>> Teemme tätä täysin ilman lisäresursseja.<br>
><br>
>Meillä sama juttu.. harrastuspohjalta.<br>
><br>
><br>
>> Ajattelin testata kokonaan testimielessä StatFin "kannan" muuntamista<br>
>> XDF-muotoon. Tämä vaatii hieman koodaamista meidän puoleltamme ...<br>
>> katsotaan mitä voimme tehdä.<br>
><br>
>XML-pohjaisena voisi ajatella sen olevan laajemmin luettavissa.<br>
><br>
><br>
>> Teoriassa olisi mahdollista tehdä PX-Editistä Opensource tuote.<br>
>> En vain millään usko että Opensource yhteisössä olisi APL osaajia.<br>
>><br>
><br>
>Voi hyvin olla, eikä niitä muokattuja versioitakaan ihan itsestään ilmaannu<br>
>välttämättä, vaikka pistäisi koodit jakoonkin.<br>
><br>
>/ Leo<br>
><br>
><br>
>> Leo Lahti  (22.5.2012  11:59):<br>
><br>
>> >Terve Hans, kiitos erittäin paljon näistä. Tämä on mielestäni hyvää ja<br>
>> >tärkeää keskustelua.<br>
>> ><br>
>> >R:n px-lukurutiinit on tosiaan eksperimentaalisia, en tiedä paraneeko tämä<br>
>> >tilanne tulevaisuudessa ainakaan kovin nopeasti. Mutta se on ollut<br>
>> >toistaseksi ainoa käytettävissä ollut keino lukea px-tiedostoja<br>
>> >automatisoidusti linuxin R-asennuksiin. Sama ongelma on nyt tullut vastaan<br>
>> >myös muille aineistoja kokeilleille, ja itse törmäsin siihen nyt toisenkin<br>
>> >projektin yhteydessä joka sisälsi px-dataa. Windows ei ole yhtä yleinen<br>
>> >järjestelmä laskentapuolella. Tiedostojen automaattinen haku winenkään<br>
>> >kautta ei ole sujuvaa, jos varsinainen laskentaympäristö ja muu data<br>
>> >sijaitsee unix-puolella.<br>
>> ><br>
>> >Meitä aihe kiinnostaa, koska rakennamme avoimeksi tutkimusvälineeksi<br>
>> >(kohderyhmänä tutkimusryhmät, järjestöt, datajournalistit jne)<br>
>> >järjestelmäriippumatonta ohjelmakirjastoa, jonka avulla olisi mahdollista<br>
>> >tehokkaasti hakea ja yhdistellä tietoa eri lähteistä (Tilastokeskus,<br>
>> >ministeröiden sivut, Maanmittauslaitos jnejne). Tätä edistäisi hyvin, jos<br>
>> >Tilastokeskuksen aineistoja olisi tulevaisuudessa saatavilla sellaisessa<br>
>> >formaatissa jota voi lukea Windowsin lisäksi muissakin järjestelmissä<br>
>> >standardivälinein.  Tämä on erityisen keskeistä silloin, kun tiedostoja<br>
>> >pitää lukea runsaita määriä jolloin manuaalinen muokkaus PC<br>
>> >Axis/Edit-ohjelmilla ei ole realistinen vaihtoehto.<br>
>> ><br>
>> >Yritämme löytää jossain välissä aikaa lähettämääsi XDF-formaattiin<br>
>> >tutustumiseen. Se saattaisi olla hyvä mahdollisuus. Metatietojen<br>
>> >esittämiseen ja eri taulujen tehokkaaseen yhdistämiseen tosiaan tarvitaan<br>
>> >hierarkkisempaa rakennetta kuin kaksiulotteiset csv-taulut, ja se on<br>
>> selvää<br>
>> >että monet tiedot eivät ole suoraan vertailukelpoisia.<br>
>> ><br>
>> >Eli tässä hieman näkökulmia meidän suunnasta, toivottavasti palaute on<br>
>> >teille hyödyllistä. Jatketaan keskustelua tilanteen mukaan, saatan olla<br>
>> >vielä lisääkin yhteydessä näiden tiimoilta. Kaiken kaikkiaan erinomainen<br>
>> >juttu, että tuota dataa on jo saatavilla ainakin PX-muodossa, ja isoa osaa<br>
>> >(n. 30% kuten eilisessä blogauksessani) siitä voi jo nyt hyödyntää<br>
>> >automaattisin välinein. Tiedostomuotojen osalta kehittämistä voisi tosiaan<br>
>> >vielä miettiä jatkoa ajatellen, arvelisin että tulevaisuudessa moni muukin<br>
>> >meidän lisäksi on kiinnostunut tekemään automatisoituja hakuja.<br>
>> ><br>
>> >ystävällisesti,<br>
>> >Leo Lahti, TkT/VTK<br>
>> ><br>
>> ><br>
>> >2012/5/11 Baumgartner Hans <<a href="mailto:hans.baumgartner@stat.fi">hans.baumgartner@stat.fi</a>><br>
>> ><br>
>> >> Terve,<br>
>> >><br>
>> >><br>
>> >> Kiitos palautteesta.<br>
>> >><br>
>> >><br>
>> >> Tänään vakioin koko kannan. Kaikki tiedostot ovat sen jälkeen 100%<br>
>> >> PC-Axis muodossa. Joku yksittäinen tiedosto voi tietenkin olla "rikki"<br>
>> >> mutta sekin pyritään korjaamaan ensi viikon aikana.<br>
>> >><br>
>> >><br>
>> >> Näyttää siltä että Espanjalaiset R:än PC-Axis parseria tehneet eivät<br>
>> >> ole testanneet kunnolla tuotettaan. Lähettämissäsi linkeissä olleet<br>
>> >> px-tiedostostot eivät mielestäni ole millään PC-Axis standardin<br>
>> vastaisia.<br>
>> >> Virheilmoitukset eivät kuvaa virhettä ... ainakaan selkeästi.<br>
>> >><br>
>> >> Jos tiedostomuodon parseria tehdään epämääräisin tiedoin ja vielä ilman<br>
>> >> kunnon testitiedostoja niin tämä on valitettavasti lopputulos.<br>
>> >><br>
>> >> Oletan että ongelmat ovat seuraavia:<br>
>> >> 1. Datassa on lukujen lisäksi tietenkin myös "." ".." "..." "...." jne.<br>
>> >> ".......<br>
>> >> " ja "-"<br>
>> >>   Meidän erotinmerkit on aina standardin mukaiset!<br>
>> >> 2. Datan voi teoriassa olla vaikka yhdessä pitkässä "pötkössä".<br>
>> >>   SUOSITUS on kuitenkin formatoida dataosio niin kuin metadata kuvaa<br>
>> sen.<br>
>> >> 3. Todella suuret taulukot "matriisit" 200milj rivejä ja 10 000<br>
>> sarakkeita<br>
>> >>   Suurin tiedosto yli 600MB<br>
>> >> 4. En usko että parseria on testattu monikielisten taulukoidsen kanssa.<br>
>> >>   Jos parseri on tehty oikein kaikki pitäisi toimia, koska PC-Axis<br>
>> >> tiedostot<br>
>> >>   ovat taakseppäin yhteensopivia.<br>
>> >>   jne.<br>
>> >><br>
>> >><br>
>> >><br>
>> >> >> Nyt meillä olisi pyrkimyksenä koota Tilastokeskuksen aineistojen<br>
>> >> >> pohjalta mahdollisimman paljon kuntakohtaista tietoa yhteen<br>
>> >> >> datamatriisiin, kunnat x muuttujat. Sain toistaiseksi automaattisesti<br>
>> >> >> konvertoitua 201 PC Axis-tiedostoa CSV-formaattiin R:llä. Vielä olisi<br>
>> >> >> n. 2400 fileä, joiden konversio kaatui, pääasiassa johonkin alla<br>
>> >> >> listatuista kolmesta ongelmasta. Meidän kannalta on melko sama, onko<br>
>> >> >> data saatavissa PC Axis-, xdf- tai csv-formaatissa, kunhan erillisten<br>
>> >> >> taulujen luenta ja yhdistely saataisiin automatisoiduksi. Otan<br>
>> >> >> mielelläni vastaan vinkkejä asian suhteen, jos tulee jotakin mieleen.<br>
>> >><br>
>> >> Kaikki ei ole yhdistettävissä aikasarjaksi vaikka se näyttää siltä.<br>
>> Tiedot<br>
>> >> eivät välttämättä ole vertailukelkoisia.<br>
>> >><br>
>> >> Mitä tapahtuu taulukon muille metatiedoille kun taulukko muunnetaan CSV<br>
>> >> muotoon.<br>
>> >> Ainakin taulukon alahuomautus (note ja notex) ovat pakko olla mukana<br>
>> muuten<br>
>> >> tiedon käyttö on vaikeaa.<br>
>> >><br>
>> >> Jos tässä on kysessä jatkuvapäivitteinen datamatriisi niin huomioikaa<br>
>> >> seuraavat<br>
>> >> asiat.<br>
>> >> Metodit, luokitukset ja tiedostonimet voivat muuttua tarpeen mukaan.<br>
>> >> Tällaisessa "kannassa" on aina "euromuunnos" meneillään.<br>
>> >> esim. alueluokitukset muuttuvat vuosittain eikä niitä välttämättä<br>
>> (usein se<br>
>> >> kyllä onnistuu) voi summata kunnista uusimpaan aluelukoitukseen.<br>
>> >><br>
>> >> Huomaa myös että joissakin taulkoissa on salattua tietoa.<br>
>> >><br>
>> >><br>
>> >> >> Käsitinhän oikein, että XDF-formaatti on teillä vasta kokeilussa, ja<br>
>> >> >> suurinta osaa datoista ei ole saatavana tuossa muodossa?<br>
>> >><br>
>> >> Tilastotaulukoita ei ole vielä saatavissa XDF-muodossa.<br>
>> >><br>
>> >><br>
>> >> >> PC Edit on ongelmallinen, koska toimii vain Window-ympäristössä,<br>
>> mutta<br>
>> >> >> tieteellinen laskenta tapahtuu tyypillisesti unix-ympäristössä.<br>
>> >> >> Aineistojen sujuva automatisoitu haku suoraan laskentaympäristöön ei<br>
>> >> >> siis onnistu.<br>
>> >><br>
>> >> Testasimme px-tiedoston luvun PX-Editillä (3.0) Winessä. Ensimmäinen<br>
>> testi<br>
>> >> meni<br>
>> >> ongelmitta läpi.<br>
>> >> Tulemme itse käyttämään Linuxissa PX-Editiä winessä tulevaisuudessa.<br>
>> >><br>
>> >> On olemassa myös WINDOWS PC-Axis ohjelma joka on tarkoitettu<br>
>> >> loppukäyttäjille.<br>
>> >> <a href="http://tilastokeskus.fi/tup/pcaxis/lataus_asennus.html" target="_blank">http://tilastokeskus.fi/tup/pcaxis/lataus_asennus.html</a><br>
>> >> Tämä ei tietenkään ratkaise ongelmaa.<br>
>> >><br>
>> >><br>
>> >> Toivottavasti tästä on jotakin hyötyä ...<br>
>> >><br>
>> >><br>
>> >> Hans<br>
>> >><br>
>> >><br>
>> >><br>
>> >><br>
>> >><br>
>> >><br>
>> >> Leo Lahti  (8.5.2012  14:56):<br>
>> >> >Moi, tarkennus äskeiseen. Sain R:llä luettua taulukkomuotoon 761 PC<br>
>> >> >Axis-tiedostoa, eli n. 25% Tilastokeskuksen avoimista 2600<br>
>> >> >aineistosta.<br>
>> >> ><br>
>> >> >Leo<br>
>> >> ><br>
>> >> >2012/5/8 Leo Lahti <<a href="mailto:leo.lahti@iki.fi">leo.lahti@iki.fi</a>>:<br>
>> >> >> Käsitinhän oikein, että XDF-formaatti on teillä vasta kokeilussa, ja<br>
>> >> >> suurinta osaa datoista ei ole saatavana tuossa muodossa?<br>
>> >> >><br>
>> >> >> Lupasin pistää tiedoksi ongelmia, joihin törmäsin yrittäessäni lukea<br>
>> >> >> PC-Axis-tiedostoja R:llä. Ainakin viestin lopussa luetellut kolme<br>
>> >> >> virhetyyppiä toistuvat usein. Voin tarvittaessa tuottaa laajempaakin<br>
>> >> >> listaa ongelmallisista tiedostoista.<br>
>> >> >><br>
>> >> >> PC Edit on ongelmallinen, koska toimii vain Window-ympäristössä,<br>
>> mutta<br>
>> >> >> tieteellinen laskenta tapahtuu tyypillisesti unix-ympäristössä.<br>
>> >> >> Aineistojen sujuva automatisoitu haku suoraan laskentaympäristöön ei<br>
>> >> >> siis onnistu.<br>
>> >> >><br>
>> >> >> Nyt meillä olisi pyrkimyksenä koota Tilastokeskuksen aineistojen<br>
>> >> >> pohjalta mahdollisimman paljon kuntakohtaista tietoa yhteen<br>
>> >> >> datamatriisiin, kunnat x muuttujat. Sain toistaiseksi automaattisesti<br>
>> >> >> konvertoitua 201 PC Axis-tiedostoa CSV-formaattiin R:llä. Vielä olisi<br>
>> >> >> n. 2400 fileä, joiden konversio kaatui, pääasiassa johonkin alla<br>
>> >> >> listatuista kolmesta ongelmasta. Meidän kannalta on melko sama, onko<br>
>> >> >> data saatavissa PC Axis-, xdf- tai csv-formaatissa, kunhan erillisten<br>
>> >> >> taulujen luenta ja yhdistely saataisiin automatisoiduksi. Otan<br>
>> >> >> mielelläni vastaan vinkkejä asian suhteen, jos tulee jotakin mieleen.<br>
>> >> >><br>
>> >> >> Palataan muiden kohtien osalta asiaan tuonnempana. Iso kiitos avusta!<br>
>> >> >><br>
>> >> >> yst. / Leo Lahti<br>
>> >> >><br>
>> >> >><br>
>> >> >><br>
>> >> >> * VIRHE 1<br>
>> >> >><br>
>> >> >>  *** caught segfault ***<br>
>> >> >> address 0x7fffd86214b8, cause 'memory not mapped'<br>
>> >> >><br>
>> >> >> Traceback:<br>
>> >> >>  1: strsplit(a, "//=//")<br>
>> >> >>  2: do.call(rbind, strsplit(a, "//=//"))<br>
>> >> >>  3: read.px("<a href="http://pxweb2.stat" target="_blank">http://pxweb2.stat</a>.<br>
>> >> fi/database/StatFin/asu/ashi/003_ashi_tau_108.px")<br>
>> >> >><br>
>> >> >><br>
>> >> >> =============================================<br>
>> >> >><br>
>> >> >> * VIRHE 2<br>
>> >> >><br>
>> >> >>> px <- read.px(bad.px.files[["<a href="http://pxweb2.stat" target="_blank">http://pxweb2.stat</a>.<br>
>> >> fi/database/StatFin/asu/ashi/004_ashi_tau_109_fi.px" ]]); df <- as.data.<br>
>> >> frame(px)<br>
>> >> >> Segmentation fault<br>
>> >> >><br>
>> >> >> ==============================================<br>
>> >> >><br>
>> >> >> * VIRHE 3<br>
>> >> >><br>
>> >> >>> px <- read.px("<a href="http://pxweb2.stat" target="_blank">http://pxweb2.stat</a>.<br>
>> >> fi/database/StatFin/kan/pt/190_pt_tau_109_fi.px");<br>
>> >> >>> df <- as.data.frame(px)<br>
>> >> >> Error in data.frame(do.call(expand.grid, values[names.vals]),<br>
>> >> x$DATA$value) :<br>
>> >> >>  arguments imply differing number of rows: 128, 26912<br>
>> >><br>
>> >><br>
>> >><br>
>> ><br>
>><br>
>><br>
>><br>
><br>
<br>
<br>
</div><br>