[Sorvi-admin] Re(2): Re(2): Re(2): tilastokeskuksen avointen aineistojen url-listaus

Leo Lahti leo.lahti at iki.fi
Thu May 24 12:38:52 CEST 2012


Terve Hans, paljon kiitoksia tästä. Koitamme löytää jostain välistä aikaa
ainakin vilkaista näitä, palaillaan asiaan.

Leo


2012/5/24 Baumgartner Hans <hans.baumgartner at stat.fi>

> Terve,
>
> Tässä testimielessä StatFin "kannan" sisältö XDF XML -muodossa.
> http://pxweb2.stat.fi/database/StatFin/StatFin_rap_xml.csv
>
> Tässä on tämänhetkinen "kannan" tilanne. XDF-tiedostoja ei vielä päivitetä
> kun
> ehkä pyynnöstä.
> Muunnokset ovat käynnissä ja kestävät ehkä pari tuntia ....
>
> Muista että tämä on Beta testausta ....
>
> Hans Baumgartner
> Tilastokeskus
>
>
> Leo Lahti  (22.5.2012  12:44):
> >Moi,
> >
> >> Teemme tätä täysin ilman lisäresursseja.
> >
> >Meillä sama juttu.. harrastuspohjalta.
> >
> >
> >> Ajattelin testata kokonaan testimielessä StatFin "kannan" muuntamista
> >> XDF-muotoon. Tämä vaatii hieman koodaamista meidän puoleltamme ...
> >> katsotaan mitä voimme tehdä.
> >
> >XML-pohjaisena voisi ajatella sen olevan laajemmin luettavissa.
> >
> >
> >> Teoriassa olisi mahdollista tehdä PX-Editistä Opensource tuote.
> >> En vain millään usko että Opensource yhteisössä olisi APL osaajia.
> >>
> >
> >Voi hyvin olla, eikä niitä muokattuja versioitakaan ihan itsestään
> ilmaannu
> >välttämättä, vaikka pistäisi koodit jakoonkin.
> >
> >/ Leo
> >
> >
> >> Leo Lahti  (22.5.2012  11:59):
> >
> >> >Terve Hans, kiitos erittäin paljon näistä. Tämä on mielestäni hyvää ja
> >> >tärkeää keskustelua.
> >> >
> >> >R:n px-lukurutiinit on tosiaan eksperimentaalisia, en tiedä paraneeko
> tämä
> >> >tilanne tulevaisuudessa ainakaan kovin nopeasti. Mutta se on ollut
> >> >toistaseksi ainoa käytettävissä ollut keino lukea px-tiedostoja
> >> >automatisoidusti linuxin R-asennuksiin. Sama ongelma on nyt tullut
> vastaan
> >> >myös muille aineistoja kokeilleille, ja itse törmäsin siihen nyt
> toisenkin
> >> >projektin yhteydessä joka sisälsi px-dataa. Windows ei ole yhtä yleinen
> >> >järjestelmä laskentapuolella. Tiedostojen automaattinen haku winenkään
> >> >kautta ei ole sujuvaa, jos varsinainen laskentaympäristö ja muu data
> >> >sijaitsee unix-puolella.
> >> >
> >> >Meitä aihe kiinnostaa, koska rakennamme avoimeksi tutkimusvälineeksi
> >> >(kohderyhmänä tutkimusryhmät, järjestöt, datajournalistit jne)
> >> >järjestelmäriippumatonta ohjelmakirjastoa, jonka avulla olisi
> mahdollista
> >> >tehokkaasti hakea ja yhdistellä tietoa eri lähteistä (Tilastokeskus,
> >> >ministeröiden sivut, Maanmittauslaitos jnejne). Tätä edistäisi hyvin,
> jos
> >> >Tilastokeskuksen aineistoja olisi tulevaisuudessa saatavilla
> sellaisessa
> >> >formaatissa jota voi lukea Windowsin lisäksi muissakin järjestelmissä
> >> >standardivälinein.  Tämä on erityisen keskeistä silloin, kun tiedostoja
> >> >pitää lukea runsaita määriä jolloin manuaalinen muokkaus PC
> >> >Axis/Edit-ohjelmilla ei ole realistinen vaihtoehto.
> >> >
> >> >Yritämme löytää jossain välissä aikaa lähettämääsi XDF-formaattiin
> >> >tutustumiseen. Se saattaisi olla hyvä mahdollisuus. Metatietojen
> >> >esittämiseen ja eri taulujen tehokkaaseen yhdistämiseen tosiaan
> tarvitaan
> >> >hierarkkisempaa rakennetta kuin kaksiulotteiset csv-taulut, ja se on
> >> selvää
> >> >että monet tiedot eivät ole suoraan vertailukelpoisia.
> >> >
> >> >Eli tässä hieman näkökulmia meidän suunnasta, toivottavasti palaute on
> >> >teille hyödyllistä. Jatketaan keskustelua tilanteen mukaan, saatan olla
> >> >vielä lisääkin yhteydessä näiden tiimoilta. Kaiken kaikkiaan
> erinomainen
> >> >juttu, että tuota dataa on jo saatavilla ainakin PX-muodossa, ja isoa
> osaa
> >> >(n. 30% kuten eilisessä blogauksessani) siitä voi jo nyt hyödyntää
> >> >automaattisin välinein. Tiedostomuotojen osalta kehittämistä voisi
> tosiaan
> >> >vielä miettiä jatkoa ajatellen, arvelisin että tulevaisuudessa moni
> muukin
> >> >meidän lisäksi on kiinnostunut tekemään automatisoituja hakuja.
> >> >
> >> >ystävällisesti,
> >> >Leo Lahti, TkT/VTK
> >> >
> >> >
> >> >2012/5/11 Baumgartner Hans <hans.baumgartner at stat.fi>
> >> >
> >> >> Terve,
> >> >>
> >> >>
> >> >> Kiitos palautteesta.
> >> >>
> >> >>
> >> >> Tänään vakioin koko kannan. Kaikki tiedostot ovat sen jälkeen 100%
> >> >> PC-Axis muodossa. Joku yksittäinen tiedosto voi tietenkin olla
> "rikki"
> >> >> mutta sekin pyritään korjaamaan ensi viikon aikana.
> >> >>
> >> >>
> >> >> Näyttää siltä että Espanjalaiset R:än PC-Axis parseria tehneet eivät
> >> >> ole testanneet kunnolla tuotettaan. Lähettämissäsi linkeissä olleet
> >> >> px-tiedostostot eivät mielestäni ole millään PC-Axis standardin
> >> vastaisia.
> >> >> Virheilmoitukset eivät kuvaa virhettä ... ainakaan selkeästi.
> >> >>
> >> >> Jos tiedostomuodon parseria tehdään epämääräisin tiedoin ja vielä
> ilman
> >> >> kunnon testitiedostoja niin tämä on valitettavasti lopputulos.
> >> >>
> >> >> Oletan että ongelmat ovat seuraavia:
> >> >> 1. Datassa on lukujen lisäksi tietenkin myös "." ".." "..." "...."
> jne.
> >> >> ".......
> >> >> " ja "-"
> >> >>   Meidän erotinmerkit on aina standardin mukaiset!
> >> >> 2. Datan voi teoriassa olla vaikka yhdessä pitkässä "pötkössä".
> >> >>   SUOSITUS on kuitenkin formatoida dataosio niin kuin metadata kuvaa
> >> sen.
> >> >> 3. Todella suuret taulukot "matriisit" 200milj rivejä ja 10 000
> >> sarakkeita
> >> >>   Suurin tiedosto yli 600MB
> >> >> 4. En usko että parseria on testattu monikielisten taulukoidsen
> kanssa.
> >> >>   Jos parseri on tehty oikein kaikki pitäisi toimia, koska PC-Axis
> >> >> tiedostot
> >> >>   ovat taakseppäin yhteensopivia.
> >> >>   jne.
> >> >>
> >> >>
> >> >>
> >> >> >> Nyt meillä olisi pyrkimyksenä koota Tilastokeskuksen aineistojen
> >> >> >> pohjalta mahdollisimman paljon kuntakohtaista tietoa yhteen
> >> >> >> datamatriisiin, kunnat x muuttujat. Sain toistaiseksi
> automaattisesti
> >> >> >> konvertoitua 201 PC Axis-tiedostoa CSV-formaattiin R:llä. Vielä
> olisi
> >> >> >> n. 2400 fileä, joiden konversio kaatui, pääasiassa johonkin alla
> >> >> >> listatuista kolmesta ongelmasta. Meidän kannalta on melko sama,
> onko
> >> >> >> data saatavissa PC Axis-, xdf- tai csv-formaatissa, kunhan
> erillisten
> >> >> >> taulujen luenta ja yhdistely saataisiin automatisoiduksi. Otan
> >> >> >> mielelläni vastaan vinkkejä asian suhteen, jos tulee jotakin
> mieleen.
> >> >>
> >> >> Kaikki ei ole yhdistettävissä aikasarjaksi vaikka se näyttää siltä.
> >> Tiedot
> >> >> eivät välttämättä ole vertailukelkoisia.
> >> >>
> >> >> Mitä tapahtuu taulukon muille metatiedoille kun taulukko muunnetaan
> CSV
> >> >> muotoon.
> >> >> Ainakin taulukon alahuomautus (note ja notex) ovat pakko olla mukana
> >> muuten
> >> >> tiedon käyttö on vaikeaa.
> >> >>
> >> >> Jos tässä on kysessä jatkuvapäivitteinen datamatriisi niin huomioikaa
> >> >> seuraavat
> >> >> asiat.
> >> >> Metodit, luokitukset ja tiedostonimet voivat muuttua tarpeen mukaan.
> >> >> Tällaisessa "kannassa" on aina "euromuunnos" meneillään.
> >> >> esim. alueluokitukset muuttuvat vuosittain eikä niitä välttämättä
> >> (usein se
> >> >> kyllä onnistuu) voi summata kunnista uusimpaan aluelukoitukseen.
> >> >>
> >> >> Huomaa myös että joissakin taulkoissa on salattua tietoa.
> >> >>
> >> >>
> >> >> >> Käsitinhän oikein, että XDF-formaatti on teillä vasta kokeilussa,
> ja
> >> >> >> suurinta osaa datoista ei ole saatavana tuossa muodossa?
> >> >>
> >> >> Tilastotaulukoita ei ole vielä saatavissa XDF-muodossa.
> >> >>
> >> >>
> >> >> >> PC Edit on ongelmallinen, koska toimii vain Window-ympäristössä,
> >> mutta
> >> >> >> tieteellinen laskenta tapahtuu tyypillisesti unix-ympäristössä.
> >> >> >> Aineistojen sujuva automatisoitu haku suoraan laskentaympäristöön
> ei
> >> >> >> siis onnistu.
> >> >>
> >> >> Testasimme px-tiedoston luvun PX-Editillä (3.0) Winessä. Ensimmäinen
> >> testi
> >> >> meni
> >> >> ongelmitta läpi.
> >> >> Tulemme itse käyttämään Linuxissa PX-Editiä winessä tulevaisuudessa.
> >> >>
> >> >> On olemassa myös WINDOWS PC-Axis ohjelma joka on tarkoitettu
> >> >> loppukäyttäjille.
> >> >> http://tilastokeskus.fi/tup/pcaxis/lataus_asennus.html
> >> >> Tämä ei tietenkään ratkaise ongelmaa.
> >> >>
> >> >>
> >> >> Toivottavasti tästä on jotakin hyötyä ...
> >> >>
> >> >>
> >> >> Hans
> >> >>
> >> >>
> >> >>
> >> >>
> >> >>
> >> >>
> >> >> Leo Lahti  (8.5.2012  14:56):
> >> >> >Moi, tarkennus äskeiseen. Sain R:llä luettua taulukkomuotoon 761 PC
> >> >> >Axis-tiedostoa, eli n. 25% Tilastokeskuksen avoimista 2600
> >> >> >aineistosta.
> >> >> >
> >> >> >Leo
> >> >> >
> >> >> >2012/5/8 Leo Lahti <leo.lahti at iki.fi>:
> >> >> >> Käsitinhän oikein, että XDF-formaatti on teillä vasta kokeilussa,
> ja
> >> >> >> suurinta osaa datoista ei ole saatavana tuossa muodossa?
> >> >> >>
> >> >> >> Lupasin pistää tiedoksi ongelmia, joihin törmäsin yrittäessäni
> lukea
> >> >> >> PC-Axis-tiedostoja R:llä. Ainakin viestin lopussa luetellut kolme
> >> >> >> virhetyyppiä toistuvat usein. Voin tarvittaessa tuottaa
> laajempaakin
> >> >> >> listaa ongelmallisista tiedostoista.
> >> >> >>
> >> >> >> PC Edit on ongelmallinen, koska toimii vain Window-ympäristössä,
> >> mutta
> >> >> >> tieteellinen laskenta tapahtuu tyypillisesti unix-ympäristössä.
> >> >> >> Aineistojen sujuva automatisoitu haku suoraan laskentaympäristöön
> ei
> >> >> >> siis onnistu.
> >> >> >>
> >> >> >> Nyt meillä olisi pyrkimyksenä koota Tilastokeskuksen aineistojen
> >> >> >> pohjalta mahdollisimman paljon kuntakohtaista tietoa yhteen
> >> >> >> datamatriisiin, kunnat x muuttujat. Sain toistaiseksi
> automaattisesti
> >> >> >> konvertoitua 201 PC Axis-tiedostoa CSV-formaattiin R:llä. Vielä
> olisi
> >> >> >> n. 2400 fileä, joiden konversio kaatui, pääasiassa johonkin alla
> >> >> >> listatuista kolmesta ongelmasta. Meidän kannalta on melko sama,
> onko
> >> >> >> data saatavissa PC Axis-, xdf- tai csv-formaatissa, kunhan
> erillisten
> >> >> >> taulujen luenta ja yhdistely saataisiin automatisoiduksi. Otan
> >> >> >> mielelläni vastaan vinkkejä asian suhteen, jos tulee jotakin
> mieleen.
> >> >> >>
> >> >> >> Palataan muiden kohtien osalta asiaan tuonnempana. Iso kiitos
> avusta!
> >> >> >>
> >> >> >> yst. / Leo Lahti
> >> >> >>
> >> >> >>
> >> >> >>
> >> >> >> * VIRHE 1
> >> >> >>
> >> >> >>  *** caught segfault ***
> >> >> >> address 0x7fffd86214b8, cause 'memory not mapped'
> >> >> >>
> >> >> >> Traceback:
> >> >> >>  1: strsplit(a, "//=//")
> >> >> >>  2: do.call(rbind, strsplit(a, "//=//"))
> >> >> >>  3: read.px("http://pxweb2.stat.
> >> >> fi/database/StatFin/asu/ashi/003_ashi_tau_108.px")
> >> >> >>
> >> >> >>
> >> >> >> =============================================
> >> >> >>
> >> >> >> * VIRHE 2
> >> >> >>
> >> >> >>> px <- read.px(bad.px.files[["http://pxweb2.stat.
> >> >> fi/database/StatFin/asu/ashi/004_ashi_tau_109_fi.px" ]]); df <-
> as.data.
> >> >> frame(px)
> >> >> >> Segmentation fault
> >> >> >>
> >> >> >> ==============================================
> >> >> >>
> >> >> >> * VIRHE 3
> >> >> >>
> >> >> >>> px <- read.px("http://pxweb2.stat.
> >> >> fi/database/StatFin/kan/pt/190_pt_tau_109_fi.px");
> >> >> >>> df <- as.data.frame(px)
> >> >> >> Error in data.frame(do.call(expand.grid, values[names.vals]),
> >> >> x$DATA$value) :
> >> >> >>  arguments imply differing number of rows: 128, 26912
> >> >>
> >> >>
> >> >>
> >> >
> >>
> >>
> >>
> >
>
>
>
-------------- next part --------------
An HTML attachment was scrubbed...
URL: <http://lists.r-forge.r-project.org/pipermail/sorvi-admin/attachments/20120524/5a6ebbb0/attachment-0001.html>


More information about the Sorvi-admin mailing list