[Sorvi-admin] Fwd: Re(2): Re(2): Re(2): Re(2): tilastokeskuksen avointen aineistojen url-listaus

Leo Lahti leo.lahti at iki.fi
Thu May 24 14:22:33 CEST 2012


Tässä vielä jotain matskua Tilastokeskuksen XML-aineistolle.

---------- Forwarded message ----------
From: Baumgartner Hans <hans.baumgartner at stat.fi>
Date: 2012/5/24
Subject: Re(2): Re(2): Re(2): Re(2): tilastokeskuksen avointen aineistojen
url-listaus
To: Leo Lahti <leo.lahti at iki.fi>


Terve,

Tarvitsette vielä:
http://www.stat.fi/org/tut/dthemes/drafts/cossi_en.html
http://www.stat.fi/org/tut/dthemes/drafts/cossi_pxml_en.html

http://en.wikipedia.org/wiki/Extensible_Data_Format
http://xml.coverpages.org/xdf.html

Hans


Leo Lahti  (24.5.2012  13:38):
>Terve Hans, paljon kiitoksia tästä. Koitamme löytää jostain välistä aikaa
>ainakin vilkaista näitä, palaillaan asiaan.
>
>Leo
>
>
>2012/5/24 Baumgartner Hans <hans.baumgartner at stat.fi>
>
>> Terve,
>>
>> Tässä testimielessä StatFin "kannan" sisältö XDF XML -muodossa.
>> http://pxweb2.stat.fi/database/StatFin/StatFin_rap_xml.csv
>>
>> Tässä on tämänhetkinen "kannan" tilanne. XDF-tiedostoja ei vielä
päivitetä
>> kun
>> ehkä pyynnöstä.
>> Muunnokset ovat käynnissä ja kestävät ehkä pari tuntia ....
>>
>> Muista että tämä on Beta testausta ....
>>
>> Hans Baumgartner
>> Tilastokeskus
>>
>>
>> Leo Lahti  (22.5.2012  12:44):
>> >Moi,
>> >
>> >> Teemme tätä täysin ilman lisäresursseja.
>> >
>> >Meillä sama juttu.. harrastuspohjalta.
>> >
>> >
>> >> Ajattelin testata kokonaan testimielessä StatFin "kannan" muuntamista
>> >> XDF-muotoon. Tämä vaatii hieman koodaamista meidän puoleltamme ...
>> >> katsotaan mitä voimme tehdä.
>> >
>> >XML-pohjaisena voisi ajatella sen olevan laajemmin luettavissa.
>> >
>> >
>> >> Teoriassa olisi mahdollista tehdä PX-Editistä Opensource tuote.
>> >> En vain millään usko että Opensource yhteisössä olisi APL osaajia.
>> >>
>> >
>> >Voi hyvin olla, eikä niitä muokattuja versioitakaan ihan itsestään
>> ilmaannu
>> >välttämättä, vaikka pistäisi koodit jakoonkin.
>> >
>> >/ Leo
>> >
>> >
>> >> Leo Lahti  (22.5.2012  11:59):
>> >
>> >> >Terve Hans, kiitos erittäin paljon näistä. Tämä on mielestäni hyvää
ja
>> >> >tärkeää keskustelua.
>> >> >
>> >> >R:n px-lukurutiinit on tosiaan eksperimentaalisia, en tiedä paraneeko
>> tämä
>> >> >tilanne tulevaisuudessa ainakaan kovin nopeasti. Mutta se on ollut
>> >> >toistaseksi ainoa käytettävissä ollut keino lukea px-tiedostoja
>> >> >automatisoidusti linuxin R-asennuksiin. Sama ongelma on nyt tullut
>> vastaan
>> >> >myös muille aineistoja kokeilleille, ja itse törmäsin siihen nyt
>> toisenkin
>> >> >projektin yhteydessä joka sisälsi px-dataa. Windows ei ole yhtä
yleinen
>> >> >järjestelmä laskentapuolella. Tiedostojen automaattinen haku
winenkään
>> >> >kautta ei ole sujuvaa, jos varsinainen laskentaympäristö ja muu data
>> >> >sijaitsee unix-puolella.
>> >> >
>> >> >Meitä aihe kiinnostaa, koska rakennamme avoimeksi tutkimusvälineeksi
>> >> >(kohderyhmänä tutkimusryhmät, järjestöt, datajournalistit jne)
>> >> >järjestelmäriippumatonta ohjelmakirjastoa, jonka avulla olisi
>> mahdollista
>> >> >tehokkaasti hakea ja yhdistellä tietoa eri lähteistä (Tilastokeskus,
>> >> >ministeröiden sivut, Maanmittauslaitos jnejne). Tätä edistäisi hyvin,
>> jos
>> >> >Tilastokeskuksen aineistoja olisi tulevaisuudessa saatavilla
>> sellaisessa
>> >> >formaatissa jota voi lukea Windowsin lisäksi muissakin järjestelmissä
>> >> >standardivälinein.  Tämä on erityisen keskeistä silloin, kun
tiedostoja
>> >> >pitää lukea runsaita määriä jolloin manuaalinen muokkaus PC
>> >> >Axis/Edit-ohjelmilla ei ole realistinen vaihtoehto.
>> >> >
>> >> >Yritämme löytää jossain välissä aikaa lähettämääsi XDF-formaattiin
>> >> >tutustumiseen. Se saattaisi olla hyvä mahdollisuus. Metatietojen
>> >> >esittämiseen ja eri taulujen tehokkaaseen yhdistämiseen tosiaan
>> tarvitaan
>> >> >hierarkkisempaa rakennetta kuin kaksiulotteiset csv-taulut, ja se on
>> >> selvää
>> >> >että monet tiedot eivät ole suoraan vertailukelpoisia.
>> >> >
>> >> >Eli tässä hieman näkökulmia meidän suunnasta, toivottavasti palaute
on
>> >> >teille hyödyllistä. Jatketaan keskustelua tilanteen mukaan, saatan
olla
>> >> >vielä lisääkin yhteydessä näiden tiimoilta. Kaiken kaikkiaan
>> erinomainen
>> >> >juttu, että tuota dataa on jo saatavilla ainakin PX-muodossa, ja isoa
>> osaa
>> >> >(n. 30% kuten eilisessä blogauksessani) siitä voi jo nyt hyödyntää
>> >> >automaattisin välinein. Tiedostomuotojen osalta kehittämistä voisi
>> tosiaan
>> >> >vielä miettiä jatkoa ajatellen, arvelisin että tulevaisuudessa moni
>> muukin
>> >> >meidän lisäksi on kiinnostunut tekemään automatisoituja hakuja.
>> >> >
>> >> >ystävällisesti,
>> >> >Leo Lahti, TkT/VTK
>> >> >
>> >> >
>> >> >2012/5/11 Baumgartner Hans <hans.baumgartner at stat.fi>
>> >> >
>> >> >> Terve,
>> >> >>
>> >> >>
>> >> >> Kiitos palautteesta.
>> >> >>
>> >> >>
>> >> >> Tänään vakioin koko kannan. Kaikki tiedostot ovat sen jälkeen 100%
>> >> >> PC-Axis muodossa. Joku yksittäinen tiedosto voi tietenkin olla
>> "rikki"
>> >> >> mutta sekin pyritään korjaamaan ensi viikon aikana.
>> >> >>
>> >> >>
>> >> >> Näyttää siltä että Espanjalaiset R:än PC-Axis parseria tehneet
eivät
>> >> >> ole testanneet kunnolla tuotettaan. Lähettämissäsi linkeissä olleet
>> >> >> px-tiedostostot eivät mielestäni ole millään PC-Axis standardin
>> >> vastaisia.
>> >> >> Virheilmoitukset eivät kuvaa virhettä ... ainakaan selkeästi.
>> >> >>
>> >> >> Jos tiedostomuodon parseria tehdään epämääräisin tiedoin ja vielä
>> ilman
>> >> >> kunnon testitiedostoja niin tämä on valitettavasti lopputulos.
>> >> >>
>> >> >> Oletan että ongelmat ovat seuraavia:
>> >> >> 1. Datassa on lukujen lisäksi tietenkin myös "." ".." "..." "...."
>> jne.
>> >> >> ".......
>> >> >> " ja "-"
>> >> >>   Meidän erotinmerkit on aina standardin mukaiset!
>> >> >> 2. Datan voi teoriassa olla vaikka yhdessä pitkässä "pötkössä".
>> >> >>   SUOSITUS on kuitenkin formatoida dataosio niin kuin metadata
kuvaa
>> >> sen.
>> >> >> 3. Todella suuret taulukot "matriisit" 200milj rivejä ja 10 000
>> >> sarakkeita
>> >> >>   Suurin tiedosto yli 600MB
>> >> >> 4. En usko että parseria on testattu monikielisten taulukoidsen
>> kanssa.
>> >> >>   Jos parseri on tehty oikein kaikki pitäisi toimia, koska PC-Axis
>> >> >> tiedostot
>> >> >>   ovat taakseppäin yhteensopivia.
>> >> >>   jne.
>> >> >>
>> >> >>
>> >> >>
>> >> >> >> Nyt meillä olisi pyrkimyksenä koota Tilastokeskuksen aineistojen
>> >> >> >> pohjalta mahdollisimman paljon kuntakohtaista tietoa yhteen
>> >> >> >> datamatriisiin, kunnat x muuttujat. Sain toistaiseksi
>> automaattisesti
>> >> >> >> konvertoitua 201 PC Axis-tiedostoa CSV-formaattiin R:llä. Vielä
>> olisi
>> >> >> >> n. 2400 fileä, joiden konversio kaatui, pääasiassa johonkin alla
>> >> >> >> listatuista kolmesta ongelmasta. Meidän kannalta on melko sama,
>> onko
>> >> >> >> data saatavissa PC Axis-, xdf- tai csv-formaatissa, kunhan
>> erillisten
>> >> >> >> taulujen luenta ja yhdistely saataisiin automatisoiduksi. Otan
>> >> >> >> mielelläni vastaan vinkkejä asian suhteen, jos tulee jotakin
>> mieleen.
>> >> >>
>> >> >> Kaikki ei ole yhdistettävissä aikasarjaksi vaikka se näyttää siltä.
>> >> Tiedot
>> >> >> eivät välttämättä ole vertailukelkoisia.
>> >> >>
>> >> >> Mitä tapahtuu taulukon muille metatiedoille kun taulukko muunnetaan
>> CSV
>> >> >> muotoon.
>> >> >> Ainakin taulukon alahuomautus (note ja notex) ovat pakko olla
mukana
>> >> muuten
>> >> >> tiedon käyttö on vaikeaa.
>> >> >>
>> >> >> Jos tässä on kysessä jatkuvapäivitteinen datamatriisi niin
huomioikaa
>> >> >> seuraavat
>> >> >> asiat.
>> >> >> Metodit, luokitukset ja tiedostonimet voivat muuttua tarpeen
mukaan.
>> >> >> Tällaisessa "kannassa" on aina "euromuunnos" meneillään.
>> >> >> esim. alueluokitukset muuttuvat vuosittain eikä niitä välttämättä
>> >> (usein se
>> >> >> kyllä onnistuu) voi summata kunnista uusimpaan aluelukoitukseen.
>> >> >>
>> >> >> Huomaa myös että joissakin taulkoissa on salattua tietoa.
>> >> >>
>> >> >>
>> >> >> >> Käsitinhän oikein, että XDF-formaatti on teillä vasta
kokeilussa,
>> ja
>> >> >> >> suurinta osaa datoista ei ole saatavana tuossa muodossa?
>> >> >>
>> >> >> Tilastotaulukoita ei ole vielä saatavissa XDF-muodossa.
>> >> >>
>> >> >>
>> >> >> >> PC Edit on ongelmallinen, koska toimii vain Window-ympäristössä,
>> >> mutta
>> >> >> >> tieteellinen laskenta tapahtuu tyypillisesti unix-ympäristössä.
>> >> >> >> Aineistojen sujuva automatisoitu haku suoraan
laskentaympäristöön
>> ei
>> >> >> >> siis onnistu.
>> >> >>
>> >> >> Testasimme px-tiedoston luvun PX-Editillä (3.0) Winessä.
Ensimmäinen
>> >> testi
>> >> >> meni
>> >> >> ongelmitta läpi.
>> >> >> Tulemme itse käyttämään Linuxissa PX-Editiä winessä
tulevaisuudessa.
>> >> >>
>> >> >> On olemassa myös WINDOWS PC-Axis ohjelma joka on tarkoitettu
>> >> >> loppukäyttäjille.
>> >> >> http://tilastokeskus.fi/tup/pcaxis/lataus_asennus.html
>> >> >> Tämä ei tietenkään ratkaise ongelmaa.
>> >> >>
>> >> >>
>> >> >> Toivottavasti tästä on jotakin hyötyä ...
>> >> >>
>> >> >>
>> >> >> Hans
>> >> >>
>> >> >>
>> >> >>
>> >> >>
>> >> >>
>> >> >>
>> >> >> Leo Lahti  (8.5.2012  14:56):
>> >> >> >Moi, tarkennus äskeiseen. Sain R:llä luettua taulukkomuotoon 761
PC
>> >> >> >Axis-tiedostoa, eli n. 25% Tilastokeskuksen avoimista 2600
>> >> >> >aineistosta.
>> >> >> >
>> >> >> >Leo
>> >> >> >
>> >> >> >2012/5/8 Leo Lahti <leo.lahti at iki.fi>:
>> >> >> >> Käsitinhän oikein, että XDF-formaatti on teillä vasta
kokeilussa,
>> ja
>> >> >> >> suurinta osaa datoista ei ole saatavana tuossa muodossa?
>> >> >> >>
>> >> >> >> Lupasin pistää tiedoksi ongelmia, joihin törmäsin yrittäessäni
>> lukea
>> >> >> >> PC-Axis-tiedostoja R:llä. Ainakin viestin lopussa luetellut
kolme
>> >> >> >> virhetyyppiä toistuvat usein. Voin tarvittaessa tuottaa
>> laajempaakin
>> >> >> >> listaa ongelmallisista tiedostoista.
>> >> >> >>
>> >> >> >> PC Edit on ongelmallinen, koska toimii vain Window-ympäristössä,
>> >> mutta
>> >> >> >> tieteellinen laskenta tapahtuu tyypillisesti unix-ympäristössä.
>> >> >> >> Aineistojen sujuva automatisoitu haku suoraan
laskentaympäristöön
>> ei
>> >> >> >> siis onnistu.
>> >> >> >>
>> >> >> >> Nyt meillä olisi pyrkimyksenä koota Tilastokeskuksen aineistojen
>> >> >> >> pohjalta mahdollisimman paljon kuntakohtaista tietoa yhteen
>> >> >> >> datamatriisiin, kunnat x muuttujat. Sain toistaiseksi
>> automaattisesti
>> >> >> >> konvertoitua 201 PC Axis-tiedostoa CSV-formaattiin R:llä. Vielä
>> olisi
>> >> >> >> n. 2400 fileä, joiden konversio kaatui, pääasiassa johonkin alla
>> >> >> >> listatuista kolmesta ongelmasta. Meidän kannalta on melko sama,
>> onko
>> >> >> >> data saatavissa PC Axis-, xdf- tai csv-formaatissa, kunhan
>> erillisten
>> >> >> >> taulujen luenta ja yhdistely saataisiin automatisoiduksi. Otan
>> >> >> >> mielelläni vastaan vinkkejä asian suhteen, jos tulee jotakin
>> mieleen.
>> >> >> >>
>> >> >> >> Palataan muiden kohtien osalta asiaan tuonnempana. Iso kiitos
>> avusta!
>> >> >> >>
>> >> >> >> yst. / Leo Lahti
>> >> >> >>
>> >> >> >>
>> >> >> >>
>> >> >> >> * VIRHE 1
>> >> >> >>
>> >> >> >>  *** caught segfault ***
>> >> >> >> address 0x7fffd86214b8, cause 'memory not mapped'
>> >> >> >>
>> >> >> >> Traceback:
>> >> >> >>  1: strsplit(a, "//=//")
>> >> >> >>  2: do.call(rbind, strsplit(a, "//=//"))
>> >> >> >>  3: read.px("http://pxweb2.stat.
>> >> >> fi/database/StatFin/asu/ashi/003_ashi_tau_108.px")
>> >> >> >>
>> >> >> >>
>> >> >> >> =============================================
>> >> >> >>
>> >> >> >> * VIRHE 2
>> >> >> >>
>> >> >> >>> px <- read.px(bad.px.files[["http://pxweb2.stat.
>> >> >> fi/database/StatFin/asu/ashi/004_ashi_tau_109_fi.px" ]]); df <-
>> as.data.
>> >> >> frame(px)
>> >> >> >> Segmentation fault
>> >> >> >>
>> >> >> >> ==============================================
>> >> >> >>
>> >> >> >> * VIRHE 3
>> >> >> >>
>> >> >> >>> px <- read.px("http://pxweb2.stat.
>> >> >> fi/database/StatFin/kan/pt/190_pt_tau_109_fi.px");
>> >> >> >>> df <- as.data.frame(px)
>> >> >> >> Error in data.frame(do.call(expand.grid, values[names.vals]),
>> >> >> x$DATA$value) :
>> >> >> >>  arguments imply differing number of rows: 128, 26912
>> >> >>
>> >> >>
>> >> >>
>> >> >
>> >>
>> >>
>> >>
>> >
>>
>>
>>
>
-------------- next part --------------
An HTML attachment was scrubbed...
URL: <http://lists.r-forge.r-project.org/pipermail/sorvi-admin/attachments/20120524/142e3d6f/attachment-0001.html>


More information about the Sorvi-admin mailing list