[Sorvi-admin] Fwd: tilastokeskuksen avointen aineistojen url-listaus

Joona Lehtomäki joona.lehtomaki at cs.helsinki.fi
Wed May 9 16:19:04 CEST 2012


> Siinä oli pääasiassa kolmea virhetyyppiä:
> 1) Erotinongelma px-filessä, jota pxR-paketin funktiot ei (vielä) osaa
> käsitellä, vaikka esim. PC Edit ilmeisesti osaa näitäkin lukea.

pxR:n sorsia voisi vilkaista jos sieltä voisi vaikka itse muuttaa erottomia.

 > 2) Muistin loppuminen kesken isojen tiedostojen kohdalla (pari
 > erilaista ilmoitusta).

Kokeilitko 64-bittisellä R:llä? Tämä ei varmaan ole raudasta kiinni?

Kumpikaan em. korjauksista ei ole kovinkaan hyödyllinen jos tieto 
halutaan hakea soRvilla lennosta, mutta jos HSopeniin pitää toimittaa 
esim. csv:t niin voisi toimia.

> Pistin näistä Hansille lyhyen raportin esimerkkitiedostojen kanssa.
> Eivät kuitenkaan varsinaisesti tue R:ää, joten pitää katsoa mitä
> asialle saadaan tehdyksi. Oli myös juttua, että jos löytyy tiedostoja
> joita ei ole talletettu täsmälleen sovitun standardiformaatin
> mukaisesti (vääriä erottimia tms), niin nämä ainakin korjataan
> pikaisesti. Tällaisten tiedostojen tunnistaminen noiden 2600 joukosta
> on vähän hankalaa kun virhe voi olla myös pxR-paketin lukurutiineissa.
> Ovat kai parhaillaan tsekkaamassa lähettämiäni esimerkkejä.

Hyvä homma jo tarkastavat datat.

> csv-formaatissa eivät tahdo dataa jakaa, koska metatiedot katoaisivat.

Ihan fiksua, sorvinkin tapauksessa kai olisi parempi hakea tiedot 
nimenomaan px-olioina?

Joona


More information about the Sorvi-admin mailing list