Ja vielä lisää Tilastokeskus-kamaa Hansilta..<br><br>Leo<br><br><div class="gmail_quote">---------- Forwarded message ----------<br>From: <b class="gmail_sendername">Baumgartner Hans</b> <span dir="ltr"><<a href="mailto:hans.baumgartner@stat.fi">hans.baumgartner@stat.fi</a>></span><br>
Date: 2012/5/25<br>Subject: Re(2): Re(2): Re(2): Re(2): tilastokeskuksen avointen aineistojen url-listaus<br>To: Leo Lahti <<a href="mailto:leo.lahti@iki.fi">leo.lahti@iki.fi</a>><br><br><br>Terve,<br>
<br>
Tarvitsette varnmasti myös näitä:<br>
<br>
Tilastokoodit urlissa:<br>
adopt Adoptiot<br>
akay Ajankäyttötutkimus<br>
akop Ammattikorkeakoulukoulutus<br>
aku Aikuiskoulutustutkimus<br>
altp Aluetilinpito<br>
aly Aloittaneet ja lopettaneet yritykset<br>
aop Ammatillinen koulutus<br>
apt Alueellinen panos-tuotos<br>
asas Asunnot ja asuinolot<br>
asen Asumisen energiankulutus<br>
ashi Asuntojen hinnat<br>
asvu Asuntojen vuokrat<br>
asyta Asunto-osakeyhtiöiden talous<br>
ati Ansiotasoindeksi<br>
atoi Teollisuuden alue- ja toimialatilasto<br>
atp Avoimet työpaikat<br>
auma Autokaupan määrävuosiselvitys<br>
ava Ainevalinnat<br>
cvts CVTS, Yritysten henkilöstökoulutus -tutkimus<br>
ehi Energian hinnat<br>
ehk Energian hankinta ja kulutus<br>
ekul Energiankulutus<br>
eltu Elatustuki<br>
erop Erityisopetus<br>
euvaa Europarlamenttivaalit<br>
evaa Eduskuntavaalit<br>
haloikr Hallinto-oikeuksien ratkaisut<br>
hovoikr Hovioikeuksien ratkaisut<br>
icte Tietotekniikan käyttö yrityksissä<br>
inn Innovaatiotoiminta<br>
iptp Informaatiopalvelujen tilinpäätöstilasto<br>
jali Julkisyhteisöjen alijäämä ja velka<br>
jate Jätetilasto<br>
jmete Julkisyhteisöjen menot tehtävittäin<br>
jmhi Julkisten menojen hintaindeksi<br>
jsys Julkisen sektorin ympäristönsuojelumenot<br>
jtume Julkisyhteisöjen tulot ja menot neljännesvuosittain<br>
julo Julkinen oikeusapu<br>
jvie Joukkoviestimet<br>
jyev Julkisyhteisöjen velka neljännesvuosittain<br>
jyrt Julkisyhteisöjen rahoitustilinpito<br>
kalki Kuorma-autoliikenteen kustannusindeksi<br>
kamv Kaupan alueellinen määrävuosiselvitys<br>
kanma Kansantalouden materiaalivirrat<br>
kans Suomen kansalaisuuden saamiset<br>
katipa Kaupan tilinpäätöstilasto<br>
kbar Kuluttajabarometri<br>
khak Koulutukseen hakeutuminen<br>
khaloikr Korkeimman hallinto-oikeuden ratkaisut<br>
khi Kuluttajahintaindeksi<br>
khki Kasvihuonekaasut<br>
kihi Kiinteistöjen hinnat<br>
kivih Kivihiilen kulutus<br>
kjarj Koulutuksen järjestäjät ja oppilaitokset<br>
kkesk Koulutuksen keskeyttäminen<br>
kktu Kuntien ja kuntayhtymien tuottavuustilasto<br>
klt Kulttuuritilasto<br>
klv Kaupan liikevaihtokuvaaja<br>
koikr Korkeimman oikeuden ratkaisut<br>
koikrr Käräjäoikeuksien rikosasioiden ratkaisut<br>
koikrs Käräjäoikeuksien siviiliasioiden ratkaisut<br>
konk Konkurssit<br>
kora Korjausrakentaminen<br>
kotal Koulutuksen talous<br>
ksp Kuntasektorin palkat<br>
ksyyt Kuolemansyyt<br>
ktekt Korkean teknologian ulkomaankauppa<br>
ktkk Tuotannon suhdannekuvaaja<br>
ktn Kuntien talouden neljännesvuositilasto<br>
ktps Palkkasummakuvaajat<br>
ktt Kuntien ja kuntayhtymien talous ja toiminta<br>
kttav Tieliikenteen tavarankuljetukset<br>
kttp Kuntien ja kuntayhtymien tilinpäätösarviot<br>
ktutk Kotitalouksien kulutus<br>
kuol Kuolleet<br>
kvaa Kunnallisvaalit<br>
kvhv Kansainvälinen hintavertailu<br>
kyki Kiinteistön ylläpidon kustannusindeksi<br>
lalki Linja-autoliikenteen kustannusindeksi<br>
litipa Liikenteen tilinpäätöstilasto<br>
litu Lihantuotanto<br>
lkan Luottokanta<br>
lkor Luottokortit<br>
llai Luottolaitosten tilinpäätökset<br>
lop Lukiokoulutus<br>
maku Maarakennuskustannusindeksi<br>
mama Maito- ja maitotuotetilasto<br>
markki Maarakennusalan konekustannusindeksi<br>
matipa Majoitus- ja ravitsemistoiminnan tilinpäätöstilasto<br>
matk Majoitustilasto<br>
matp Matkailutilinpito<br>
mekki Metsäalan kone- ja autokustannusindeksi<br>
merek Moottoriajoneuvojen ensirekisteröinnit<br>
metsom Metsämaan omistus<br>
metsu Metsien suojelu<br>
mettp Metsätilinpito<br>
mkan Moottoriajoneuvokanta<br>
mltm Ulkomaan meriliikenteen tulot ja menot<br>
mmtal Maa- ja metsätalousyritysten taloustilasto<br>
mtalt Maatalouden aluetaloustilasto<br>
mthi Maatalouden tuottajahintaindeksi<br>
muutl Muuttoliike<br>
ntp Neljännesvuositilinpito<br>
oaiop Oppilaitosten aikuiskoulutus<br>
opiskt Oppilaitosten opiskelijat ja tutkinnot<br>
opku Opintojen kulku<br>
opty Opiskelijoiden työssäkäynti<br>
palhy Yrityspalvelut<br>
pat Patentointi<br>
pata Palveluiden alue- ja toimialatilasto<br>
patipa Liike-elämän palvelujen tilinpäätöstilasto<br>
perh Perheet<br>
pka Pääomakanta<br>
pkei Pakkokeinot<br>
plv Palvelualojen liikevaihtokuvaaja<br>
polrik Poliisin tietoon tullut rikollisuus<br>
pop Esi- ja peruskouluopetus<br>
pra Palkkarakenne<br>
pt Panos-tuotos<br>
pthi Palvelujen tuottajahintaindeksit<br>
pul Palvelujen ulkomaankauppa<br>
pvaa Presidentinvaalit<br>
rajat Rajahaastattelututkimus<br>
rakke Rakennukset ja kesämökit<br>
ras Rakennus- ja asuntotuotanto<br>
rata Rakentamisen alue- ja toimialatilasto<br>
ratipa Rakentamisen tilinpäätöstilasto<br>
rki Rakennuskustannusindeksi<br>
rlea Rahoitusleasing<br>
rlv Rakentamisen liikevaihtokuvaaja<br>
rtp Rahoitustilinpito<br>
salatuo Sähkön ja lämmön tuotanto<br>
sijk Sijoittuminen koulutuksen jälkeen<br>
smat Suomalaisten matkailu<br>
spy Sijoituspalveluyritykset<br>
ssaaty Siviilisäädyn muutokset<br>
stu Suomalaiset tytäryhtiöt ulkomailla<br>
sutivi Tieto- ja viestintätekniikan käyttö<br>
synt Syntyneet<br>
syr Yritysrekisterin vuositilasto<br>
syytr Syyttäjän ratkaisut<br>
syyttr Syytetyt, tuomitut ja rangaistukset<br>
tene Teollisuuden energiankäyttö<br>
tetipa Teollisuuden tilinpäätöstilasto<br>
teul Teollisuuden uudet tilaukset<br>
thi Tuottajahintaindeksit<br>
tilma Toimialoittaiset ilmapäästöt<br>
tjkt Tulonjaon kokonaistilasto<br>
tjt Tulonjakotilasto<br>
tkke Tutkimus- ja kehittämistoiminta<br>
tkker Tutkimus- ja kehittämisrahoitus valtion talousarviossa<br>
tkm Tukkukaupan määrävuosiselvitys<br>
tlv Teollisuuden liikevaihtokuvaaja<br>
ton Tieliikenneonnettomuustilasto<br>
tslhi Taksi- ja sairaankuljetusliikenteen kustannusindeksit<br>
tta Työtaistelutilasto<br>
ttap Työtapaturmat<br>
tthv Tieteen ja teknologian henkilövoimavarat<br>
tti Teollisuustuotanto<br>
ttohi Maatalouden tuotantovälineiden ostohintaindeksi<br>
ttut Tuottavuustutkimukset<br>
ttvi Teollisuustuotannon volyymi-indeksi<br>
tupk Tupakkatilasto<br>
tva Teollisuuden ja kaupan varastotilasto<br>
tvki Työvoimakustannusindeksi<br>
tvt Veronalaiset tulot<br>
tvtutk Työvoimakustannustutkimus<br>
tymm Teollisuuden ympäristönsuojelumenot<br>
tyokay Työssäkäynti<br>
tyoolot Työolotutkimus<br>
tyti Työvoimatutkimus<br>
ulkoy Ulkomaiset tytäryhtiöt Suomessa<br>
uloa Ulosottoasiat<br>
vaenn Väestöennuste<br>
vaerak Väestörakenne<br>
vamuu Väestön ennakkotilasto<br>
vatt Valtion tuottavuustilasto<br>
velj Velkajärjestelyt<br>
velk Velkaantumistilasto<br>
vermak Verot ja veronluonteiset maksut<br>
vkm Vähittäiskaupan määrävuosiselvitys<br>
vkour Väestön koulutusrakenne<br>
vkp Valtion kuukausipalkat<br>
vpa Vapaa-aikatutkimus<br>
vtak Valtion takaukset<br>
vtmma Valtion tulot ja menot alueittain<br>
vtp Kansantalouden tilinpito<br>
vtutk Kotitalouksien varallisuus<br>
yev Ympäristöverot<br>
ylt Ympäristöliiketoiminta<br>
yop Yliopistokoulutus<br>
yrtt Yritystukitilasto<br>
ysan Yrityssaneeraukset<br>
yskp Yksityisen sektorin kuukausipalkat<br>
ystp Yksityisen sektorin tuntipalkat<br>
<br>
Aihealue koodit urlissa:<br>
<br>
Asuminen Boende Housing ASU<br>
Elinolot Levnadsförhål-<br>
landen Living Conditions ELI<br>
Energia Energi Energy ENE<br>
Hinnat ja kustannukset Priser och kostnader Prices and Costs HIN<br>
Julkinen talous Offentlig ekonomi Government Finance JUL<br>
Kansantalous Nationalräken-<br>
skaper National Accounts KAN<br>
Kauppa Handel Trade KAU<br>
Koulutus Utbildning Education KOU<br>
Kulttuuri ja viestintä Kultur och massmedier Culture and the Media<br>
KLT<br>
Liikenne ja matkailu Transport och turism Transport and Tourism<br>
LII<br>
Maa-, metsä- ja kalatalous Jord- och skogsbruk samt fiske Agriculture,<br>
Forestry and Fishery MAA<br>
Oikeus Rättsväsende Justice OIK<br>
Palkat ja työvoimakustan-<br>
nukset Löner och arbetskrafts-<br>
kostnader Wages, Salaries and Labour Costs PAL<br>
Palvelut Tjänster Services PAV<br>
Rahoitus ja Vakuutus Finansiering och försäkring Financing and<br>
Insurance RAH<br>
Rakentaminen Byggandet Construction RAK<br>
Sosiaaliturva Socialskydd Social Protection SOS<br>
Teollisuus Industri Manufacturing TEO<br>
Terveys Hälsa Health TER<br>
Tiede, teknologia ja tietoyhteiskunta Vetenskap, teknologi och informations-<br>
samhället Science, Technology and Information Society TTT<br>
Tulot ja kulutus Inkomst och konsumtion Income and Consumption TUL<br>
Työmarkkinat Arbetsmarknaden Labour Market TYM<br>
Vaalit Val Elections VAA<br>
Väestö Befolkning Population VRM<br>
Ympäristö ja luonnonvarat Miljö och naturresurser Environment and Natural<br>
Resources YMP<br>
Yritykset Företag Enterprises YRI<br>
<br>
<br>
<br>
Hans<br>
<br>
<br>
<br>
<br>
Terve,<br>
<br>
Tarvitsette vielä:<br>
<a href="http://www.stat.fi/org/tut/dthemes/drafts/cossi_en.html" target="_blank">http://www.stat.fi/org/tut/dthemes/drafts/cossi_en.html</a><br>
<a href="http://www.stat.fi/org/tut/dthemes/drafts/cossi_pxml_en.html" target="_blank">http://www.stat.fi/org/tut/dthemes/drafts/cossi_pxml_en.html</a><br>
<br>
<a href="http://en.wikipedia.org/wiki/Extensible_Data_Format" target="_blank">http://en.wikipedia.org/wiki/Extensible_Data_Format</a><br>
<a href="http://xml.coverpages.org/xdf.html" target="_blank">http://xml.coverpages.org/xdf.html</a><br>
<br>
Hans<br>
<br>
<br>
Leo Lahti (24.5.2012 13:38):<br>
>Terve Hans, paljon kiitoksia tästä. Koitamme löytää jostain välistä aikaa<br>
>ainakin vilkaista näitä, palaillaan asiaan.<br>
><br>
>Leo<br>
><br>
><br>
>2012/5/24 Baumgartner Hans <<a href="mailto:hans.baumgartner@stat.fi">hans.baumgartner@stat.fi</a>><br>
><br>
>> Terve,<br>
>><br>
>> Tässä testimielessä StatFin "kannan" sisältö XDF XML -muodossa.<br>
>> <a href="http://pxweb2.stat.fi/database/StatFin/StatFin_rap_xml.csv" target="_blank">http://pxweb2.stat.fi/database/StatFin/StatFin_rap_xml.csv</a><br>
>><br>
>> Tässä on tämänhetkinen "kannan" tilanne. XDF-tiedostoja ei vielä päivitetä<br>
>> kun<br>
>> ehkä pyynnöstä.<br>
>> Muunnokset ovat käynnissä ja kestävät ehkä pari tuntia ....<br>
>><br>
>> Muista että tämä on Beta testausta ....<br>
>><br>
>> Hans Baumgartner<br>
>> Tilastokeskus<br>
>><br>
>><br>
>> Leo Lahti (22.5.2012 12:44):<br>
>> >Moi,<br>
>> ><br>
>> >> Teemme tätä täysin ilman lisäresursseja.<br>
>> ><br>
>> >Meillä sama juttu.. harrastuspohjalta.<br>
>> ><br>
>> ><br>
>> >> Ajattelin testata kokonaan testimielessä StatFin "kannan" muuntamista<br>
>> >> XDF-muotoon. Tämä vaatii hieman koodaamista meidän puoleltamme ...<br>
>> >> katsotaan mitä voimme tehdä.<br>
>> ><br>
>> >XML-pohjaisena voisi ajatella sen olevan laajemmin luettavissa.<br>
>> ><br>
>> ><br>
>> >> Teoriassa olisi mahdollista tehdä PX-Editistä Opensource tuote.<br>
>> >> En vain millään usko että Opensource yhteisössä olisi APL osaajia.<br>
>> >><br>
>> ><br>
>> >Voi hyvin olla, eikä niitä muokattuja versioitakaan ihan itsestään<br>
>> ilmaannu<br>
>> >välttämättä, vaikka pistäisi koodit jakoonkin.<br>
>> ><br>
>> >/ Leo<br>
>> ><br>
>> ><br>
>> >> Leo Lahti (22.5.2012 11:59):<br>
>> ><br>
>> >> >Terve Hans, kiitos erittäin paljon näistä. Tämä on mielestäni hyvää ja<br>
>> >> >tärkeää keskustelua.<br>
>> >> ><br>
>> >> >R:n px-lukurutiinit on tosiaan eksperimentaalisia, en tiedä paraneeko<br>
>> tämä<br>
>> >> >tilanne tulevaisuudessa ainakaan kovin nopeasti. Mutta se on ollut<br>
>> >> >toistaseksi ainoa käytettävissä ollut keino lukea px-tiedostoja<br>
>> >> >automatisoidusti linuxin R-asennuksiin. Sama ongelma on nyt tullut<br>
>> vastaan<br>
>> >> >myös muille aineistoja kokeilleille, ja itse törmäsin siihen nyt<br>
>> toisenkin<br>
>> >> >projektin yhteydessä joka sisälsi px-dataa. Windows ei ole yhtä yleinen<br>
>> >> >järjestelmä laskentapuolella. Tiedostojen automaattinen haku winenkään<br>
>> >> >kautta ei ole sujuvaa, jos varsinainen laskentaympäristö ja muu data<br>
>> >> >sijaitsee unix-puolella.<br>
>> >> ><br>
>> >> >Meitä aihe kiinnostaa, koska rakennamme avoimeksi tutkimusvälineeksi<br>
>> >> >(kohderyhmänä tutkimusryhmät, järjestöt, datajournalistit jne)<br>
>> >> >järjestelmäriippumatonta ohjelmakirjastoa, jonka avulla olisi<br>
>> mahdollista<br>
>> >> >tehokkaasti hakea ja yhdistellä tietoa eri lähteistä (Tilastokeskus,<br>
>> >> >ministeröiden sivut, Maanmittauslaitos jnejne). Tätä edistäisi hyvin,<br>
>> jos<br>
>> >> >Tilastokeskuksen aineistoja olisi tulevaisuudessa saatavilla<br>
>> sellaisessa<br>
>> >> >formaatissa jota voi lukea Windowsin lisäksi muissakin järjestelmissä<br>
>> >> >standardivälinein. Tämä on erityisen keskeistä silloin, kun tiedostoja<br>
>> >> >pitää lukea runsaita määriä jolloin manuaalinen muokkaus PC<br>
>> >> >Axis/Edit-ohjelmilla ei ole realistinen vaihtoehto.<br>
>> >> ><br>
>> >> >Yritämme löytää jossain välissä aikaa lähettämääsi XDF-formaattiin<br>
>> >> >tutustumiseen. Se saattaisi olla hyvä mahdollisuus. Metatietojen<br>
>> >> >esittämiseen ja eri taulujen tehokkaaseen yhdistämiseen tosiaan<br>
>> tarvitaan<br>
>> >> >hierarkkisempaa rakennetta kuin kaksiulotteiset csv-taulut, ja se on<br>
>> >> selvää<br>
>> >> >että monet tiedot eivät ole suoraan vertailukelpoisia.<br>
>> >> ><br>
>> >> >Eli tässä hieman näkökulmia meidän suunnasta, toivottavasti palaute on<br>
>> >> >teille hyödyllistä. Jatketaan keskustelua tilanteen mukaan, saatan olla<br>
>> >> >vielä lisääkin yhteydessä näiden tiimoilta. Kaiken kaikkiaan<br>
>> erinomainen<br>
>> >> >juttu, että tuota dataa on jo saatavilla ainakin PX-muodossa, ja isoa<br>
>> osaa<br>
>> >> >(n. 30% kuten eilisessä blogauksessani) siitä voi jo nyt hyödyntää<br>
>> >> >automaattisin välinein. Tiedostomuotojen osalta kehittämistä voisi<br>
>> tosiaan<br>
>> >> >vielä miettiä jatkoa ajatellen, arvelisin että tulevaisuudessa moni<br>
>> muukin<br>
>> >> >meidän lisäksi on kiinnostunut tekemään automatisoituja hakuja.<br>
>> >> ><br>
>> >> >ystävällisesti,<br>
>> >> >Leo Lahti, TkT/VTK<br>
>> >> ><br>
>> >> ><br>
>> >> >2012/5/11 Baumgartner Hans <<a href="mailto:hans.baumgartner@stat.fi">hans.baumgartner@stat.fi</a>><br>
>> >> ><br>
>> >> >> Terve,<br>
>> >> >><br>
>> >> >><br>
>> >> >> Kiitos palautteesta.<br>
>> >> >><br>
>> >> >><br>
>> >> >> Tänään vakioin koko kannan. Kaikki tiedostot ovat sen jälkeen 100%<br>
>> >> >> PC-Axis muodossa. Joku yksittäinen tiedosto voi tietenkin olla<br>
>> "rikki"<br>
>> >> >> mutta sekin pyritään korjaamaan ensi viikon aikana.<br>
>> >> >><br>
>> >> >><br>
>> >> >> Näyttää siltä että Espanjalaiset R:än PC-Axis parseria tehneet eivät<br>
>> >> >> ole testanneet kunnolla tuotettaan. Lähettämissäsi linkeissä olleet<br>
>> >> >> px-tiedostostot eivät mielestäni ole millään PC-Axis standardin<br>
>> >> vastaisia.<br>
>> >> >> Virheilmoitukset eivät kuvaa virhettä ... ainakaan selkeästi.<br>
>> >> >><br>
>> >> >> Jos tiedostomuodon parseria tehdään epämääräisin tiedoin ja vielä<br>
>> ilman<br>
>> >> >> kunnon testitiedostoja niin tämä on valitettavasti lopputulos.<br>
>> >> >><br>
>> >> >> Oletan että ongelmat ovat seuraavia:<br>
>> >> >> 1. Datassa on lukujen lisäksi tietenkin myös "." ".." "..." "...."<br>
>> jne.<br>
>> >> >> ".......<br>
>> >> >> " ja "-"<br>
>> >> >> Meidän erotinmerkit on aina standardin mukaiset!<br>
>> >> >> 2. Datan voi teoriassa olla vaikka yhdessä pitkässä "pötkössä".<br>
>> >> >> SUOSITUS on kuitenkin formatoida dataosio niin kuin metadata kuvaa<br>
>> >> sen.<br>
>> >> >> 3. Todella suuret taulukot "matriisit" 200milj rivejä ja 10 000<br>
>> >> sarakkeita<br>
>> >> >> Suurin tiedosto yli 600MB<br>
>> >> >> 4. En usko että parseria on testattu monikielisten taulukoidsen<br>
>> kanssa.<br>
>> >> >> Jos parseri on tehty oikein kaikki pitäisi toimia, koska PC-Axis<br>
>> >> >> tiedostot<br>
>> >> >> ovat taakseppäin yhteensopivia.<br>
>> >> >> jne.<br>
>> >> >><br>
>> >> >><br>
>> >> >><br>
>> >> >> >> Nyt meillä olisi pyrkimyksenä koota Tilastokeskuksen aineistojen<br>
>> >> >> >> pohjalta mahdollisimman paljon kuntakohtaista tietoa yhteen<br>
>> >> >> >> datamatriisiin, kunnat x muuttujat. Sain toistaiseksi<br>
>> automaattisesti<br>
>> >> >> >> konvertoitua 201 PC Axis-tiedostoa CSV-formaattiin R:llä. Vielä<br>
>> olisi<br>
>> >> >> >> n. 2400 fileä, joiden konversio kaatui, pääasiassa johonkin alla<br>
>> >> >> >> listatuista kolmesta ongelmasta. Meidän kannalta on melko sama,<br>
>> onko<br>
>> >> >> >> data saatavissa PC Axis-, xdf- tai csv-formaatissa, kunhan<br>
>> erillisten<br>
>> >> >> >> taulujen luenta ja yhdistely saataisiin automatisoiduksi. Otan<br>
>> >> >> >> mielelläni vastaan vinkkejä asian suhteen, jos tulee jotakin<br>
>> mieleen.<br>
>> >> >><br>
>> >> >> Kaikki ei ole yhdistettävissä aikasarjaksi vaikka se näyttää siltä.<br>
>> >> Tiedot<br>
>> >> >> eivät välttämättä ole vertailukelkoisia.<br>
>> >> >><br>
>> >> >> Mitä tapahtuu taulukon muille metatiedoille kun taulukko muunnetaan<br>
>> CSV<br>
>> >> >> muotoon.<br>
>> >> >> Ainakin taulukon alahuomautus (note ja notex) ovat pakko olla mukana<br>
>> >> muuten<br>
>> >> >> tiedon käyttö on vaikeaa.<br>
>> >> >><br>
>> >> >> Jos tässä on kysessä jatkuvapäivitteinen datamatriisi niin huomioikaa<br>
>> >> >> seuraavat<br>
>> >> >> asiat.<br>
>> >> >> Metodit, luokitukset ja tiedostonimet voivat muuttua tarpeen mukaan.<br>
>> >> >> Tällaisessa "kannassa" on aina "euromuunnos" meneillään.<br>
>> >> >> esim. alueluokitukset muuttuvat vuosittain eikä niitä välttämättä<br>
>> >> (usein se<br>
>> >> >> kyllä onnistuu) voi summata kunnista uusimpaan aluelukoitukseen.<br>
>> >> >><br>
>> >> >> Huomaa myös että joissakin taulkoissa on salattua tietoa.<br>
>> >> >><br>
>> >> >><br>
>> >> >> >> Käsitinhän oikein, että XDF-formaatti on teillä vasta kokeilussa,<br>
>> ja<br>
>> >> >> >> suurinta osaa datoista ei ole saatavana tuossa muodossa?<br>
>> >> >><br>
>> >> >> Tilastotaulukoita ei ole vielä saatavissa XDF-muodossa.<br>
>> >> >><br>
>> >> >><br>
>> >> >> >> PC Edit on ongelmallinen, koska toimii vain Window-ympäristössä,<br>
>> >> mutta<br>
>> >> >> >> tieteellinen laskenta tapahtuu tyypillisesti unix-ympäristössä.<br>
>> >> >> >> Aineistojen sujuva automatisoitu haku suoraan laskentaympäristöön<br>
>> ei<br>
>> >> >> >> siis onnistu.<br>
>> >> >><br>
>> >> >> Testasimme px-tiedoston luvun PX-Editillä (3.0) Winessä. Ensimmäinen<br>
>> >> testi<br>
>> >> >> meni<br>
>> >> >> ongelmitta läpi.<br>
>> >> >> Tulemme itse käyttämään Linuxissa PX-Editiä winessä tulevaisuudessa.<br>
>> >> >><br>
>> >> >> On olemassa myös WINDOWS PC-Axis ohjelma joka on tarkoitettu<br>
>> >> >> loppukäyttäjille.<br>
>> >> >> <a href="http://tilastokeskus.fi/tup/pcaxis/lataus_asennus.html" target="_blank">http://tilastokeskus.fi/tup/pcaxis/lataus_asennus.html</a><br>
>> >> >> Tämä ei tietenkään ratkaise ongelmaa.<br>
>> >> >><br>
>> >> >><br>
>> >> >> Toivottavasti tästä on jotakin hyötyä ...<br>
>> >> >><br>
>> >> >><br>
>> >> >> Hans<br>
>> >> >><br>
>> >> >><br>
>> >> >><br>
>> >> >><br>
>> >> >><br>
>> >> >><br>
>> >> >> Leo Lahti (8.5.2012 14:56):<br>
>> >> >> >Moi, tarkennus äskeiseen. Sain R:llä luettua taulukkomuotoon 761 PC<br>
>> >> >> >Axis-tiedostoa, eli n. 25% Tilastokeskuksen avoimista 2600<br>
>> >> >> >aineistosta.<br>
>> >> >> ><br>
>> >> >> >Leo<br>
>> >> >> ><br>
>> >> >> >2012/5/8 Leo Lahti <<a href="mailto:leo.lahti@iki.fi">leo.lahti@iki.fi</a>>:<br>
>> >> >> >> Käsitinhän oikein, että XDF-formaatti on teillä vasta kokeilussa,<br>
>> ja<br>
>> >> >> >> suurinta osaa datoista ei ole saatavana tuossa muodossa?<br>
>> >> >> >><br>
>> >> >> >> Lupasin pistää tiedoksi ongelmia, joihin törmäsin yrittäessäni<br>
>> lukea<br>
>> >> >> >> PC-Axis-tiedostoja R:llä. Ainakin viestin lopussa luetellut kolme<br>
>> >> >> >> virhetyyppiä toistuvat usein. Voin tarvittaessa tuottaa<br>
>> laajempaakin<br>
>> >> >> >> listaa ongelmallisista tiedostoista.<br>
>> >> >> >><br>
>> >> >> >> PC Edit on ongelmallinen, koska toimii vain Window-ympäristössä,<br>
>> >> mutta<br>
>> >> >> >> tieteellinen laskenta tapahtuu tyypillisesti unix-ympäristössä.<br>
>> >> >> >> Aineistojen sujuva automatisoitu haku suoraan laskentaympäristöön<br>
>> ei<br>
>> >> >> >> siis onnistu.<br>
>> >> >> >><br>
>> >> >> >> Nyt meillä olisi pyrkimyksenä koota Tilastokeskuksen aineistojen<br>
>> >> >> >> pohjalta mahdollisimman paljon kuntakohtaista tietoa yhteen<br>
>> >> >> >> datamatriisiin, kunnat x muuttujat. Sain toistaiseksi<br>
>> automaattisesti<br>
>> >> >> >> konvertoitua 201 PC Axis-tiedostoa CSV-formaattiin R:llä. Vielä<br>
>> olisi<br>
>> >> >> >> n. 2400 fileä, joiden konversio kaatui, pääasiassa johonkin alla<br>
>> >> >> >> listatuista kolmesta ongelmasta. Meidän kannalta on melko sama,<br>
>> onko<br>
>> >> >> >> data saatavissa PC Axis-, xdf- tai csv-formaatissa, kunhan<br>
>> erillisten<br>
>> >> >> >> taulujen luenta ja yhdistely saataisiin automatisoiduksi. Otan<br>
>> >> >> >> mielelläni vastaan vinkkejä asian suhteen, jos tulee jotakin<br>
>> mieleen.<br>
>> >> >> >><br>
>> >> >> >> Palataan muiden kohtien osalta asiaan tuonnempana. Iso kiitos<br>
>> avusta!<br>
>> >> >> >><br>
>> >> >> >> yst. / Leo Lahti<br>
>> >> >> >><br>
>> >> >> >><br>
>> >> >> >><br>
>> >> >> >> * VIRHE 1<br>
>> >> >> >><br>
>> >> >> >> *** caught segfault ***<br>
>> >> >> >> address 0x7fffd86214b8, cause 'memory not mapped'<br>
>> >> >> >><br>
>> >> >> >> Traceback:<br>
>> >> >> >> 1: strsplit(a, "//=//")<br>
>> >> >> >> 2: do.call(rbind, strsplit(a, "//=//"))<br>
>> >> >> >> 3: read.px("<a href="http://pxweb2.stat" target="_blank">http://pxweb2.stat</a>.<br>
>> >> >> fi/database/StatFin/asu/ashi/003_ashi_tau_108.px")<br>
>> >> >> >><br>
>> >> >> >><br>
>> >> >> >> =============================================<br>
>> >> >> >><br>
>> >> >> >> * VIRHE 2<br>
>> >> >> >><br>
>> >> >> >>> px <- read.px(bad.px.files[["<a href="http://pxweb2.stat" target="_blank">http://pxweb2.stat</a>.<br>
>> >> >> fi/database/StatFin/asu/ashi/004_ashi_tau_109_fi.px" ]]); df <-<br>
>> as.data.<br>
>> >> >> frame(px)<br>
>> >> >> >> Segmentation fault<br>
>> >> >> >><br>
>> >> >> >> ==============================================<br>
>> >> >> >><br>
>> >> >> >> * VIRHE 3<br>
>> >> >> >><br>
>> >> >> >>> px <- read.px("<a href="http://pxweb2.stat" target="_blank">http://pxweb2.stat</a>.<br>
>> >> >> fi/database/StatFin/kan/pt/190_pt_tau_109_fi.px");<br>
>> >> >> >>> df <- as.data.frame(px)<br>
>> >> >> >> Error in data.frame(do.call(expand.grid, values[names.vals]),<br>
>> >> >> x$DATA$value) :<br>
>> >> >> >> arguments imply differing number of rows: 128, 26912<br>
>> >> >><br>
>> >> >><br>
>> >> >><br>
>> >> ><br>
>> >><br>
>> >><br>
>> >><br>
>> ><br>
>><br>
>><br>
>><br>
><br>
<br>
<br>
</div><br>