Ja vielä lisää Tilastokeskus-kamaa Hansilta..<br><br>Leo<br><br><div class="gmail_quote">---------- Forwarded message ----------<br>From: <b class="gmail_sendername">Baumgartner Hans</b> <span dir="ltr"><<a href="mailto:hans.baumgartner@stat.fi">hans.baumgartner@stat.fi</a>></span><br>
Date: 2012/5/25<br>Subject: Re(2): Re(2): Re(2): Re(2): tilastokeskuksen avointen aineistojen url-listaus<br>To: Leo Lahti <<a href="mailto:leo.lahti@iki.fi">leo.lahti@iki.fi</a>><br><br><br>Terve,<br>
<br>
Tarvitsette varnmasti myös näitä:<br>
<br>
Tilastokoodit urlissa:<br>
    adopt Adoptiot<br>
    akay Ajankäyttötutkimus<br>
    akop Ammattikorkeakoulukoulutus<br>
    aku Aikuiskoulutustutkimus<br>
    altp Aluetilinpito<br>
    aly Aloittaneet ja lopettaneet yritykset<br>
    aop Ammatillinen koulutus<br>
    apt Alueellinen panos-tuotos<br>
    asas Asunnot ja asuinolot<br>
    asen Asumisen energiankulutus<br>
    ashi Asuntojen hinnat<br>
    asvu Asuntojen vuokrat<br>
    asyta Asunto-osakeyhtiöiden talous<br>
    ati Ansiotasoindeksi<br>
    atoi Teollisuuden alue- ja toimialatilasto<br>
    atp Avoimet työpaikat<br>
    auma Autokaupan määrävuosiselvitys<br>
    ava Ainevalinnat<br>
    cvts CVTS, Yritysten henkilöstökoulutus -tutkimus<br>
    ehi Energian hinnat<br>
    ehk Energian hankinta ja kulutus<br>
    ekul Energiankulutus<br>
    eltu Elatustuki<br>
    erop Erityisopetus<br>
    euvaa Europarlamenttivaalit<br>
    evaa Eduskuntavaalit<br>
    haloikr Hallinto-oikeuksien ratkaisut<br>
    hovoikr Hovioikeuksien ratkaisut<br>
    icte Tietotekniikan käyttö yrityksissä<br>
    inn Innovaatiotoiminta<br>
    iptp Informaatiopalvelujen tilinpäätöstilasto<br>
    jali Julkisyhteisöjen alijäämä ja velka<br>
    jate Jätetilasto<br>
    jmete Julkisyhteisöjen menot tehtävittäin<br>
    jmhi Julkisten menojen hintaindeksi<br>
    jsys Julkisen sektorin ympäristönsuojelumenot<br>
    jtume Julkisyhteisöjen tulot ja menot neljännesvuosittain<br>
    julo Julkinen oikeusapu<br>
    jvie Joukkoviestimet<br>
    jyev Julkisyhteisöjen velka neljännesvuosittain<br>
    jyrt Julkisyhteisöjen rahoitustilinpito<br>
    kalki Kuorma-autoliikenteen kustannusindeksi<br>
    kamv Kaupan alueellinen määrävuosiselvitys<br>
    kanma Kansantalouden materiaalivirrat<br>
    kans Suomen kansalaisuuden saamiset<br>
    katipa Kaupan tilinpäätöstilasto<br>
    kbar Kuluttajabarometri<br>
    khak Koulutukseen hakeutuminen<br>
    khaloikr Korkeimman hallinto-oikeuden ratkaisut<br>
    khi Kuluttajahintaindeksi<br>
    khki Kasvihuonekaasut<br>
    kihi Kiinteistöjen hinnat<br>
    kivih Kivihiilen kulutus<br>
    kjarj Koulutuksen järjestäjät ja oppilaitokset<br>
    kkesk Koulutuksen keskeyttäminen<br>
    kktu Kuntien ja kuntayhtymien tuottavuustilasto<br>
    klt Kulttuuritilasto<br>
    klv Kaupan liikevaihtokuvaaja<br>
    koikr Korkeimman oikeuden ratkaisut<br>
    koikrr Käräjäoikeuksien rikosasioiden ratkaisut<br>
    koikrs Käräjäoikeuksien siviiliasioiden ratkaisut<br>
    konk Konkurssit<br>
    kora Korjausrakentaminen<br>
    kotal Koulutuksen talous<br>
    ksp Kuntasektorin palkat<br>
    ksyyt Kuolemansyyt<br>
    ktekt Korkean teknologian ulkomaankauppa<br>
    ktkk Tuotannon suhdannekuvaaja<br>
    ktn Kuntien talouden neljännesvuositilasto<br>
    ktps Palkkasummakuvaajat<br>
    ktt Kuntien ja kuntayhtymien talous ja toiminta<br>
    kttav Tieliikenteen tavarankuljetukset<br>
    kttp Kuntien ja kuntayhtymien tilinpäätösarviot<br>
    ktutk Kotitalouksien kulutus<br>
    kuol Kuolleet<br>
    kvaa Kunnallisvaalit<br>
    kvhv Kansainvälinen hintavertailu<br>
    kyki Kiinteistön ylläpidon kustannusindeksi<br>
    lalki Linja-autoliikenteen kustannusindeksi<br>
    litipa Liikenteen tilinpäätöstilasto<br>
    litu Lihantuotanto<br>
    lkan Luottokanta<br>
    lkor Luottokortit<br>
    llai Luottolaitosten tilinpäätökset<br>
    lop Lukiokoulutus<br>
    maku Maarakennuskustannusindeksi<br>
    mama Maito- ja maitotuotetilasto<br>
    markki Maarakennusalan konekustannusindeksi<br>
    matipa Majoitus- ja ravitsemistoiminnan tilinpäätöstilasto<br>
    matk Majoitustilasto<br>
    matp Matkailutilinpito<br>
    mekki Metsäalan kone- ja autokustannusindeksi<br>
    merek Moottoriajoneuvojen ensirekisteröinnit<br>
    metsom Metsämaan omistus<br>
    metsu Metsien suojelu<br>
    mettp Metsätilinpito<br>
    mkan Moottoriajoneuvokanta<br>
    mltm Ulkomaan meriliikenteen tulot ja menot<br>
    mmtal Maa- ja metsätalousyritysten taloustilasto<br>
    mtalt Maatalouden aluetaloustilasto<br>
    mthi Maatalouden tuottajahintaindeksi<br>
    muutl Muuttoliike<br>
    ntp Neljännesvuositilinpito<br>
    oaiop Oppilaitosten aikuiskoulutus<br>
    opiskt Oppilaitosten opiskelijat ja tutkinnot<br>
    opku Opintojen kulku<br>
    opty Opiskelijoiden työssäkäynti<br>
    palhy Yrityspalvelut<br>
    pat Patentointi<br>
    pata Palveluiden alue- ja toimialatilasto<br>
    patipa Liike-elämän palvelujen tilinpäätöstilasto<br>
    perh Perheet<br>
    pka Pääomakanta<br>
    pkei Pakkokeinot<br>
    plv Palvelualojen liikevaihtokuvaaja<br>
    polrik Poliisin tietoon tullut rikollisuus<br>
    pop Esi- ja peruskouluopetus<br>
    pra Palkkarakenne<br>
    pt Panos-tuotos<br>
    pthi Palvelujen tuottajahintaindeksit<br>
    pul Palvelujen ulkomaankauppa<br>
    pvaa Presidentinvaalit<br>
    rajat Rajahaastattelututkimus<br>
    rakke Rakennukset ja kesämökit<br>
    ras Rakennus- ja asuntotuotanto<br>
    rata Rakentamisen alue- ja toimialatilasto<br>
    ratipa Rakentamisen tilinpäätöstilasto<br>
    rki Rakennuskustannusindeksi<br>
    rlea Rahoitusleasing<br>
    rlv Rakentamisen liikevaihtokuvaaja<br>
    rtp Rahoitustilinpito<br>
    salatuo Sähkön ja lämmön tuotanto<br>
    sijk Sijoittuminen koulutuksen jälkeen<br>
    smat Suomalaisten matkailu<br>
    spy Sijoituspalveluyritykset<br>
    ssaaty Siviilisäädyn muutokset<br>
    stu Suomalaiset tytäryhtiöt ulkomailla<br>
    sutivi Tieto- ja viestintätekniikan käyttö<br>
    synt Syntyneet<br>
    syr Yritysrekisterin vuositilasto<br>
    syytr Syyttäjän ratkaisut<br>
    syyttr Syytetyt, tuomitut ja rangaistukset<br>
    tene Teollisuuden energiankäyttö<br>
    tetipa Teollisuuden tilinpäätöstilasto<br>
    teul Teollisuuden uudet tilaukset<br>
    thi Tuottajahintaindeksit<br>
    tilma Toimialoittaiset ilmapäästöt<br>
    tjkt Tulonjaon kokonaistilasto<br>
    tjt Tulonjakotilasto<br>
    tkke Tutkimus- ja kehittämistoiminta<br>
    tkker Tutkimus- ja kehittämisrahoitus valtion talousarviossa<br>
    tkm Tukkukaupan määrävuosiselvitys<br>
    tlv Teollisuuden liikevaihtokuvaaja<br>
    ton Tieliikenneonnettomuustilasto<br>
    tslhi Taksi- ja sairaankuljetusliikenteen kustannusindeksit<br>
    tta Työtaistelutilasto<br>
    ttap Työtapaturmat<br>
    tthv Tieteen ja teknologian henkilövoimavarat<br>
    tti Teollisuustuotanto<br>
    ttohi Maatalouden tuotantovälineiden ostohintaindeksi<br>
    ttut Tuottavuustutkimukset<br>
    ttvi Teollisuustuotannon volyymi-indeksi<br>
    tupk Tupakkatilasto<br>
    tva Teollisuuden ja kaupan varastotilasto<br>
    tvki Työvoimakustannusindeksi<br>
    tvt Veronalaiset tulot<br>
    tvtutk Työvoimakustannustutkimus<br>
    tymm Teollisuuden ympäristönsuojelumenot<br>
    tyokay Työssäkäynti<br>
    tyoolot Työolotutkimus<br>
    tyti Työvoimatutkimus<br>
    ulkoy Ulkomaiset tytäryhtiöt Suomessa<br>
    uloa Ulosottoasiat<br>
    vaenn Väestöennuste<br>
    vaerak Väestörakenne<br>
    vamuu Väestön ennakkotilasto<br>
    vatt Valtion tuottavuustilasto<br>
    velj Velkajärjestelyt<br>
    velk Velkaantumistilasto<br>
    vermak Verot ja veronluonteiset maksut<br>
    vkm Vähittäiskaupan määrävuosiselvitys<br>
    vkour Väestön koulutusrakenne<br>
    vkp Valtion kuukausipalkat<br>
    vpa Vapaa-aikatutkimus<br>
    vtak Valtion takaukset<br>
    vtmma Valtion tulot ja menot alueittain<br>
    vtp Kansantalouden tilinpito<br>
    vtutk Kotitalouksien varallisuus<br>
    yev Ympäristöverot<br>
    ylt Ympäristöliiketoiminta<br>
    yop Yliopistokoulutus<br>
    yrtt Yritystukitilasto<br>
    ysan Yrityssaneeraukset<br>
    yskp Yksityisen sektorin kuukausipalkat<br>
    ystp Yksityisen sektorin tuntipalkat<br>
<br>
Aihealue koodit urlissa:<br>
<br>
Asuminen      Boende        Housing       ASU<br>
Elinolot      Levnadsförhål-<br>
landen        Living Conditions    ELI<br>
Energia       Energi        Energy        ENE<br>
Hinnat ja kustannukset      Priser och kostnader        Prices and Costs     HIN<br>
Julkinen talous      Offentlig ekonomi    Government Finance   JUL<br>
Kansantalous  Nationalräken-<br>
skaper        National Accounts    KAN<br>
Kauppa        Handel        Trade  KAU<br>
Koulutus      Utbildning    Education     KOU<br>
Kulttuuri ja viestintä      Kultur och massmedier       Culture and the Media<br>
      KLT<br>
Liikenne ja matkailu        Transport och turism        Transport and Tourism<br>
       LII<br>
Maa-, metsä- ja kalatalous  Jord- och skogsbruk samt fiske     Agriculture,<br>
    Forestry and Fishery    MAA<br>
Oikeus        Rättsväsende  Justice       OIK<br>
Palkat ja työvoimakustan-<br>
nukset        Löner och arbetskrafts-<br>
kostnader     Wages, Salaries and Labour Costs   PAL<br>
Palvelut      Tjänster      Services      PAV<br>
Rahoitus ja Vakuutus        Finansiering och försäkring        Financing and<br>
       Insurance     RAH<br>
Rakentaminen  Byggandet     Construction  RAK<br>
Sosiaaliturva        Socialskydd   Social Protection    SOS<br>
Teollisuus    Industri      Manufacturing        TEO<br>
Terveys       Hälsa  Health        TER<br>
Tiede, teknologia ja tietoyhteiskunta     Vetenskap, teknologi och informations-<br>
samhället     Science, Technology and Information Society      TTT<br>
Tulot ja kulutus     Inkomst och konsumtion      Income and Consumption      TUL<br>
Työmarkkinat  Arbetsmarknaden      Labour Market        TYM<br>
Vaalit        Val    Elections     VAA<br>
Väestö        Befolkning    Population    VRM<br>
Ympäristö ja luonnonvarat   Miljö och naturresurser     Environment and Natural<br>
    Resources        YMP<br>
Yritykset     Företag       Enterprises   YRI<br>
<br>
<br>
<br>
Hans<br>
<br>
<br>
<br>
<br>
Terve,<br>
<br>
Tarvitsette vielä:<br>
<a href="http://www.stat.fi/org/tut/dthemes/drafts/cossi_en.html" target="_blank">http://www.stat.fi/org/tut/dthemes/drafts/cossi_en.html</a><br>
<a href="http://www.stat.fi/org/tut/dthemes/drafts/cossi_pxml_en.html" target="_blank">http://www.stat.fi/org/tut/dthemes/drafts/cossi_pxml_en.html</a><br>
<br>
<a href="http://en.wikipedia.org/wiki/Extensible_Data_Format" target="_blank">http://en.wikipedia.org/wiki/Extensible_Data_Format</a><br>
<a href="http://xml.coverpages.org/xdf.html" target="_blank">http://xml.coverpages.org/xdf.html</a><br>
<br>
Hans<br>
<br>
<br>
Leo Lahti  (24.5.2012  13:38):<br>
>Terve Hans, paljon kiitoksia tästä. Koitamme löytää jostain välistä aikaa<br>
>ainakin vilkaista näitä, palaillaan asiaan.<br>
><br>
>Leo<br>
><br>
><br>
>2012/5/24 Baumgartner Hans <<a href="mailto:hans.baumgartner@stat.fi">hans.baumgartner@stat.fi</a>><br>
><br>
>> Terve,<br>
>><br>
>> Tässä testimielessä StatFin "kannan" sisältö XDF XML -muodossa.<br>
>> <a href="http://pxweb2.stat.fi/database/StatFin/StatFin_rap_xml.csv" target="_blank">http://pxweb2.stat.fi/database/StatFin/StatFin_rap_xml.csv</a><br>
>><br>
>> Tässä on tämänhetkinen "kannan" tilanne. XDF-tiedostoja ei vielä päivitetä<br>
>> kun<br>
>> ehkä pyynnöstä.<br>
>> Muunnokset ovat käynnissä ja kestävät ehkä pari tuntia ....<br>
>><br>
>> Muista että tämä on Beta testausta ....<br>
>><br>
>> Hans Baumgartner<br>
>> Tilastokeskus<br>
>><br>
>><br>
>> Leo Lahti  (22.5.2012  12:44):<br>
>> >Moi,<br>
>> ><br>
>> >> Teemme tätä täysin ilman lisäresursseja.<br>
>> ><br>
>> >Meillä sama juttu.. harrastuspohjalta.<br>
>> ><br>
>> ><br>
>> >> Ajattelin testata kokonaan testimielessä StatFin "kannan" muuntamista<br>
>> >> XDF-muotoon. Tämä vaatii hieman koodaamista meidän puoleltamme ...<br>
>> >> katsotaan mitä voimme tehdä.<br>
>> ><br>
>> >XML-pohjaisena voisi ajatella sen olevan laajemmin luettavissa.<br>
>> ><br>
>> ><br>
>> >> Teoriassa olisi mahdollista tehdä PX-Editistä Opensource tuote.<br>
>> >> En vain millään usko että Opensource yhteisössä olisi APL osaajia.<br>
>> >><br>
>> ><br>
>> >Voi hyvin olla, eikä niitä muokattuja versioitakaan ihan itsestään<br>
>> ilmaannu<br>
>> >välttämättä, vaikka pistäisi koodit jakoonkin.<br>
>> ><br>
>> >/ Leo<br>
>> ><br>
>> ><br>
>> >> Leo Lahti  (22.5.2012  11:59):<br>
>> ><br>
>> >> >Terve Hans, kiitos erittäin paljon näistä. Tämä on mielestäni hyvää ja<br>
>> >> >tärkeää keskustelua.<br>
>> >> ><br>
>> >> >R:n px-lukurutiinit on tosiaan eksperimentaalisia, en tiedä paraneeko<br>
>> tämä<br>
>> >> >tilanne tulevaisuudessa ainakaan kovin nopeasti. Mutta se on ollut<br>
>> >> >toistaseksi ainoa käytettävissä ollut keino lukea px-tiedostoja<br>
>> >> >automatisoidusti linuxin R-asennuksiin. Sama ongelma on nyt tullut<br>
>> vastaan<br>
>> >> >myös muille aineistoja kokeilleille, ja itse törmäsin siihen nyt<br>
>> toisenkin<br>
>> >> >projektin yhteydessä joka sisälsi px-dataa. Windows ei ole yhtä yleinen<br>
>> >> >järjestelmä laskentapuolella. Tiedostojen automaattinen haku winenkään<br>
>> >> >kautta ei ole sujuvaa, jos varsinainen laskentaympäristö ja muu data<br>
>> >> >sijaitsee unix-puolella.<br>
>> >> ><br>
>> >> >Meitä aihe kiinnostaa, koska rakennamme avoimeksi tutkimusvälineeksi<br>
>> >> >(kohderyhmänä tutkimusryhmät, järjestöt, datajournalistit jne)<br>
>> >> >järjestelmäriippumatonta ohjelmakirjastoa, jonka avulla olisi<br>
>> mahdollista<br>
>> >> >tehokkaasti hakea ja yhdistellä tietoa eri lähteistä (Tilastokeskus,<br>
>> >> >ministeröiden sivut, Maanmittauslaitos jnejne). Tätä edistäisi hyvin,<br>
>> jos<br>
>> >> >Tilastokeskuksen aineistoja olisi tulevaisuudessa saatavilla<br>
>> sellaisessa<br>
>> >> >formaatissa jota voi lukea Windowsin lisäksi muissakin järjestelmissä<br>
>> >> >standardivälinein.  Tämä on erityisen keskeistä silloin, kun tiedostoja<br>
>> >> >pitää lukea runsaita määriä jolloin manuaalinen muokkaus PC<br>
>> >> >Axis/Edit-ohjelmilla ei ole realistinen vaihtoehto.<br>
>> >> ><br>
>> >> >Yritämme löytää jossain välissä aikaa lähettämääsi XDF-formaattiin<br>
>> >> >tutustumiseen. Se saattaisi olla hyvä mahdollisuus. Metatietojen<br>
>> >> >esittämiseen ja eri taulujen tehokkaaseen yhdistämiseen tosiaan<br>
>> tarvitaan<br>
>> >> >hierarkkisempaa rakennetta kuin kaksiulotteiset csv-taulut, ja se on<br>
>> >> selvää<br>
>> >> >että monet tiedot eivät ole suoraan vertailukelpoisia.<br>
>> >> ><br>
>> >> >Eli tässä hieman näkökulmia meidän suunnasta, toivottavasti palaute on<br>
>> >> >teille hyödyllistä. Jatketaan keskustelua tilanteen mukaan, saatan olla<br>
>> >> >vielä lisääkin yhteydessä näiden tiimoilta. Kaiken kaikkiaan<br>
>> erinomainen<br>
>> >> >juttu, että tuota dataa on jo saatavilla ainakin PX-muodossa, ja isoa<br>
>> osaa<br>
>> >> >(n. 30% kuten eilisessä blogauksessani) siitä voi jo nyt hyödyntää<br>
>> >> >automaattisin välinein. Tiedostomuotojen osalta kehittämistä voisi<br>
>> tosiaan<br>
>> >> >vielä miettiä jatkoa ajatellen, arvelisin että tulevaisuudessa moni<br>
>> muukin<br>
>> >> >meidän lisäksi on kiinnostunut tekemään automatisoituja hakuja.<br>
>> >> ><br>
>> >> >ystävällisesti,<br>
>> >> >Leo Lahti, TkT/VTK<br>
>> >> ><br>
>> >> ><br>
>> >> >2012/5/11 Baumgartner Hans <<a href="mailto:hans.baumgartner@stat.fi">hans.baumgartner@stat.fi</a>><br>
>> >> ><br>
>> >> >> Terve,<br>
>> >> >><br>
>> >> >><br>
>> >> >> Kiitos palautteesta.<br>
>> >> >><br>
>> >> >><br>
>> >> >> Tänään vakioin koko kannan. Kaikki tiedostot ovat sen jälkeen 100%<br>
>> >> >> PC-Axis muodossa. Joku yksittäinen tiedosto voi tietenkin olla<br>
>> "rikki"<br>
>> >> >> mutta sekin pyritään korjaamaan ensi viikon aikana.<br>
>> >> >><br>
>> >> >><br>
>> >> >> Näyttää siltä että Espanjalaiset R:än PC-Axis parseria tehneet eivät<br>
>> >> >> ole testanneet kunnolla tuotettaan. Lähettämissäsi linkeissä olleet<br>
>> >> >> px-tiedostostot eivät mielestäni ole millään PC-Axis standardin<br>
>> >> vastaisia.<br>
>> >> >> Virheilmoitukset eivät kuvaa virhettä ... ainakaan selkeästi.<br>
>> >> >><br>
>> >> >> Jos tiedostomuodon parseria tehdään epämääräisin tiedoin ja vielä<br>
>> ilman<br>
>> >> >> kunnon testitiedostoja niin tämä on valitettavasti lopputulos.<br>
>> >> >><br>
>> >> >> Oletan että ongelmat ovat seuraavia:<br>
>> >> >> 1. Datassa on lukujen lisäksi tietenkin myös "." ".." "..." "...."<br>
>> jne.<br>
>> >> >> ".......<br>
>> >> >> " ja "-"<br>
>> >> >>   Meidän erotinmerkit on aina standardin mukaiset!<br>
>> >> >> 2. Datan voi teoriassa olla vaikka yhdessä pitkässä "pötkössä".<br>
>> >> >>   SUOSITUS on kuitenkin formatoida dataosio niin kuin metadata kuvaa<br>
>> >> sen.<br>
>> >> >> 3. Todella suuret taulukot "matriisit" 200milj rivejä ja 10 000<br>
>> >> sarakkeita<br>
>> >> >>   Suurin tiedosto yli 600MB<br>
>> >> >> 4. En usko että parseria on testattu monikielisten taulukoidsen<br>
>> kanssa.<br>
>> >> >>   Jos parseri on tehty oikein kaikki pitäisi toimia, koska PC-Axis<br>
>> >> >> tiedostot<br>
>> >> >>   ovat taakseppäin yhteensopivia.<br>
>> >> >>   jne.<br>
>> >> >><br>
>> >> >><br>
>> >> >><br>
>> >> >> >> Nyt meillä olisi pyrkimyksenä koota Tilastokeskuksen aineistojen<br>
>> >> >> >> pohjalta mahdollisimman paljon kuntakohtaista tietoa yhteen<br>
>> >> >> >> datamatriisiin, kunnat x muuttujat. Sain toistaiseksi<br>
>> automaattisesti<br>
>> >> >> >> konvertoitua 201 PC Axis-tiedostoa CSV-formaattiin R:llä. Vielä<br>
>> olisi<br>
>> >> >> >> n. 2400 fileä, joiden konversio kaatui, pääasiassa johonkin alla<br>
>> >> >> >> listatuista kolmesta ongelmasta. Meidän kannalta on melko sama,<br>
>> onko<br>
>> >> >> >> data saatavissa PC Axis-, xdf- tai csv-formaatissa, kunhan<br>
>> erillisten<br>
>> >> >> >> taulujen luenta ja yhdistely saataisiin automatisoiduksi. Otan<br>
>> >> >> >> mielelläni vastaan vinkkejä asian suhteen, jos tulee jotakin<br>
>> mieleen.<br>
>> >> >><br>
>> >> >> Kaikki ei ole yhdistettävissä aikasarjaksi vaikka se näyttää siltä.<br>
>> >> Tiedot<br>
>> >> >> eivät välttämättä ole vertailukelkoisia.<br>
>> >> >><br>
>> >> >> Mitä tapahtuu taulukon muille metatiedoille kun taulukko muunnetaan<br>
>> CSV<br>
>> >> >> muotoon.<br>
>> >> >> Ainakin taulukon alahuomautus (note ja notex) ovat pakko olla mukana<br>
>> >> muuten<br>
>> >> >> tiedon käyttö on vaikeaa.<br>
>> >> >><br>
>> >> >> Jos tässä on kysessä jatkuvapäivitteinen datamatriisi niin huomioikaa<br>
>> >> >> seuraavat<br>
>> >> >> asiat.<br>
>> >> >> Metodit, luokitukset ja tiedostonimet voivat muuttua tarpeen mukaan.<br>
>> >> >> Tällaisessa "kannassa" on aina "euromuunnos" meneillään.<br>
>> >> >> esim. alueluokitukset muuttuvat vuosittain eikä niitä välttämättä<br>
>> >> (usein se<br>
>> >> >> kyllä onnistuu) voi summata kunnista uusimpaan aluelukoitukseen.<br>
>> >> >><br>
>> >> >> Huomaa myös että joissakin taulkoissa on salattua tietoa.<br>
>> >> >><br>
>> >> >><br>
>> >> >> >> Käsitinhän oikein, että XDF-formaatti on teillä vasta kokeilussa,<br>
>> ja<br>
>> >> >> >> suurinta osaa datoista ei ole saatavana tuossa muodossa?<br>
>> >> >><br>
>> >> >> Tilastotaulukoita ei ole vielä saatavissa XDF-muodossa.<br>
>> >> >><br>
>> >> >><br>
>> >> >> >> PC Edit on ongelmallinen, koska toimii vain Window-ympäristössä,<br>
>> >> mutta<br>
>> >> >> >> tieteellinen laskenta tapahtuu tyypillisesti unix-ympäristössä.<br>
>> >> >> >> Aineistojen sujuva automatisoitu haku suoraan laskentaympäristöön<br>
>> ei<br>
>> >> >> >> siis onnistu.<br>
>> >> >><br>
>> >> >> Testasimme px-tiedoston luvun PX-Editillä (3.0) Winessä. Ensimmäinen<br>
>> >> testi<br>
>> >> >> meni<br>
>> >> >> ongelmitta läpi.<br>
>> >> >> Tulemme itse käyttämään Linuxissa PX-Editiä winessä tulevaisuudessa.<br>
>> >> >><br>
>> >> >> On olemassa myös WINDOWS PC-Axis ohjelma joka on tarkoitettu<br>
>> >> >> loppukäyttäjille.<br>
>> >> >> <a href="http://tilastokeskus.fi/tup/pcaxis/lataus_asennus.html" target="_blank">http://tilastokeskus.fi/tup/pcaxis/lataus_asennus.html</a><br>
>> >> >> Tämä ei tietenkään ratkaise ongelmaa.<br>
>> >> >><br>
>> >> >><br>
>> >> >> Toivottavasti tästä on jotakin hyötyä ...<br>
>> >> >><br>
>> >> >><br>
>> >> >> Hans<br>
>> >> >><br>
>> >> >><br>
>> >> >><br>
>> >> >><br>
>> >> >><br>
>> >> >><br>
>> >> >> Leo Lahti  (8.5.2012  14:56):<br>
>> >> >> >Moi, tarkennus äskeiseen. Sain R:llä luettua taulukkomuotoon 761 PC<br>
>> >> >> >Axis-tiedostoa, eli n. 25% Tilastokeskuksen avoimista 2600<br>
>> >> >> >aineistosta.<br>
>> >> >> ><br>
>> >> >> >Leo<br>
>> >> >> ><br>
>> >> >> >2012/5/8 Leo Lahti <<a href="mailto:leo.lahti@iki.fi">leo.lahti@iki.fi</a>>:<br>
>> >> >> >> Käsitinhän oikein, että XDF-formaatti on teillä vasta kokeilussa,<br>
>> ja<br>
>> >> >> >> suurinta osaa datoista ei ole saatavana tuossa muodossa?<br>
>> >> >> >><br>
>> >> >> >> Lupasin pistää tiedoksi ongelmia, joihin törmäsin yrittäessäni<br>
>> lukea<br>
>> >> >> >> PC-Axis-tiedostoja R:llä. Ainakin viestin lopussa luetellut kolme<br>
>> >> >> >> virhetyyppiä toistuvat usein. Voin tarvittaessa tuottaa<br>
>> laajempaakin<br>
>> >> >> >> listaa ongelmallisista tiedostoista.<br>
>> >> >> >><br>
>> >> >> >> PC Edit on ongelmallinen, koska toimii vain Window-ympäristössä,<br>
>> >> mutta<br>
>> >> >> >> tieteellinen laskenta tapahtuu tyypillisesti unix-ympäristössä.<br>
>> >> >> >> Aineistojen sujuva automatisoitu haku suoraan laskentaympäristöön<br>
>> ei<br>
>> >> >> >> siis onnistu.<br>
>> >> >> >><br>
>> >> >> >> Nyt meillä olisi pyrkimyksenä koota Tilastokeskuksen aineistojen<br>
>> >> >> >> pohjalta mahdollisimman paljon kuntakohtaista tietoa yhteen<br>
>> >> >> >> datamatriisiin, kunnat x muuttujat. Sain toistaiseksi<br>
>> automaattisesti<br>
>> >> >> >> konvertoitua 201 PC Axis-tiedostoa CSV-formaattiin R:llä. Vielä<br>
>> olisi<br>
>> >> >> >> n. 2400 fileä, joiden konversio kaatui, pääasiassa johonkin alla<br>
>> >> >> >> listatuista kolmesta ongelmasta. Meidän kannalta on melko sama,<br>
>> onko<br>
>> >> >> >> data saatavissa PC Axis-, xdf- tai csv-formaatissa, kunhan<br>
>> erillisten<br>
>> >> >> >> taulujen luenta ja yhdistely saataisiin automatisoiduksi. Otan<br>
>> >> >> >> mielelläni vastaan vinkkejä asian suhteen, jos tulee jotakin<br>
>> mieleen.<br>
>> >> >> >><br>
>> >> >> >> Palataan muiden kohtien osalta asiaan tuonnempana. Iso kiitos<br>
>> avusta!<br>
>> >> >> >><br>
>> >> >> >> yst. / Leo Lahti<br>
>> >> >> >><br>
>> >> >> >><br>
>> >> >> >><br>
>> >> >> >> * VIRHE 1<br>
>> >> >> >><br>
>> >> >> >>  *** caught segfault ***<br>
>> >> >> >> address 0x7fffd86214b8, cause 'memory not mapped'<br>
>> >> >> >><br>
>> >> >> >> Traceback:<br>
>> >> >> >>  1: strsplit(a, "//=//")<br>
>> >> >> >>  2: do.call(rbind, strsplit(a, "//=//"))<br>
>> >> >> >>  3: read.px("<a href="http://pxweb2.stat" target="_blank">http://pxweb2.stat</a>.<br>
>> >> >> fi/database/StatFin/asu/ashi/003_ashi_tau_108.px")<br>
>> >> >> >><br>
>> >> >> >><br>
>> >> >> >> =============================================<br>
>> >> >> >><br>
>> >> >> >> * VIRHE 2<br>
>> >> >> >><br>
>> >> >> >>> px <- read.px(bad.px.files[["<a href="http://pxweb2.stat" target="_blank">http://pxweb2.stat</a>.<br>
>> >> >> fi/database/StatFin/asu/ashi/004_ashi_tau_109_fi.px" ]]); df <-<br>
>> as.data.<br>
>> >> >> frame(px)<br>
>> >> >> >> Segmentation fault<br>
>> >> >> >><br>
>> >> >> >> ==============================================<br>
>> >> >> >><br>
>> >> >> >> * VIRHE 3<br>
>> >> >> >><br>
>> >> >> >>> px <- read.px("<a href="http://pxweb2.stat" target="_blank">http://pxweb2.stat</a>.<br>
>> >> >> fi/database/StatFin/kan/pt/190_pt_tau_109_fi.px");<br>
>> >> >> >>> df <- as.data.frame(px)<br>
>> >> >> >> Error in data.frame(do.call(expand.grid, values[names.vals]),<br>
>> >> >> x$DATA$value) :<br>
>> >> >> >>  arguments imply differing number of rows: 128, 26912<br>
>> >> >><br>
>> >> >><br>
>> >> >><br>
>> >> ><br>
>> >><br>
>> >><br>
>> >><br>
>> ><br>
>><br>
>><br>
>><br>
><br>
<br>
<br>
</div><br>