[Sorvi-admin] Fwd: Re(2): Re(2): Re(2): Re(2): tilastokeskuksen avointen aineistojen url-listaus

Leo Lahti leo.lahti at iki.fi
Fri May 25 15:47:47 CEST 2012


Ja vielä lisää Tilastokeskus-kamaa Hansilta..

Leo

---------- Forwarded message ----------
From: Baumgartner Hans <hans.baumgartner at stat.fi>
Date: 2012/5/25
Subject: Re(2): Re(2): Re(2): Re(2): tilastokeskuksen avointen aineistojen
url-listaus
To: Leo Lahti <leo.lahti at iki.fi>


Terve,

Tarvitsette varnmasti myös näitä:

Tilastokoodit urlissa:
   adopt Adoptiot
   akay Ajankäyttötutkimus
   akop Ammattikorkeakoulukoulutus
   aku Aikuiskoulutustutkimus
   altp Aluetilinpito
   aly Aloittaneet ja lopettaneet yritykset
   aop Ammatillinen koulutus
   apt Alueellinen panos-tuotos
   asas Asunnot ja asuinolot
   asen Asumisen energiankulutus
   ashi Asuntojen hinnat
   asvu Asuntojen vuokrat
   asyta Asunto-osakeyhtiöiden talous
   ati Ansiotasoindeksi
   atoi Teollisuuden alue- ja toimialatilasto
   atp Avoimet työpaikat
   auma Autokaupan määrävuosiselvitys
   ava Ainevalinnat
   cvts CVTS, Yritysten henkilöstökoulutus -tutkimus
   ehi Energian hinnat
   ehk Energian hankinta ja kulutus
   ekul Energiankulutus
   eltu Elatustuki
   erop Erityisopetus
   euvaa Europarlamenttivaalit
   evaa Eduskuntavaalit
   haloikr Hallinto-oikeuksien ratkaisut
   hovoikr Hovioikeuksien ratkaisut
   icte Tietotekniikan käyttö yrityksissä
   inn Innovaatiotoiminta
   iptp Informaatiopalvelujen tilinpäätöstilasto
   jali Julkisyhteisöjen alijäämä ja velka
   jate Jätetilasto
   jmete Julkisyhteisöjen menot tehtävittäin
   jmhi Julkisten menojen hintaindeksi
   jsys Julkisen sektorin ympäristönsuojelumenot
   jtume Julkisyhteisöjen tulot ja menot neljännesvuosittain
   julo Julkinen oikeusapu
   jvie Joukkoviestimet
   jyev Julkisyhteisöjen velka neljännesvuosittain
   jyrt Julkisyhteisöjen rahoitustilinpito
   kalki Kuorma-autoliikenteen kustannusindeksi
   kamv Kaupan alueellinen määrävuosiselvitys
   kanma Kansantalouden materiaalivirrat
   kans Suomen kansalaisuuden saamiset
   katipa Kaupan tilinpäätöstilasto
   kbar Kuluttajabarometri
   khak Koulutukseen hakeutuminen
   khaloikr Korkeimman hallinto-oikeuden ratkaisut
   khi Kuluttajahintaindeksi
   khki Kasvihuonekaasut
   kihi Kiinteistöjen hinnat
   kivih Kivihiilen kulutus
   kjarj Koulutuksen järjestäjät ja oppilaitokset
   kkesk Koulutuksen keskeyttäminen
   kktu Kuntien ja kuntayhtymien tuottavuustilasto
   klt Kulttuuritilasto
   klv Kaupan liikevaihtokuvaaja
   koikr Korkeimman oikeuden ratkaisut
   koikrr Käräjäoikeuksien rikosasioiden ratkaisut
   koikrs Käräjäoikeuksien siviiliasioiden ratkaisut
   konk Konkurssit
   kora Korjausrakentaminen
   kotal Koulutuksen talous
   ksp Kuntasektorin palkat
   ksyyt Kuolemansyyt
   ktekt Korkean teknologian ulkomaankauppa
   ktkk Tuotannon suhdannekuvaaja
   ktn Kuntien talouden neljännesvuositilasto
   ktps Palkkasummakuvaajat
   ktt Kuntien ja kuntayhtymien talous ja toiminta
   kttav Tieliikenteen tavarankuljetukset
   kttp Kuntien ja kuntayhtymien tilinpäätösarviot
   ktutk Kotitalouksien kulutus
   kuol Kuolleet
   kvaa Kunnallisvaalit
   kvhv Kansainvälinen hintavertailu
   kyki Kiinteistön ylläpidon kustannusindeksi
   lalki Linja-autoliikenteen kustannusindeksi
   litipa Liikenteen tilinpäätöstilasto
   litu Lihantuotanto
   lkan Luottokanta
   lkor Luottokortit
   llai Luottolaitosten tilinpäätökset
   lop Lukiokoulutus
   maku Maarakennuskustannusindeksi
   mama Maito- ja maitotuotetilasto
   markki Maarakennusalan konekustannusindeksi
   matipa Majoitus- ja ravitsemistoiminnan tilinpäätöstilasto
   matk Majoitustilasto
   matp Matkailutilinpito
   mekki Metsäalan kone- ja autokustannusindeksi
   merek Moottoriajoneuvojen ensirekisteröinnit
   metsom Metsämaan omistus
   metsu Metsien suojelu
   mettp Metsätilinpito
   mkan Moottoriajoneuvokanta
   mltm Ulkomaan meriliikenteen tulot ja menot
   mmtal Maa- ja metsätalousyritysten taloustilasto
   mtalt Maatalouden aluetaloustilasto
   mthi Maatalouden tuottajahintaindeksi
   muutl Muuttoliike
   ntp Neljännesvuositilinpito
   oaiop Oppilaitosten aikuiskoulutus
   opiskt Oppilaitosten opiskelijat ja tutkinnot
   opku Opintojen kulku
   opty Opiskelijoiden työssäkäynti
   palhy Yrityspalvelut
   pat Patentointi
   pata Palveluiden alue- ja toimialatilasto
   patipa Liike-elämän palvelujen tilinpäätöstilasto
   perh Perheet
   pka Pääomakanta
   pkei Pakkokeinot
   plv Palvelualojen liikevaihtokuvaaja
   polrik Poliisin tietoon tullut rikollisuus
   pop Esi- ja peruskouluopetus
   pra Palkkarakenne
   pt Panos-tuotos
   pthi Palvelujen tuottajahintaindeksit
   pul Palvelujen ulkomaankauppa
   pvaa Presidentinvaalit
   rajat Rajahaastattelututkimus
   rakke Rakennukset ja kesämökit
   ras Rakennus- ja asuntotuotanto
   rata Rakentamisen alue- ja toimialatilasto
   ratipa Rakentamisen tilinpäätöstilasto
   rki Rakennuskustannusindeksi
   rlea Rahoitusleasing
   rlv Rakentamisen liikevaihtokuvaaja
   rtp Rahoitustilinpito
   salatuo Sähkön ja lämmön tuotanto
   sijk Sijoittuminen koulutuksen jälkeen
   smat Suomalaisten matkailu
   spy Sijoituspalveluyritykset
   ssaaty Siviilisäädyn muutokset
   stu Suomalaiset tytäryhtiöt ulkomailla
   sutivi Tieto- ja viestintätekniikan käyttö
   synt Syntyneet
   syr Yritysrekisterin vuositilasto
   syytr Syyttäjän ratkaisut
   syyttr Syytetyt, tuomitut ja rangaistukset
   tene Teollisuuden energiankäyttö
   tetipa Teollisuuden tilinpäätöstilasto
   teul Teollisuuden uudet tilaukset
   thi Tuottajahintaindeksit
   tilma Toimialoittaiset ilmapäästöt
   tjkt Tulonjaon kokonaistilasto
   tjt Tulonjakotilasto
   tkke Tutkimus- ja kehittämistoiminta
   tkker Tutkimus- ja kehittämisrahoitus valtion talousarviossa
   tkm Tukkukaupan määrävuosiselvitys
   tlv Teollisuuden liikevaihtokuvaaja
   ton Tieliikenneonnettomuustilasto
   tslhi Taksi- ja sairaankuljetusliikenteen kustannusindeksit
   tta Työtaistelutilasto
   ttap Työtapaturmat
   tthv Tieteen ja teknologian henkilövoimavarat
   tti Teollisuustuotanto
   ttohi Maatalouden tuotantovälineiden ostohintaindeksi
   ttut Tuottavuustutkimukset
   ttvi Teollisuustuotannon volyymi-indeksi
   tupk Tupakkatilasto
   tva Teollisuuden ja kaupan varastotilasto
   tvki Työvoimakustannusindeksi
   tvt Veronalaiset tulot
   tvtutk Työvoimakustannustutkimus
   tymm Teollisuuden ympäristönsuojelumenot
   tyokay Työssäkäynti
   tyoolot Työolotutkimus
   tyti Työvoimatutkimus
   ulkoy Ulkomaiset tytäryhtiöt Suomessa
   uloa Ulosottoasiat
   vaenn Väestöennuste
   vaerak Väestörakenne
   vamuu Väestön ennakkotilasto
   vatt Valtion tuottavuustilasto
   velj Velkajärjestelyt
   velk Velkaantumistilasto
   vermak Verot ja veronluonteiset maksut
   vkm Vähittäiskaupan määrävuosiselvitys
   vkour Väestön koulutusrakenne
   vkp Valtion kuukausipalkat
   vpa Vapaa-aikatutkimus
   vtak Valtion takaukset
   vtmma Valtion tulot ja menot alueittain
   vtp Kansantalouden tilinpito
   vtutk Kotitalouksien varallisuus
   yev Ympäristöverot
   ylt Ympäristöliiketoiminta
   yop Yliopistokoulutus
   yrtt Yritystukitilasto
   ysan Yrityssaneeraukset
   yskp Yksityisen sektorin kuukausipalkat
   ystp Yksityisen sektorin tuntipalkat

Aihealue koodit urlissa:

Asuminen      Boende        Housing       ASU
Elinolot      Levnadsförhål-
landen        Living Conditions    ELI
Energia       Energi        Energy        ENE
Hinnat ja kustannukset      Priser och kostnader        Prices and Costs
  HIN
Julkinen talous      Offentlig ekonomi    Government Finance   JUL
Kansantalous  Nationalräken-
skaper        National Accounts    KAN
Kauppa        Handel        Trade  KAU
Koulutus      Utbildning    Education     KOU
Kulttuuri ja viestintä      Kultur och massmedier       Culture and the
Media
     KLT
Liikenne ja matkailu        Transport och turism        Transport and
Tourism
      LII
Maa-, metsä- ja kalatalous  Jord- och skogsbruk samt fiske     Agriculture,
   Forestry and Fishery    MAA
Oikeus        Rättsväsende  Justice       OIK
Palkat ja työvoimakustan-
nukset        Löner och arbetskrafts-
kostnader     Wages, Salaries and Labour Costs   PAL
Palvelut      Tjänster      Services      PAV
Rahoitus ja Vakuutus        Finansiering och försäkring        Financing and
      Insurance     RAH
Rakentaminen  Byggandet     Construction  RAK
Sosiaaliturva        Socialskydd   Social Protection    SOS
Teollisuus    Industri      Manufacturing        TEO
Terveys       Hälsa  Health        TER
Tiede, teknologia ja tietoyhteiskunta     Vetenskap, teknologi och
informations-
samhället     Science, Technology and Information Society      TTT
Tulot ja kulutus     Inkomst och konsumtion      Income and Consumption
 TUL
Työmarkkinat  Arbetsmarknaden      Labour Market        TYM
Vaalit        Val    Elections     VAA
Väestö        Befolkning    Population    VRM
Ympäristö ja luonnonvarat   Miljö och naturresurser     Environment and
Natural
   Resources        YMP
Yritykset     Företag       Enterprises   YRI



Hans




Terve,

Tarvitsette vielä:
http://www.stat.fi/org/tut/dthemes/drafts/cossi_en.html
http://www.stat.fi/org/tut/dthemes/drafts/cossi_pxml_en.html

http://en.wikipedia.org/wiki/Extensible_Data_Format
http://xml.coverpages.org/xdf.html

Hans


Leo Lahti  (24.5.2012  13:38):
>Terve Hans, paljon kiitoksia tästä. Koitamme löytää jostain välistä aikaa
>ainakin vilkaista näitä, palaillaan asiaan.
>
>Leo
>
>
>2012/5/24 Baumgartner Hans <hans.baumgartner at stat.fi>
>
>> Terve,
>>
>> Tässä testimielessä StatFin "kannan" sisältö XDF XML -muodossa.
>> http://pxweb2.stat.fi/database/StatFin/StatFin_rap_xml.csv
>>
>> Tässä on tämänhetkinen "kannan" tilanne. XDF-tiedostoja ei vielä
päivitetä
>> kun
>> ehkä pyynnöstä.
>> Muunnokset ovat käynnissä ja kestävät ehkä pari tuntia ....
>>
>> Muista että tämä on Beta testausta ....
>>
>> Hans Baumgartner
>> Tilastokeskus
>>
>>
>> Leo Lahti  (22.5.2012  12:44):
>> >Moi,
>> >
>> >> Teemme tätä täysin ilman lisäresursseja.
>> >
>> >Meillä sama juttu.. harrastuspohjalta.
>> >
>> >
>> >> Ajattelin testata kokonaan testimielessä StatFin "kannan" muuntamista
>> >> XDF-muotoon. Tämä vaatii hieman koodaamista meidän puoleltamme ...
>> >> katsotaan mitä voimme tehdä.
>> >
>> >XML-pohjaisena voisi ajatella sen olevan laajemmin luettavissa.
>> >
>> >
>> >> Teoriassa olisi mahdollista tehdä PX-Editistä Opensource tuote.
>> >> En vain millään usko että Opensource yhteisössä olisi APL osaajia.
>> >>
>> >
>> >Voi hyvin olla, eikä niitä muokattuja versioitakaan ihan itsestään
>> ilmaannu
>> >välttämättä, vaikka pistäisi koodit jakoonkin.
>> >
>> >/ Leo
>> >
>> >
>> >> Leo Lahti  (22.5.2012  11:59):
>> >
>> >> >Terve Hans, kiitos erittäin paljon näistä. Tämä on mielestäni hyvää
ja
>> >> >tärkeää keskustelua.
>> >> >
>> >> >R:n px-lukurutiinit on tosiaan eksperimentaalisia, en tiedä paraneeko
>> tämä
>> >> >tilanne tulevaisuudessa ainakaan kovin nopeasti. Mutta se on ollut
>> >> >toistaseksi ainoa käytettävissä ollut keino lukea px-tiedostoja
>> >> >automatisoidusti linuxin R-asennuksiin. Sama ongelma on nyt tullut
>> vastaan
>> >> >myös muille aineistoja kokeilleille, ja itse törmäsin siihen nyt
>> toisenkin
>> >> >projektin yhteydessä joka sisälsi px-dataa. Windows ei ole yhtä
yleinen
>> >> >järjestelmä laskentapuolella. Tiedostojen automaattinen haku
winenkään
>> >> >kautta ei ole sujuvaa, jos varsinainen laskentaympäristö ja muu data
>> >> >sijaitsee unix-puolella.
>> >> >
>> >> >Meitä aihe kiinnostaa, koska rakennamme avoimeksi tutkimusvälineeksi
>> >> >(kohderyhmänä tutkimusryhmät, järjestöt, datajournalistit jne)
>> >> >järjestelmäriippumatonta ohjelmakirjastoa, jonka avulla olisi
>> mahdollista
>> >> >tehokkaasti hakea ja yhdistellä tietoa eri lähteistä (Tilastokeskus,
>> >> >ministeröiden sivut, Maanmittauslaitos jnejne). Tätä edistäisi hyvin,
>> jos
>> >> >Tilastokeskuksen aineistoja olisi tulevaisuudessa saatavilla
>> sellaisessa
>> >> >formaatissa jota voi lukea Windowsin lisäksi muissakin järjestelmissä
>> >> >standardivälinein.  Tämä on erityisen keskeistä silloin, kun
tiedostoja
>> >> >pitää lukea runsaita määriä jolloin manuaalinen muokkaus PC
>> >> >Axis/Edit-ohjelmilla ei ole realistinen vaihtoehto.
>> >> >
>> >> >Yritämme löytää jossain välissä aikaa lähettämääsi XDF-formaattiin
>> >> >tutustumiseen. Se saattaisi olla hyvä mahdollisuus. Metatietojen
>> >> >esittämiseen ja eri taulujen tehokkaaseen yhdistämiseen tosiaan
>> tarvitaan
>> >> >hierarkkisempaa rakennetta kuin kaksiulotteiset csv-taulut, ja se on
>> >> selvää
>> >> >että monet tiedot eivät ole suoraan vertailukelpoisia.
>> >> >
>> >> >Eli tässä hieman näkökulmia meidän suunnasta, toivottavasti palaute
on
>> >> >teille hyödyllistä. Jatketaan keskustelua tilanteen mukaan, saatan
olla
>> >> >vielä lisääkin yhteydessä näiden tiimoilta. Kaiken kaikkiaan
>> erinomainen
>> >> >juttu, että tuota dataa on jo saatavilla ainakin PX-muodossa, ja isoa
>> osaa
>> >> >(n. 30% kuten eilisessä blogauksessani) siitä voi jo nyt hyödyntää
>> >> >automaattisin välinein. Tiedostomuotojen osalta kehittämistä voisi
>> tosiaan
>> >> >vielä miettiä jatkoa ajatellen, arvelisin että tulevaisuudessa moni
>> muukin
>> >> >meidän lisäksi on kiinnostunut tekemään automatisoituja hakuja.
>> >> >
>> >> >ystävällisesti,
>> >> >Leo Lahti, TkT/VTK
>> >> >
>> >> >
>> >> >2012/5/11 Baumgartner Hans <hans.baumgartner at stat.fi>
>> >> >
>> >> >> Terve,
>> >> >>
>> >> >>
>> >> >> Kiitos palautteesta.
>> >> >>
>> >> >>
>> >> >> Tänään vakioin koko kannan. Kaikki tiedostot ovat sen jälkeen 100%
>> >> >> PC-Axis muodossa. Joku yksittäinen tiedosto voi tietenkin olla
>> "rikki"
>> >> >> mutta sekin pyritään korjaamaan ensi viikon aikana.
>> >> >>
>> >> >>
>> >> >> Näyttää siltä että Espanjalaiset R:än PC-Axis parseria tehneet
eivät
>> >> >> ole testanneet kunnolla tuotettaan. Lähettämissäsi linkeissä olleet
>> >> >> px-tiedostostot eivät mielestäni ole millään PC-Axis standardin
>> >> vastaisia.
>> >> >> Virheilmoitukset eivät kuvaa virhettä ... ainakaan selkeästi.
>> >> >>
>> >> >> Jos tiedostomuodon parseria tehdään epämääräisin tiedoin ja vielä
>> ilman
>> >> >> kunnon testitiedostoja niin tämä on valitettavasti lopputulos.
>> >> >>
>> >> >> Oletan että ongelmat ovat seuraavia:
>> >> >> 1. Datassa on lukujen lisäksi tietenkin myös "." ".." "..." "...."
>> jne.
>> >> >> ".......
>> >> >> " ja "-"
>> >> >>   Meidän erotinmerkit on aina standardin mukaiset!
>> >> >> 2. Datan voi teoriassa olla vaikka yhdessä pitkässä "pötkössä".
>> >> >>   SUOSITUS on kuitenkin formatoida dataosio niin kuin metadata
kuvaa
>> >> sen.
>> >> >> 3. Todella suuret taulukot "matriisit" 200milj rivejä ja 10 000
>> >> sarakkeita
>> >> >>   Suurin tiedosto yli 600MB
>> >> >> 4. En usko että parseria on testattu monikielisten taulukoidsen
>> kanssa.
>> >> >>   Jos parseri on tehty oikein kaikki pitäisi toimia, koska PC-Axis
>> >> >> tiedostot
>> >> >>   ovat taakseppäin yhteensopivia.
>> >> >>   jne.
>> >> >>
>> >> >>
>> >> >>
>> >> >> >> Nyt meillä olisi pyrkimyksenä koota Tilastokeskuksen aineistojen
>> >> >> >> pohjalta mahdollisimman paljon kuntakohtaista tietoa yhteen
>> >> >> >> datamatriisiin, kunnat x muuttujat. Sain toistaiseksi
>> automaattisesti
>> >> >> >> konvertoitua 201 PC Axis-tiedostoa CSV-formaattiin R:llä. Vielä
>> olisi
>> >> >> >> n. 2400 fileä, joiden konversio kaatui, pääasiassa johonkin alla
>> >> >> >> listatuista kolmesta ongelmasta. Meidän kannalta on melko sama,
>> onko
>> >> >> >> data saatavissa PC Axis-, xdf- tai csv-formaatissa, kunhan
>> erillisten
>> >> >> >> taulujen luenta ja yhdistely saataisiin automatisoiduksi. Otan
>> >> >> >> mielelläni vastaan vinkkejä asian suhteen, jos tulee jotakin
>> mieleen.
>> >> >>
>> >> >> Kaikki ei ole yhdistettävissä aikasarjaksi vaikka se näyttää siltä.
>> >> Tiedot
>> >> >> eivät välttämättä ole vertailukelkoisia.
>> >> >>
>> >> >> Mitä tapahtuu taulukon muille metatiedoille kun taulukko muunnetaan
>> CSV
>> >> >> muotoon.
>> >> >> Ainakin taulukon alahuomautus (note ja notex) ovat pakko olla
mukana
>> >> muuten
>> >> >> tiedon käyttö on vaikeaa.
>> >> >>
>> >> >> Jos tässä on kysessä jatkuvapäivitteinen datamatriisi niin
huomioikaa
>> >> >> seuraavat
>> >> >> asiat.
>> >> >> Metodit, luokitukset ja tiedostonimet voivat muuttua tarpeen
mukaan.
>> >> >> Tällaisessa "kannassa" on aina "euromuunnos" meneillään.
>> >> >> esim. alueluokitukset muuttuvat vuosittain eikä niitä välttämättä
>> >> (usein se
>> >> >> kyllä onnistuu) voi summata kunnista uusimpaan aluelukoitukseen.
>> >> >>
>> >> >> Huomaa myös että joissakin taulkoissa on salattua tietoa.
>> >> >>
>> >> >>
>> >> >> >> Käsitinhän oikein, että XDF-formaatti on teillä vasta
kokeilussa,
>> ja
>> >> >> >> suurinta osaa datoista ei ole saatavana tuossa muodossa?
>> >> >>
>> >> >> Tilastotaulukoita ei ole vielä saatavissa XDF-muodossa.
>> >> >>
>> >> >>
>> >> >> >> PC Edit on ongelmallinen, koska toimii vain Window-ympäristössä,
>> >> mutta
>> >> >> >> tieteellinen laskenta tapahtuu tyypillisesti unix-ympäristössä.
>> >> >> >> Aineistojen sujuva automatisoitu haku suoraan
laskentaympäristöön
>> ei
>> >> >> >> siis onnistu.
>> >> >>
>> >> >> Testasimme px-tiedoston luvun PX-Editillä (3.0) Winessä.
Ensimmäinen
>> >> testi
>> >> >> meni
>> >> >> ongelmitta läpi.
>> >> >> Tulemme itse käyttämään Linuxissa PX-Editiä winessä
tulevaisuudessa.
>> >> >>
>> >> >> On olemassa myös WINDOWS PC-Axis ohjelma joka on tarkoitettu
>> >> >> loppukäyttäjille.
>> >> >> http://tilastokeskus.fi/tup/pcaxis/lataus_asennus.html
>> >> >> Tämä ei tietenkään ratkaise ongelmaa.
>> >> >>
>> >> >>
>> >> >> Toivottavasti tästä on jotakin hyötyä ...
>> >> >>
>> >> >>
>> >> >> Hans
>> >> >>
>> >> >>
>> >> >>
>> >> >>
>> >> >>
>> >> >>
>> >> >> Leo Lahti  (8.5.2012  14:56):
>> >> >> >Moi, tarkennus äskeiseen. Sain R:llä luettua taulukkomuotoon 761
PC
>> >> >> >Axis-tiedostoa, eli n. 25% Tilastokeskuksen avoimista 2600
>> >> >> >aineistosta.
>> >> >> >
>> >> >> >Leo
>> >> >> >
>> >> >> >2012/5/8 Leo Lahti <leo.lahti at iki.fi>:
>> >> >> >> Käsitinhän oikein, että XDF-formaatti on teillä vasta
kokeilussa,
>> ja
>> >> >> >> suurinta osaa datoista ei ole saatavana tuossa muodossa?
>> >> >> >>
>> >> >> >> Lupasin pistää tiedoksi ongelmia, joihin törmäsin yrittäessäni
>> lukea
>> >> >> >> PC-Axis-tiedostoja R:llä. Ainakin viestin lopussa luetellut
kolme
>> >> >> >> virhetyyppiä toistuvat usein. Voin tarvittaessa tuottaa
>> laajempaakin
>> >> >> >> listaa ongelmallisista tiedostoista.
>> >> >> >>
>> >> >> >> PC Edit on ongelmallinen, koska toimii vain Window-ympäristössä,
>> >> mutta
>> >> >> >> tieteellinen laskenta tapahtuu tyypillisesti unix-ympäristössä.
>> >> >> >> Aineistojen sujuva automatisoitu haku suoraan
laskentaympäristöön
>> ei
>> >> >> >> siis onnistu.
>> >> >> >>
>> >> >> >> Nyt meillä olisi pyrkimyksenä koota Tilastokeskuksen aineistojen
>> >> >> >> pohjalta mahdollisimman paljon kuntakohtaista tietoa yhteen
>> >> >> >> datamatriisiin, kunnat x muuttujat. Sain toistaiseksi
>> automaattisesti
>> >> >> >> konvertoitua 201 PC Axis-tiedostoa CSV-formaattiin R:llä. Vielä
>> olisi
>> >> >> >> n. 2400 fileä, joiden konversio kaatui, pääasiassa johonkin alla
>> >> >> >> listatuista kolmesta ongelmasta. Meidän kannalta on melko sama,
>> onko
>> >> >> >> data saatavissa PC Axis-, xdf- tai csv-formaatissa, kunhan
>> erillisten
>> >> >> >> taulujen luenta ja yhdistely saataisiin automatisoiduksi. Otan
>> >> >> >> mielelläni vastaan vinkkejä asian suhteen, jos tulee jotakin
>> mieleen.
>> >> >> >>
>> >> >> >> Palataan muiden kohtien osalta asiaan tuonnempana. Iso kiitos
>> avusta!
>> >> >> >>
>> >> >> >> yst. / Leo Lahti
>> >> >> >>
>> >> >> >>
>> >> >> >>
>> >> >> >> * VIRHE 1
>> >> >> >>
>> >> >> >>  *** caught segfault ***
>> >> >> >> address 0x7fffd86214b8, cause 'memory not mapped'
>> >> >> >>
>> >> >> >> Traceback:
>> >> >> >>  1: strsplit(a, "//=//")
>> >> >> >>  2: do.call(rbind, strsplit(a, "//=//"))
>> >> >> >>  3: read.px("http://pxweb2.stat.
>> >> >> fi/database/StatFin/asu/ashi/003_ashi_tau_108.px")
>> >> >> >>
>> >> >> >>
>> >> >> >> =============================================
>> >> >> >>
>> >> >> >> * VIRHE 2
>> >> >> >>
>> >> >> >>> px <- read.px(bad.px.files[["http://pxweb2.stat.
>> >> >> fi/database/StatFin/asu/ashi/004_ashi_tau_109_fi.px" ]]); df <-
>> as.data.
>> >> >> frame(px)
>> >> >> >> Segmentation fault
>> >> >> >>
>> >> >> >> ==============================================
>> >> >> >>
>> >> >> >> * VIRHE 3
>> >> >> >>
>> >> >> >>> px <- read.px("http://pxweb2.stat.
>> >> >> fi/database/StatFin/kan/pt/190_pt_tau_109_fi.px");
>> >> >> >>> df <- as.data.frame(px)
>> >> >> >> Error in data.frame(do.call(expand.grid, values[names.vals]),
>> >> >> x$DATA$value) :
>> >> >> >>  arguments imply differing number of rows: 128, 26912
>> >> >>
>> >> >>
>> >> >>
>> >> >
>> >>
>> >>
>> >>
>> >
>>
>>
>>
>
-------------- next part --------------
An HTML attachment was scrubbed...
URL: <http://lists.r-forge.r-project.org/pipermail/sorvi-admin/attachments/20120525/d5d13934/attachment-0001.html>


More information about the Sorvi-admin mailing list