[Traminer-users] Questions
Claire Zalc
Claire.Zalc at ens.fr
Thu Jun 10 11:20:07 CEST 2010
Bonjour,
Quelques questions concernant la mise en forme de données.
Avant de nous lancer dans l’adaptation de données à un traitement avec
TRAMineR, nous nous interrogeons, justement, sur la meilleure manière de
les mettre en forme. Nous avons déjà compris, à partir de la
documentation, et en fonction de l’état actuel de nos données, qu’il
nous fallait plutôt opter pour un format de type SPELL, autrement dit
autant de lignes par individus que d’états successifs constituant sa
trajectoire. Cette formule nous permet en effet de traiter de façon
homogène des états ayant des durées extrêmement différentes, de
plusieurs années (comme la résidence dans une ville donnée) à seulement
quelques jours (comme le passage par tel ou tel camp).
Cette façon de procéder soulève toutefois quelques questions liées à
certaines particularités de nos données, et nous voudrions savoir si
vous pouviez nous éclairer sur ces points, avant de nous lancer dans la
fabrication de la base
1. Est-il possible, dans le format de type SPELL, d’avoir des nombres
très élevés comme dates de début et de fin (par exemple, en nombre de
jours écoulés depuis 1900, soit des nombre de l’ordre de 15000 à 20000
pour la période de la guerre) ?
2. Nous avons de nombreuses trajectoires « trouées », dans lesquelles
des états sont indéterminés pendant des périodes plus ou moins longues.
Par exemple, après une naissance en Pologne dont nous connaissons la
date (1909 par exemple), nous ne savons plus rien, jusqu’à retrouver la
personne dans une liste de recensement de personnes résidant à Lens en
1939, qu’elle quitte ensuite en 1941. Nous imaginions décrire ce type de
morceau de trajectoire de la façon suivante :
id index start end status
1 272 1 19/01/1909 20/01/1909 Varsovie
2 272 2 20/01/1909 07/06/1939 Unknown
3 272 3 07/06/1939 06/04/1941 Lens
Est-ce la bonne façon de procéder ? En recommandez-vous une autre, qui
vous semblerait mieux correspondre à notre cas ? Globalement, comment
faut-il traiter ce qu’on pourrait appeler ici de la « non-réponse » ?
3. Nos dates de début et de fin d’état sont de précisions très variables
: parfois nous savons le jour exact de début ou de fin d’un état,
parfois seulement le mois, parfois même souvent seulement l’année. Pour
continuer l’exemple précédent, nous pouvons connaître précisément la
date de naissance, mais connaître seulement le mois et l’année du départ
de Lens… Comment faut-il traiter cette hétérogénéité ? Faut-il affecter
arbitrairement les dates imprécises au 1er jour du mois (quand le mois
et l’année sont connus) ou au 1er jour de l’année (quand seule l’année
est connue) ? Ou bien faut-il procéder autrement ?
En vous remerciant pour vos réponses,
Amicalement
Nicolas Pierre et Claire
More information about the Traminer-users
mailing list