[Traminer-users] Questions

Claire Zalc Claire.Zalc at ens.fr
Thu Jun 10 11:20:07 CEST 2010


Bonjour,
Quelques questions concernant la mise en forme de données.
Avant de nous lancer dans l’adaptation de données à un traitement avec 
TRAMineR, nous nous interrogeons, justement, sur la meilleure manière de 
les mettre en forme. Nous avons déjà compris, à partir de la 
documentation, et en fonction de l’état actuel de nos données, qu’il 
nous fallait plutôt opter pour un format de type SPELL, autrement dit 
autant de lignes par individus que d’états successifs constituant sa 
trajectoire. Cette formule nous permet en effet de traiter de façon 
homogène des états ayant des durées extrêmement différentes, de 
plusieurs années (comme la résidence dans une ville donnée) à seulement 
quelques jours (comme le passage par tel ou tel camp).

Cette façon de procéder soulève toutefois quelques questions liées à 
certaines particularités de nos données, et nous voudrions savoir si 
vous pouviez nous éclairer sur ces points, avant de nous lancer dans la 
fabrication de la base
1. Est-il possible, dans le format de type SPELL, d’avoir des nombres 
très élevés comme dates de début et de fin (par exemple, en nombre de 
jours écoulés depuis 1900, soit des nombre de l’ordre de 15000 à 20000 
pour la période de la guerre) ?

2. Nous avons de nombreuses trajectoires « trouées », dans lesquelles 
des états sont indéterminés pendant des périodes plus ou moins longues. 
Par exemple, après une naissance en Pologne dont nous connaissons la 
date (1909 par exemple), nous ne savons plus rien, jusqu’à retrouver la 
personne dans une liste de recensement de personnes résidant à Lens en 
1939, qu’elle quitte ensuite en 1941. Nous imaginions décrire ce type de 
morceau de trajectoire de la façon suivante :

id index start end status
1 272 1 19/01/1909 20/01/1909 Varsovie
2 272 2 20/01/1909 07/06/1939 Unknown
3 272 3 07/06/1939 06/04/1941 Lens

Est-ce la bonne façon de procéder ? En recommandez-vous une autre, qui 
vous semblerait mieux correspondre à notre cas ? Globalement, comment 
faut-il traiter ce qu’on pourrait appeler ici de la « non-réponse » ?

3. Nos dates de début et de fin d’état sont de précisions très variables 
: parfois nous savons le jour exact de début ou de fin d’un état, 
parfois seulement le mois, parfois même souvent seulement l’année. Pour 
continuer l’exemple précédent, nous pouvons connaître précisément la 
date de naissance, mais connaître seulement le mois et l’année du départ 
de Lens… Comment faut-il traiter cette hétérogénéité ? Faut-il affecter 
arbitrairement les dates imprécises au 1er jour du mois (quand le mois 
et l’année sont connus) ou au 1er jour de l’année (quand seule l’année 
est connue) ? Ou bien faut-il procéder autrement ?
En vous remerciant pour vos réponses,
Amicalement
Nicolas Pierre et Claire


More information about the Traminer-users mailing list