<div dir="ltr">Hi Julien, <div><br></div><div>this may be pushing the limits of genind objects, as they really weren't designed for more than a few hundreds / couple of thousands loci. As a sanity check, I would still try converting a small subset to check all is fine, e.g.:</div><div><br></div><div>my_genind=df2genind(tab[,1:1000], ploidy=2, sep="", NA.char = "N")<br></div><div><br></div><div>If you wrap this within a 'system.time', you'll get an approximate idea of how long the conversion of 1,000 loci takes; the extrapolation will give you a lower bound for the actual time to expect for the entire dataset (the algorithm does not scale linearly). </div><div><br></div><div>As for the further steps, this will not be straightforward. genlight and genind objectsd cannot be combined as they are structurally very different: the first codes SNPs as binary variables (where 0 and 1 have no specific meaning other than differentiating 2 alleles), while the second stores data as allele counts. As for repool, it does handle differences in alleles but loci have to be the same. If you are to combine the two datasets, the best course of action would be:</div><div>- combine them before (mapping everything against a reference?)</div><div>- combine them for the analysis, e.g. adding distances (possibly after some scaling), or using 2-table methods in the case of factorial analysis</div><div><br></div><div>Cheers</div><div>Thibaut</div><div><br></div><div><br></div><div><br></div></div><div class="gmail_extra"><br clear="all"><div><div class="gmail_signature" data-smartmail="gmail_signature"><div dir="ltr"><div><div dir="ltr"><div><div dir="ltr"><div><div dir="ltr"><div><div dir="ltr"><div><div dir="ltr"><div><div dir="ltr"><div><div><div><br>--<br>Dr Thibaut Jombart<br>Lecturer, Department of Infectious Disease Epidemiology<br></div></div>Imperial College London<br><a href="https://sites.google.com/site/thibautjombart/" target="_blank">https://sites.google.com/site/thibautjombart/</a><br></div><div><a href="https://github.com/thibautjombart" target="_blank">https://github.com/thibautjombart<br></a></div>Twitter: <a href="https://twitter.com/TeebzR" target="_blank">@TeebzR</a><br></div></div></div></div></div></div></div></div></div></div></div></div></div></div></div>
<br><div class="gmail_quote">On 2 August 2016 at 18:44, VARALDI JULIEN <span dir="ltr"><<a href="mailto:Julien.Varaldi@univ-lyon1.fr" target="_blank">Julien.Varaldi@univ-lyon1.fr</a>></span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">Dear adegenet users,<br>
<br>
I have two datasets that I would like to combine into a single one, ideally a genlight one. The first dataset is a vcf file from the 1000 genomes. I can read it using the package vcfR and then convert it to a genlight object. This take a while (few minutes) but works fine:<br>
<br>
vcf=read.vcfR(vcf_file)<br>
my_genlight <- vcfR2genlight(x=vcf, n.cores = 8)<br>
<br>
The other dataset is a data frame containing genotypes obtained from genome-wide SNP array. It contains the genotypes for 31 individuals on 868146 loci. The initial file is only 90Mb. I tried to use df2genind but without success (I stopped it after 20 minutes or something like that… it is running without apparent error). Here is what I did:<br>
<br>
>tab=read.table(my_data, head=T, sep=",")<br>
>head(tab)<br>
>loci=tab$rs_number<br>
>tab=t(tab)<br>
>tab=tab[-1,]<br>
>colnames(tab)=loci<br>
<br>
> tab[1:5, 1:4]<br>
         rs10458597 rs9629043 rs11510103 rs12565286<br>
Sample_4 "CC"       "CC"      "AA"       "CC"<br>
Sample_5 "CC"       "NN"      "AA"       "CC"<br>
Sample_6 "CC"       "CC"      "AA"       "CC"<br>
Sample_7 "CC"       "CC"      "AA"       "CC"<br>
Sample_8 "CC"       "CC"      "AA"       "CC"<br>
<br>
> dim(tab)<br>
[1]     31 868146<br>
my_genind=df2genind(tab, ploidy=2, sep="", NA.char = "N")<br>
<br>
This last command lasts for ever.<br>
<br>
I would appreciate any suggestion. The next step is to combine the two datasets, with the difficulty that one will be a genlight, the other a genind, AND the 1000 thousand dataset contains much more loci than the snp dataset (does repool deal with this situation?). I would also appreciate any input on that.<br>
<br>
I am running R 3.3.1 on a mac os 10.11.4<br>
thanks a lot,<br>
cheers,<br>
Julien<br>
_______________________________________________<br>
adegenet-forum mailing list<br>
<a href="mailto:adegenet-forum@lists.r-forge.r-project.org">adegenet-forum@lists.r-forge.r-project.org</a><br>
<a href="https://lists.r-forge.r-project.org/cgi-bin/mailman/listinfo/adegenet-forum" rel="noreferrer" target="_blank">https://lists.r-forge.r-project.org/cgi-bin/mailman/listinfo/adegenet-forum</a></blockquote></div><br></div>