<html>
<head>
<meta http-equiv="Content-Type" content="text/html; charset=Windows-1252">
</head>
<body style="word-wrap: break-word; -webkit-nbsp-mode: space; -webkit-line-break: after-white-space; ">
Hi Adegenet Forum,
<div><br>
</div>
<div>Thanks in advance to anyone who has some advice to share with the forum on SPCA. If you're in a rush just read the parts in bold.<br>
<div><br>
</div>
<div><b>I've been using SPCA to look at spatial genetics patterns among lobster populations</b>. I found positive local structure with the function local.rest and no global structure using global.rtest. I've followed Thibaut's advice in his previous sPCA email
 to forum and used $li to interpret local structure. I selected the local eigenvalue that had the highest levels of negative spatial autocorrelation and genetic variance for interpretation using the screeplot function. The $li values from this eigenvalue were
 then used to create an interpolated map. </div>
<div><br>
</div>
<div><b>My question for the forum is</b>: <b>What do the positive and negative $li values associated with the local eigenvalue mean?
</b>Do they correspond to levels of local (positive) and global (negative) scores at each location? Or are the $li values associated with the local eigenvalues simply a score for detecting local spatial genetic structure among sites and have nothing to do with
 global structure?</div>
<div><br>
</div>
<div>Best Wishes,</div>
<div><br>
</div>
<div>Nate</div>
<div><br>
</div>
<div>
<div>
<div>On Aug 11, 2013, at 4:35 PM, Jombart, Thibaut wrote:</div>
<br class="Apple-interchange-newline">
<blockquote type="cite">
<div><br>
Hello, <br>
<br>
I think you attached the wrong file. <br>
<br>
Negative values and local structure are not related. Local structure = sharp differences between neighours. These would be overlooked by the lagged vector.
<br>
<br>
If the structure is clear enough, use $li. <br>
<br>
As you have many overlapping points, s.value is suboptimal. You should consider using the colorplot, or interpolated maps. See the tutorial on sPCA for some example:<br>
<a href="http://cran.r-project.org/web/packages/adegenet/vignettes/adegenet-spca.pdf">http://cran.r-project.org/web/packages/adegenet/vignettes/adegenet-spca.pdf</a><br>
<br>
Best<br>
Thibaut<br>
________________________________________<br>
From: dooshra@gmail.com [dooshra@gmail.com] on behalf of Hanan Sela [hans@tauex.tau.ac.il]<br>
Sent: 11 August 2013 12:19<br>
To: Jombart, Thibaut<br>
Subject: Re: [adegenet-forum] li vs. ls in sPCA analysis<br>
<br>
Hello Thibaut,<br>
Thank you for the response.<br>
In the file I have attached I see that with the $li variable there are no negative values in the southern sites while with the $ls values there are negative values in the south. It seems that I see more local spatial structure with $ls than with $li . When
 I tested the data with local test I got significant results.  Which variable is better to present in a paper.<br>
Thank you<br>
Hanan<br>
Mr. Hanan Sela Ph.D.<br>
Curator of the Lieberman Cereal Germplasm Bank<br>
The Institute for Cereal Crops Improvement<br>
Tel-Aviv University<br>
P.O. Box 39040<br>
Tel Aviv 69978<br>
Israel<br>
<br>
hans@tauex.tau.ac.il<mailto:hans@tauex.tau.ac.il><br>
Phone: 972-3-6405773<br>
Cell: 972-50-5727458 , local U.S 17203600603<br>
Fax: 972-3-6407857<br>
<br>
<br>
On Sun, Aug 11, 2013 at 12:37 PM, Jombart, Thibaut <t.jombart@imperial.ac.uk<mailto:t.jombart@imperial.ac.uk>> wrote:<br>
Hello,<br>
<br>
the lagged vector is the spatially weighted average of the original vector. That is, the value of the score at a given location is the weighted average of the neighbouring values. This basically smooths the patterns so that they can be detected / visualized
 more easily.<br>
<br>
Cheers<br>
Thibaut.<br>
<br>
--<br>
######################################<br>
Dr Thibaut JOMBART<br>
MRC Centre for Outbreak Analysis and Modelling<br>
Department of Infectious Disease Epidemiology<br>
Imperial College - School of Public Health<br>
St Mary’s Campus<br>
Norfolk Place<br>
London W2 1PG<br>
United Kingdom<br>
Tel. : 0044 (0)20 7594 3658<tel:0044%20%280%2920%207594%203658><br>
t.jombart@imperial.ac.uk<mailto:t.jombart@imperial.ac.uk><br>
http://sites.google.com/site/thibautjombart/<br>
http://adegenet.r-forge.r-project.org/<br>
________________________________________<br>
From: adegenet-forum-bounces@lists.r-forge.r-project.org<mailto:adegenet-forum-bounces@lists.r-forge.r-project.org> [adegenet-forum-bounces@lists.r-forge.r-project.org<mailto:adegenet-forum-bounces@lists.r-forge.r-project.org>] on behalf of Hanan Sela [hans@tauex.tau.ac.il<mailto:hans@tauex.tau.ac.il>]<br>
Sent: 11 August 2013<tel:2013> 06:21<br>
To: adegenet-forum@lists.r-forge.r-project.org<mailto:adegenet-forum@lists.r-forge.r-project.org><br>
Subject: [adegenet-forum] li vs. ls in sPCA analysis<br>
<br>
Hello<br>
I have plotted the first  PC of sPCA analysis using s.value once with z=my.pca$li[,1]<br>
and once with z=my.pca$ls[,1]. The patterns seems to differ (see attached file). I do not understand what the lagged PC is representing. What is the meaning of "denoisified" in the practical day presentation  (Google does not know). How do i interpent the difference.
 Please explain.<br>
Thank you<br>
<br>
Mr. Hanan Sela Ph.D.<br>
Curator of the Lieberman Cereal Germplasm Bank<br>
The Institute for Cereal Crops Improvement<br>
Tel-Aviv University<br>
P.O. Box 39040<br>
Tel Aviv 69978<br>
Israel<br>
<br>
hans@tauex.tau.ac.il<mailto:hans@tauex.tau.ac.il><mailto:hans@tauex.tau.ac.il<mailto:hans@tauex.tau.ac.il>><br>
Phone: 972-3-6405773<tel:972-3-6405773><br>
Cell: 972-50-5727458<tel:972-50-5727458> , local U.S 17203600603<br>
Fax: 972-3-6407857<tel:972-3-6407857><br>
<br>
<br>
On Thu, Aug 1, 2013<tel:2013> at 7:15 PM, <adegenet-forum-request@lists.r-forge.r-project.org<mailto:adegenet-forum-request@lists.r-forge.r-project.org><mailto:adegenet-forum-request@lists.r-forge.r-project.org<mailto:adegenet-forum-request@lists.r-forge.r-project.org>>>
 wrote:<br>
Send adegenet-forum mailing list submissions to<br>
       adegenet-forum@lists.r-forge.r-project.org<mailto:adegenet-forum@lists.r-forge.r-project.org><mailto:adegenet-forum@lists.r-forge.r-project.org<mailto:adegenet-forum@lists.r-forge.r-project.org>><br>
<br>
To subscribe or unsubscribe via the World Wide Web, visit<br>
       https://lists.r-forge.r-project.org/cgi-bin/mailman/listinfo/adegenet-forum<br>
<br>
or, via email, send a message with subject or body 'help' to<br>
       adegenet-forum-request@lists.r-forge.r-project.org<mailto:adegenet-forum-request@lists.r-forge.r-project.org><mailto:adegenet-forum-request@lists.r-forge.r-project.org<mailto:adegenet-forum-request@lists.r-forge.r-project.org>><br>
<br>
You can reach the person managing the list at<br>
       adegenet-forum-owner@lists.r-forge.r-project.org<mailto:adegenet-forum-owner@lists.r-forge.r-project.org><mailto:adegenet-forum-owner@lists.r-forge.r-project.org<mailto:adegenet-forum-owner@lists.r-forge.r-project.org>><br>
<br>
When replying, please edit your Subject line so it is more specific<br>
than "Re: Contents of adegenet-forum digest..."<br>
<br>
<br>
Today's Topics:<br>
<br>
  1. Fwd: Question about pre-processing of SNP data for        machine<br>
     learning (Daniel Murrell)<br>
  2. Re: Fwd: Question about pre-processing of SNP data for<br>
     machine learning (Jombart, Thibaut)<br>
  3. Re: Fwd: Question about pre-processing of SNP data for<br>
     machine learning (Daniel Murrell)<br>
<br>
<br>
----------------------------------------------------------------------<br>
<br>
Message: 1<br>
Date: Thu, 1 Aug 2013<tel:2013><tel:2013<tel:2013>> 15:26:00 +0100<br>
From: Daniel Murrell <dsm38@cam.ac.uk<mailto:dsm38@cam.ac.uk><mailto:dsm38@cam.ac.uk<mailto:dsm38@cam.ac.uk>>><br>
To: adegenet-forum@lists.r-forge.r-project.org<mailto:adegenet-forum@lists.r-forge.r-project.org><mailto:adegenet-forum@lists.r-forge.r-project.org<mailto:adegenet-forum@lists.r-forge.r-project.org>><br>
Subject: [adegenet-forum] Fwd: Question about pre-processing of SNP<br>
       data for        machine learning<br>
Message-ID:<br>
       <CADK=3HwmiEO5v6fCQUYNkHFQ520avQJ9LFOAdu=Yu-Z+8h7BCg@mail.gmail.com<mailto:Yu-Z%2B8h7BCg@mail.gmail.com><mailto:Yu-Z%2B8h7BCg@mail.gmail.com<mailto:Yu-Z%252B8h7BCg@mail.gmail.com>>><br>
Content-Type: text/plain; charset="windows-1252"<br>
<br>
Hi All<br>
<br>
This is my first time using adegenet. I'm trying to perform some<br>
pre-processing on 1.3M SNPs (~800 individuals) so that I can use them for a<br>
machine learning task. My data was stored in a format which had to be<br>
converted to a genlight object. The data was split so that the information<br>
for the SNPs in each chromosome was in a separate file. I've read each file<br>
in, converted that to a genlight object and then concatenated the genlight<br>
objects using cbind. All of that seems to work ok (except the position and<br>
chromosome data went back to NULL during the concatenation and I had to<br>
reset it on the combined genlight object).<br>
<br>
So, now I want to do my own processing on each SNP and when I try to access<br>
the information for this SNP over the 800 individuals, it takes ages to<br>
extract. Is this because the encoding is done row wise, and so the whole<br>
object needs to be decoded for me to get out the information I require? Is<br>
there a way to transpose this genlight object so that I can access the data<br>
for a single SNP across all individual quickly?<br>
<br>
Thank you<br>
Daniel<br>
<br>
---------- Forwarded message ----------<br>
From: Jombart, Thibaut <t.jombart@imperial.ac.uk<mailto:t.jombart@imperial.ac.uk><mailto:t.jombart@imperial.ac.uk<mailto:t.jombart@imperial.ac.uk>>><br>
Date: Fri, Jul 19, 2013<tel:2013><tel:2013<tel:2013>> at 4:27 PM<br>
Subject: RE: Question about pre-processing of SNP data for machine learning<br>
To: Daniel Murrell <dsm38@cam.ac.uk<mailto:dsm38@cam.ac.uk><mailto:dsm38@cam.ac.uk<mailto:dsm38@cam.ac.uk>>><br>
<br>
<br>
Dear Daniel,<br>
<br>
yes, adegenet is designed for that kind of task. Please look at the<br>
tutorial on adegenet-basics where you'll find examples of dimension<br>
reduction for SNP data, to be found on:<br>
http://adegenet.r-forge.r-project.org/<br>
<br>
Don't hesitate to use the adegenet-forum for further questions (see<br>
contacts on the website).<br>
Best<br>
Thibaut<br>
<br>
--<br>
######################################<br>
Dr Thibaut JOMBART<br>
MRC Centre for Outbreak Analysis and Modelling<br>
Department of Infectious Disease Epidemiology<br>
Imperial College - School of Public Health<br>
St Mary?s Campus<br>
Norfolk Place<br>
London W2 1PG<br>
United Kingdom<br>
Tel. : 0044 (0)20 7594 3658<tel:0044%20%280%2920%207594%203658><tel:0044%20%280%2920%207594%203658><br>
t.jombart@imperial.ac.uk<mailto:t.jombart@imperial.ac.uk><mailto:t.jombart@imperial.ac.uk<mailto:t.jombart@imperial.ac.uk>><br>
http://sites.google.com/site/thibautjombart/<br>
http://adegenet.r-forge.r-project.org/<br>
________________________________________<br>
From: dsmurrell@gmail.com<mailto:dsmurrell@gmail.com><mailto:dsmurrell@gmail.com<mailto:dsmurrell@gmail.com>> [dsmurrell@gmail.com<mailto:dsmurrell@gmail.com><mailto:dsmurrell@gmail.com<mailto:dsmurrell@gmail.com>>] on behalf of Daniel Murrell<br>
[dsm38@cam.ac.uk<mailto:dsm38@cam.ac.uk><mailto:dsm38@cam.ac.uk<mailto:dsm38@cam.ac.uk>>]<br>
Sent: 19 July 2013<tel:2013><tel:2013> 16:23<br>
To: Jombart, Thibaut<br>
Subject: Question about pre-processing of SNP data for machine learning<br>
<br>
Dear Thibaut<br>
<br>
I'm trying to build a model that uses SNP data as input. The problem I have<br>
is that there is too much of it and I need a way to reduce the number or<br>
the dimensionality of the data points so that I can use them as input to<br>
machine learning algorithms (genome wide, 1.3 million SNPs, 800<br>
individuals). I've done some searching and found this paper:<br>
http://www.ncbi.nlm.nih.gov/pubmed/18076475 (pdf attached).<br>
<br>
I also found your adegenet package and wondered if it's designed for doing<br>
something like this? I'm not from this field and I'm having some trouble<br>
working this out. Can you point me to anything that might help?<br>
<br>
I'm not sure whether I should be keeping a subset of SNPs and how to find<br>
that subset from the 1.3 million, or whether I should be reducing the<br>
dimensionality.<br>
<br>
Thank you<br>
Daniel<br>
-------------- next part --------------<br>
An HTML attachment was scrubbed...<br>
URL: <http://lists.r-forge.r-project.org/pipermail/adegenet-forum/attachments/20130801/a331daec/attachment-0001.html><br>
<br>
------------------------------<br>
<br>
Message: 2<br>
Date: Thu, 1 Aug 2013<tel:2013> 15:22:27 +0000<br>
From: "Jombart, Thibaut" <t.jombart@imperial.ac.uk<mailto:t.jombart@imperial.ac.uk><mailto:t.jombart@imperial.ac.uk<mailto:t.jombart@imperial.ac.uk>>><br>
To: Daniel Murrell <dsm38@cam.ac.uk<mailto:dsm38@cam.ac.uk><mailto:dsm38@cam.ac.uk<mailto:dsm38@cam.ac.uk>>>,<br>
       "adegenet-forum@lists.r-forge.r-project.org<mailto:adegenet-forum@lists.r-forge.r-project.org><mailto:adegenet-forum@lists.r-forge.r-project.org<mailto:adegenet-forum@lists.r-forge.r-project.org>>"<br>
       <adegenet-forum@lists.r-forge.r-project.org<mailto:adegenet-forum@lists.r-forge.r-project.org><mailto:adegenet-forum@lists.r-forge.r-project.org<mailto:adegenet-forum@lists.r-forge.r-project.org>>><br>
Subject: Re: [adegenet-forum] Fwd: Question about pre-processing of<br>
       SNP data for    machine learning<br>
Message-ID:<br>
       <2CB2DA8E426F3541AB1907F98ABA6570638ABF4F@icexch-m1.ic.ac.uk<mailto:2CB2DA8E426F3541AB1907F98ABA6570638ABF4F@icexch-m1.ic.ac.uk><mailto:2CB2DA8E426F3541AB1907F98ABA6570638ABF4F@icexch-m1.ic.ac.uk<mailto:2CB2DA8E426F3541AB1907F98ABA6570638ABF4F@icexch-m1.ic.ac.uk>>><br>
Content-Type: text/plain; charset="Windows-1252"<br>
<br>
<br>
Dear Daniel,<br>
<br>
the loss of attributes after cbind indeed is a glitch. Would you mind creating a ticket about it?<br>
https://sourceforge.net/p/adegenet/tickets/<br>
<br>
You're right about the issue. The encoding is indeed done row-wise so the conversion is done many times over. There's no option for transposing the data, but one solution would be converting your data to integers by blocks so that conversion takes place less
 often, while still keep RAM requirements reasonable.<br>
<br>
All the best<br>
<br>
Thibaut<br>
<br>
________________________________________<br>
From: adegenet-forum-bounces@lists.r-forge.r-project.org<mailto:adegenet-forum-bounces@lists.r-forge.r-project.org><mailto:adegenet-forum-bounces@lists.r-forge.r-project.org<mailto:adegenet-forum-bounces@lists.r-forge.r-project.org>> [adegenet-forum-bounces@lists.r-forge.r-project.org<mailto:adegenet-forum-bounces@lists.r-forge.r-project.org><mailto:adegenet-forum-bounces@lists.r-forge.r-project.org<mailto:adegenet-forum-bounces@lists.r-forge.r-project.org>>]
 on behalf of Daniel Murrell [dsm38@cam.ac.uk<mailto:dsm38@cam.ac.uk><mailto:dsm38@cam.ac.uk<mailto:dsm38@cam.ac.uk>>]<br>
Sent: 01 August 2013<tel:2013> 15:26<br>
To: adegenet-forum@lists.r-forge.r-project.org<mailto:adegenet-forum@lists.r-forge.r-project.org><mailto:adegenet-forum@lists.r-forge.r-project.org<mailto:adegenet-forum@lists.r-forge.r-project.org>><br>
Subject: [adegenet-forum] Fwd: Question about pre-processing of SNP data for    machine learning<br>
<br>
Hi All<br>
<br>
This is my first time using adegenet. I'm trying to perform some pre-processing on 1.3M SNPs (~800 individuals) so that I can use them for a machine learning task. My data was stored in a format which had to be converted to a genlight object. The data was split
 so that the information for the SNPs in each chromosome was in a separate file. I've read each file in, converted that to a genlight object and then concatenated the genlight objects using cbind. All of that seems to work ok (except the position and chromosome
 data went back to NULL during the concatenation and I had to reset it on the combined genlight object).<br>
<br>
So, now I want to do my own processing on each SNP and when I try to access the information for this SNP over the 800 individuals, it takes ages to extract. Is this because the encoding is done row wise, and so the whole object needs to be decoded for me to
 get out the information I require? Is there a way to transpose this genlight object so that I can access the data for a single SNP across all individual quickly?<br>
<br>
Thank you<br>
Daniel<br>
<br>
---------- Forwarded message ----------<br>
From: Jombart, Thibaut <t.jombart@imperial.ac.uk<mailto:t.jombart@imperial.ac.uk><mailto:t.jombart@imperial.ac.uk<mailto:t.jombart@imperial.ac.uk>><mailto:t.jombart@imperial.ac.uk<mailto:t.jombart@imperial.ac.uk><mailto:t.jombart@imperial.ac.uk<mailto:t.jombart@imperial.ac.uk>>>><br>
Date: Fri, Jul 19, 2013<tel:2013> at 4:27 PM<br>
Subject: RE: Question about pre-processing of SNP data for machine learning<br>
To: Daniel Murrell <dsm38@cam.ac.uk<mailto:dsm38@cam.ac.uk><mailto:dsm38@cam.ac.uk<mailto:dsm38@cam.ac.uk>><mailto:dsm38@cam.ac.uk<mailto:dsm38@cam.ac.uk><mailto:dsm38@cam.ac.uk<mailto:dsm38@cam.ac.uk>>>><br>
<br>
<br>
Dear Daniel,<br>
<br>
yes, adegenet is designed for that kind of task. Please look at the tutorial on adegenet-basics where you'll find examples of dimension reduction for SNP data, to be found on:<br>
http://adegenet.r-forge.r-project.org/<br>
<br>
Don't hesitate to use the adegenet-forum for further questions (see contacts on the website).<br>
Best<br>
Thibaut<br>
<br>
--<br>
######################################<br>
Dr Thibaut JOMBART<br>
MRC Centre for Outbreak Analysis and Modelling<br>
Department of Infectious Disease Epidemiology<br>
Imperial College - School of Public Health<br>
St Mary?s Campus<br>
Norfolk Place<br>
London W2 1PG<br>
United Kingdom<br>
Tel. : 0044 (0)20 7594 3658<tel:0044%20%280%2920%207594%203658><tel:0044%20%280%2920%207594%203658><br>
t.jombart@imperial.ac.uk<mailto:t.jombart@imperial.ac.uk><mailto:t.jombart@imperial.ac.uk<mailto:t.jombart@imperial.ac.uk>><mailto:t.jombart@imperial.ac.uk<mailto:t.jombart@imperial.ac.uk><mailto:t.jombart@imperial.ac.uk<mailto:t.jombart@imperial.ac.uk>>><br>
http://sites.google.com/site/thibautjombart/<br>
http://adegenet.r-forge.r-project.org/<br>
________________________________________<br>
From: dsmurrell@gmail.com<mailto:dsmurrell@gmail.com><mailto:dsmurrell@gmail.com<mailto:dsmurrell@gmail.com>><mailto:dsmurrell@gmail.com<mailto:dsmurrell@gmail.com><mailto:dsmurrell@gmail.com<mailto:dsmurrell@gmail.com>>> [dsmurrell@gmail.com<mailto:dsmurrell@gmail.com><mailto:dsmurrell@gmail.com<mailto:dsmurrell@gmail.com>><mailto:dsmurrell@gmail.com<mailto:dsmurrell@gmail.com><mailto:dsmurrell@gmail.com<mailto:dsmurrell@gmail.com>>>]
 on behalf of Daniel Murrell [dsm38@cam.ac.uk<mailto:dsm38@cam.ac.uk><mailto:dsm38@cam.ac.uk<mailto:dsm38@cam.ac.uk>><mailto:dsm38@cam.ac.uk<mailto:dsm38@cam.ac.uk><mailto:dsm38@cam.ac.uk<mailto:dsm38@cam.ac.uk>>>]<br>
Sent: 19 July 2013<tel:2013> 16:23<br>
To: Jombart, Thibaut<br>
Subject: Question about pre-processing of SNP data for machine learning<br>
<br>
Dear Thibaut<br>
<br>
I'm trying to build a model that uses SNP data as input. The problem I have is that there is too much of it and I need a way to reduce the number or the dimensionality of the data points so that I can use them as input to machine learning algorithms (genome
 wide, 1.3 million SNPs, 800 individuals). I've done some searching and found this paper: http://www.ncbi.nlm.nih.gov/pubmed/18076475 (pdf attached).<br>
<br>
I also found your adegenet package and wondered if it's designed for doing something like this? I'm not from this field and I'm having some trouble working this out. Can you point me to anything that might help?<br>
<br>
I'm not sure whether I should be keeping a subset of SNPs and how to find that subset from the 1.3 million, or whether I should be reducing the dimensionality.<br>
<br>
Thank you<br>
Daniel<br>
<br>
<br>
------------------------------<br>
<br>
Message: 3<br>
Date: Thu, 1 Aug 2013<tel:2013> 17:14:37 +0100<br>
From: Daniel Murrell <dsm38@cam.ac.uk<mailto:dsm38@cam.ac.uk><mailto:dsm38@cam.ac.uk<mailto:dsm38@cam.ac.uk>>><br>
To: "Jombart, Thibaut" <t.jombart@imperial.ac.uk<mailto:t.jombart@imperial.ac.uk><mailto:t.jombart@imperial.ac.uk<mailto:t.jombart@imperial.ac.uk>>><br>
Cc: "adegenet-forum@lists.r-forge.r-project.org<mailto:adegenet-forum@lists.r-forge.r-project.org><mailto:adegenet-forum@lists.r-forge.r-project.org<mailto:adegenet-forum@lists.r-forge.r-project.org>>"<br>
       <adegenet-forum@lists.r-forge.r-project.org<mailto:adegenet-forum@lists.r-forge.r-project.org><mailto:adegenet-forum@lists.r-forge.r-project.org<mailto:adegenet-forum@lists.r-forge.r-project.org>>><br>
Subject: Re: [adegenet-forum] Fwd: Question about pre-processing of<br>
       SNP data for machine learning<br>
Message-ID:<br>
       <CADK=3Hz=iJSJePuCOSwCkFOQUWHQyAmk+YS=-qWD+EO5vOBihA@mail.gmail.com<mailto:qWD%2BEO5vOBihA@mail.gmail.com><mailto:qWD%2BEO5vOBihA@mail.gmail.com<mailto:qWD%252BEO5vOBihA@mail.gmail.com>>><br>
Content-Type: text/plain; charset="windows-1252"<br>
<br>
Dear Thibaut<br>
<br>
Ok, I could try that. I could also try and use the genlight object in a<br>
transposed manner just for the purposes of holding the data so that I can<br>
access individual SNPs easily. I mean nothing else would work expect the<br>
containment.<br>
<br>
Thanks for the help<br>
Regards<br>
Daniel<br>
<br>
On Thu, Aug 1, 2013<tel:2013> at 4:22 PM, Jombart, Thibaut<br>
<t.jombart@imperial.ac.uk<mailto:t.jombart@imperial.ac.uk><mailto:t.jombart@imperial.ac.uk<mailto:t.jombart@imperial.ac.uk>>>wrote:<br>
<br>
<blockquote type="cite"><br>
</blockquote>
<blockquote type="cite">Dear Daniel,<br>
</blockquote>
<blockquote type="cite"><br>
</blockquote>
<blockquote type="cite">the loss of attributes after cbind indeed is a glitch. Would you mind<br>
</blockquote>
<blockquote type="cite">creating a ticket about it?<br>
</blockquote>
<blockquote type="cite">https://sourceforge.net/p/adegenet/tickets/<br>
</blockquote>
<blockquote type="cite"><br>
</blockquote>
<blockquote type="cite">You're right about the issue. The encoding is indeed done row-wise so the<br>
</blockquote>
<blockquote type="cite">conversion is done many times over. There's no option for transposing the<br>
</blockquote>
<blockquote type="cite">data, but one solution would be converting your data to integers by blocks<br>
</blockquote>
<blockquote type="cite">so that conversion takes place less often, while still keep RAM<br>
</blockquote>
<blockquote type="cite">requirements reasonable.<br>
</blockquote>
<blockquote type="cite"><br>
</blockquote>
<blockquote type="cite">All the best<br>
</blockquote>
<blockquote type="cite"><br>
</blockquote>
<blockquote type="cite">Thibaut<br>
</blockquote>
<blockquote type="cite"><br>
</blockquote>
<blockquote type="cite">________________________________________<br>
</blockquote>
<blockquote type="cite">From: adegenet-forum-bounces@lists.r-forge.r-project.org<mailto:adegenet-forum-bounces@lists.r-forge.r-project.org><mailto:adegenet-forum-bounces@lists.r-forge.r-project.org<mailto:adegenet-forum-bounces@lists.r-forge.r-project.org>>
 [<br>
</blockquote>
<blockquote type="cite">adegenet-forum-bounces@lists.r-forge.r-project.org<mailto:adegenet-forum-bounces@lists.r-forge.r-project.org><mailto:adegenet-forum-bounces@lists.r-forge.r-project.org<mailto:adegenet-forum-bounces@lists.r-forge.r-project.org>>] on behalf
 of Daniel<br>
</blockquote>
<blockquote type="cite">Murrell [dsm38@cam.ac.uk<mailto:dsm38@cam.ac.uk><mailto:dsm38@cam.ac.uk<mailto:dsm38@cam.ac.uk>>]<br>
</blockquote>
<blockquote type="cite">Sent: 01 August 2013<tel:2013> 15:26<br>
</blockquote>
<blockquote type="cite">To: adegenet-forum@lists.r-forge.r-project.org<mailto:adegenet-forum@lists.r-forge.r-project.org><mailto:adegenet-forum@lists.r-forge.r-project.org<mailto:adegenet-forum@lists.r-forge.r-project.org>><br>
</blockquote>
<blockquote type="cite">Subject: [adegenet-forum] Fwd: Question about pre-processing of SNP data<br>
</blockquote>
<blockquote type="cite">for    machine learning<br>
</blockquote>
<blockquote type="cite"><br>
</blockquote>
<blockquote type="cite">Hi All<br>
</blockquote>
<blockquote type="cite"><br>
</blockquote>
<blockquote type="cite">This is my first time using adegenet. I'm trying to perform some<br>
</blockquote>
<blockquote type="cite">pre-processing on 1.3M SNPs (~800 individuals) so that I can use them for a<br>
</blockquote>
<blockquote type="cite">machine learning task. My data was stored in a format which had to be<br>
</blockquote>
<blockquote type="cite">converted to a genlight object. The data was split so that the information<br>
</blockquote>
<blockquote type="cite">for the SNPs in each chromosome was in a separate file. I've read each file<br>
</blockquote>
<blockquote type="cite">in, converted that to a genlight object and then concatenated the genlight<br>
</blockquote>
<blockquote type="cite">objects using cbind. All of that seems to work ok (except the position and<br>
</blockquote>
<blockquote type="cite">chromosome data went back to NULL during the concatenation and I had to<br>
</blockquote>
<blockquote type="cite">reset it on the combined genlight object).<br>
</blockquote>
<blockquote type="cite"><br>
</blockquote>
<blockquote type="cite">So, now I want to do my own processing on each SNP and when I try to<br>
</blockquote>
<blockquote type="cite">access the information for this SNP over the 800 individuals, it takes ages<br>
</blockquote>
<blockquote type="cite">to extract. Is this because the encoding is done row wise, and so the whole<br>
</blockquote>
<blockquote type="cite">object needs to be decoded for me to get out the information I require? Is<br>
</blockquote>
<blockquote type="cite">there a way to transpose this genlight object so that I can access the data<br>
</blockquote>
<blockquote type="cite">for a single SNP across all individual quickly?<br>
</blockquote>
<blockquote type="cite"><br>
</blockquote>
<blockquote type="cite">Thank you<br>
</blockquote>
<blockquote type="cite">Daniel<br>
</blockquote>
<blockquote type="cite"><br>
</blockquote>
<blockquote type="cite">---------- Forwarded message ----------<br>
</blockquote>
<blockquote type="cite">From: Jombart, Thibaut <t.jombart@imperial.ac.uk<mailto:t.jombart@imperial.ac.uk><mailto:t.jombart@imperial.ac.uk<mailto:t.jombart@imperial.ac.uk>><mailto:<br>
</blockquote>
<blockquote type="cite">t.jombart@imperial.ac.uk<mailto:t.jombart@imperial.ac.uk><mailto:t.jombart@imperial.ac.uk<mailto:t.jombart@imperial.ac.uk>>>><br>
</blockquote>
<blockquote type="cite">Date: Fri, Jul 19, 2013 at 4:27 PM<br>
</blockquote>
<blockquote type="cite">Subject: RE: Question about pre-processing of SNP data for machine learning<br>
</blockquote>
<blockquote type="cite">To: Daniel Murrell <dsm38@cam.ac.uk<mailto:dsm38@cam.ac.uk><mailto:dsm38@cam.ac.uk<mailto:dsm38@cam.ac.uk>><mailto:dsm38@cam.ac.uk<mailto:dsm38@cam.ac.uk><mailto:dsm38@cam.ac.uk<mailto:dsm38@cam.ac.uk>>>><br>
</blockquote>
<blockquote type="cite"><br>
</blockquote>
<blockquote type="cite"><br>
</blockquote>
<blockquote type="cite">Dear Daniel,<br>
</blockquote>
<blockquote type="cite"><br>
</blockquote>
<blockquote type="cite">yes, adegenet is designed for that kind of task. Please look at the<br>
</blockquote>
<blockquote type="cite">tutorial on adegenet-basics where you'll find examples of dimension<br>
</blockquote>
<blockquote type="cite">reduction for SNP data, to be found on:<br>
</blockquote>
<blockquote type="cite">http://adegenet.r-forge.r-project.org/<br>
</blockquote>
<blockquote type="cite"><br>
</blockquote>
<blockquote type="cite">Don't hesitate to use the adegenet-forum for further questions (see<br>
</blockquote>
<blockquote type="cite">contacts on the website).<br>
</blockquote>
<blockquote type="cite">Best<br>
</blockquote>
<blockquote type="cite">Thibaut<br>
</blockquote>
<blockquote type="cite"><br>
</blockquote>
<blockquote type="cite">--<br>
</blockquote>
<blockquote type="cite">######################################<br>
</blockquote>
<blockquote type="cite">Dr Thibaut JOMBART<br>
</blockquote>
<blockquote type="cite">MRC Centre for Outbreak Analysis and Modelling<br>
</blockquote>
<blockquote type="cite">Department of Infectious Disease Epidemiology<br>
</blockquote>
<blockquote type="cite">Imperial College - School of Public Health<br>
</blockquote>
<blockquote type="cite">St Mary?s Campus<br>
</blockquote>
<blockquote type="cite">Norfolk Place<br>
</blockquote>
<blockquote type="cite">London W2 1PG<br>
</blockquote>
<blockquote type="cite">United Kingdom<br>
</blockquote>
<blockquote type="cite">Tel. : 0044 (0)20 7594 3658<tel:0044%20%280%2920%207594%203658><br>
</blockquote>
<blockquote type="cite">t.jombart@imperial.ac.uk<mailto:t.jombart@imperial.ac.uk><mailto:t.jombart@imperial.ac.uk<mailto:t.jombart@imperial.ac.uk>><mailto:t.jombart@imperial.ac.uk<mailto:t.jombart@imperial.ac.uk><mailto:t.jombart@imperial.ac.uk<mailto:t.jombart@imperial.ac.uk>>><br>
</blockquote>
<blockquote type="cite">http://sites.google.com/site/thibautjombart/<br>
</blockquote>
<blockquote type="cite">http://adegenet.r-forge.r-project.org/<br>
</blockquote>
<blockquote type="cite">________________________________________<br>
</blockquote>
<blockquote type="cite">From: dsmurrell@gmail.com<mailto:dsmurrell@gmail.com><mailto:dsmurrell@gmail.com<mailto:dsmurrell@gmail.com>><mailto:dsmurrell@gmail.com<mailto:dsmurrell@gmail.com><mailto:dsmurrell@gmail.com<mailto:dsmurrell@gmail.com>>> [dsmurrell@gmail.com<mailto:dsmurrell@gmail.com><mailto:dsmurrell@gmail.com<mailto:dsmurrell@gmail.com>><br>
</blockquote>
<blockquote type="cite"><mailto:dsmurrell@gmail.com<mailto:dsmurrell@gmail.com><mailto:dsmurrell@gmail.com<mailto:dsmurrell@gmail.com>>>] on behalf of Daniel Murrell [dsm38@cam.ac.uk<mailto:dsm38@cam.ac.uk><mailto:dsm38@cam.ac.uk<mailto:dsm38@cam.ac.uk>><br>
</blockquote>
<blockquote type="cite"><mailto:dsm38@cam.ac.uk<mailto:dsm38@cam.ac.uk><mailto:dsm38@cam.ac.uk<mailto:dsm38@cam.ac.uk>>>]<br>
</blockquote>
<blockquote type="cite">Sent: 19 July 2013 16:23<br>
</blockquote>
<blockquote type="cite">To: Jombart, Thibaut<br>
</blockquote>
<blockquote type="cite">Subject: Question about pre-processing of SNP data for machine learning<br>
</blockquote>
<blockquote type="cite"><br>
</blockquote>
<blockquote type="cite">Dear Thibaut<br>
</blockquote>
<blockquote type="cite"><br>
</blockquote>
<blockquote type="cite">I'm trying to build a model that uses SNP data as input. The problem I<br>
</blockquote>
<blockquote type="cite">have is that there is too much of it and I need a way to reduce the number<br>
</blockquote>
<blockquote type="cite">or the dimensionality of the data points so that I can use them as input to<br>
</blockquote>
<blockquote type="cite">machine learning algorithms (genome wide, 1.3 million SNPs, 800<br>
</blockquote>
<blockquote type="cite">individuals). I've done some searching and found this paper:<br>
</blockquote>
<blockquote type="cite">http://www.ncbi.nlm.nih.gov/pubmed/18076475 (pdf attached).<br>
</blockquote>
<blockquote type="cite"><br>
</blockquote>
<blockquote type="cite">I also found your adegenet package and wondered if it's designed for doing<br>
</blockquote>
<blockquote type="cite">something like this? I'm not from this field and I'm having some trouble<br>
</blockquote>
<blockquote type="cite">working this out. Can you point me to anything that might help?<br>
</blockquote>
<blockquote type="cite"><br>
</blockquote>
<blockquote type="cite">I'm not sure whether I should be keeping a subset of SNPs and how to find<br>
</blockquote>
<blockquote type="cite">that subset from the 1.3 million, or whether I should be reducing the<br>
</blockquote>
<blockquote type="cite">dimensionality.<br>
</blockquote>
<blockquote type="cite"><br>
</blockquote>
<blockquote type="cite">Thank you<br>
</blockquote>
<blockquote type="cite">Daniel<br>
</blockquote>
<blockquote type="cite"><br>
</blockquote>
-------------- next part --------------<br>
An HTML attachment was scrubbed...<br>
URL: <http://lists.r-forge.r-project.org/pipermail/adegenet-forum/attachments/20130801/4373022c/attachment.html><br>
<br>
------------------------------<br>
<br>
_______________________________________________<br>
adegenet-forum mailing list<br>
adegenet-forum@lists.r-forge.r-project.org<mailto:adegenet-forum@lists.r-forge.r-project.org><mailto:adegenet-forum@lists.r-forge.r-project.org<mailto:adegenet-forum@lists.r-forge.r-project.org>><br>
https://lists.r-forge.r-project.org/cgi-bin/mailman/listinfo/adegenet-forum<br>
<br>
End of adegenet-forum Digest, Vol 60, Issue 2<br>
*********************************************<br>
<br>
_______________________________________________<br>
adegenet-forum mailing list<br>
adegenet-forum@lists.r-forge.r-project.org<br>
https://lists.r-forge.r-project.org/cgi-bin/mailman/listinfo/adegenet-forum<br>
</div>
</blockquote>
</div>
<br>
</div>
</div>
</body>
</html>