<html dir="ltr">
<head>
<meta http-equiv="Content-Type" content="text/html; charset=Windows-1252">
<style id="owaParaStyle" type="text/css">P {margin-top:0;margin-bottom:0;}</style>
</head>
<body ocsi="0" fpstyle="1">
<div style="direction: ltr;font-family: Tahoma;color: #000000;font-size: 10pt;"><br>
<div><font size="2">Dear all, <br>
<br>
naive questions are welcome here of course. Both the question and the answer make sense here, though Fede's answer makes me think he is sometimes so rude he could be French ;)
<br>
<br>
Seriously though. The pre-PCA step has two purposes:<br>
1) reduce the number of variables to its minimum<br>
2) separate the noise from the structured signal<br>
<br>
If you are not interested in #2, #1 still has a computational interest. find.cluster uses k-means, which works with squared Euclidean distances between individual profiles. Generally speaking, when you have 'N' individuals and 'P' alleles, the number of dimensions
 necessary to represent all the information (all the distances) is min(N-1, P). K-means works faster with less variables. So running it on 'N-1' principal components (PCs) is generally faster than on 'P' alleles. If all PCs are retained, there is no loss of
 information. So in short, you don't need to remove the PCA step, just to keep all PCs.<br>
<br>
Makes sense?<br>
<br>
Cheers<br>
Thibaut<br>
<br>
<br>
</font></div>
<div style="font-family: Times New Roman; color: #000000; font-size: 16px">
<hr tabindex="-1">
<div style="direction: ltr;" id="divRpF376209"><font color="#000000" face="Tahoma" size="2"><b>From:</b> adegenet-forum-bounces@lists.r-forge.r-project.org [adegenet-forum-bounces@lists.r-forge.r-project.org] on behalf of Roberto Oliveira Santos [roberto@geodev.com.br]<br>
<b>Sent:</b> 30 October 2014 18:41<br>
<b>To:</b> adegenet-forum@lists.r-forge.r-project.org<br>
<b>Subject:</b> Re: [adegenet-forum] find.clusters without PCA<br>
</font><br>
</div>
<div></div>
<div>
<div dir="ltr">Hi Federico<br>
<br>
"shaming reputations"? sorry..., pretty much sure I don't have any reputation :-) if anyone ask a naive question this should be response? I disagree... anyway, thanks for the text. I'll keep in mind.<br>
<br>
Cheers,<br>
<br>
Roberto</div>
<div class="gmail_extra"><br>
<div class="gmail_quote">2014-10-30 16:16 GMT+00:00 Federico Calboli <span dir="ltr">
<<a href="mailto:f.calboli@imperial.ac.uk" target="_blank">f.calboli@imperial.ac.uk</a>></span>:<br>
<blockquote class="gmail_quote" style="margin:0 0 0 .8ex; border-left:1px #ccc solid; padding-left:1ex">
You’re welcome.  I would not be presenting the results to referees, PhD examiners or colleagues.<br>
<br>
<a href="http://judgestarling.tumblr.com/post/79974811093/shaming-reputations-as-a-means-of-reducing-the" target="_blank">http://judgestarling.tumblr.com/post/79974811093/shaming-reputations-as-a-means-of-reducing-the</a><br>
<br>
Happy reading!<br>
<span class="HOEnZb"><font color="#888888"><br>
F<br>
</font></span>
<div class="HOEnZb">
<div class="h5"><br>
<br>
On 30 Oct 2014, at 16:02, Roberto Oliveira Santos <<a href="mailto:roberto@geodev.com.br" target="_blank">roberto@geodev.com.br</a>> wrote:<br>
<br>
> Dear Federico<br>
><br>
> Many thanks. Very kind of you the "It would also be completely and utterly idiotic.".<br>
><br>
> Best wishes<br>
><br>
> Roberto<br>
><br>
><br>
> 2014-10-30 15:56 GMT+00:00 Federico Calboli <<a href="mailto:f.calboli@imperial.ac.uk" target="_blank">f.calboli@imperial.ac.uk</a>>:<br>
> On 30 Oct 2014, at 15:40, Roberto Oliveira Santos <<a href="mailto:roberto@geodev.com.br" target="_blank">roberto@geodev.com.br</a>> wrote:<br>
><br>
> > Dear all<br>
> ><br>
> > Is it possible to run find.clusters without the PCA analysis?<br>
><br>
> I would not know whether find.clusters would like it, but in general you can surely find clusters without bothering with a PCA first — you have a formula, you input some data, you get your results.<br>
><br>
> It would also be completely and utterly idiotic.<br>
><br>
> You use a PCA before because of correlation betwen the data, and you transform the data with a PCA in a set of independent variables (and you also have an idea of what linear combinations explain little or nothing in the bargain).  You use a PCA to get some
 signal out of the noise.<br>
><br>
> So, you can well not use a PCA and cluster.  You will get some results, that might, or not, look like the results you get after a PCA decomposition.  You will also have biased your clustering to an unknown amount, in a way that is not clear what might actually
 mean.<br>
><br>
> BW<br>
><br>
> F<br>
><br>
><br>
> > I have interested in the clustering procedure but would like to compare the results with and without PCA transformation.<br>
> ><br>
> > Best wishes<br>
> ><br>
> > Roberto<br>
> > _______________________________________________<br>
> > adegenet-forum mailing list<br>
> > <a href="mailto:adegenet-forum@lists.r-forge.r-project.org" target="_blank">adegenet-forum@lists.r-forge.r-project.org</a><br>
> > <a href="https://lists.r-forge.r-project.org/cgi-bin/mailman/listinfo/adegenet-forum" target="_blank">
https://lists.r-forge.r-project.org/cgi-bin/mailman/listinfo/adegenet-forum</a><br>
><br>
><br>
<br>
</div>
</div>
</blockquote>
</div>
<br>
</div>
</div>
</div>
</div>
</body>
</html>