<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 3.2//EN">
<HTML>
<HEAD>
<META HTTP-EQUIV="Content-Type" CONTENT="text/html; charset=iso-8859-1">
<META NAME="Generator" CONTENT="MS Exchange Server version 6.5.7654.12">
<TITLE>RE: identification of hybrids</TITLE>
</HEAD>
<BODY>
<!-- Converted from text/plain format -->

<P><FONT SIZE=2>Many thanks for the addition re: the comparison between STRUCTURE and adegenet. I am working with three distinct groups and STRUCTURE has a hard time separating groups 2 and 3 (so thereby really only identifying 2 groups). The third group is a much smaller sample (n=75) compared to the other two baselines (100s-1000s) and I suspect that is having an effect as described in Kalinowski 2011. If one uses supplementary individuals to assign to these three groups, what would happen if some of the individuals were from a 4th distinct group that had not been sampled in the baseline. In other words, can the posterior probabilities not assign this individual to any of the three represented groups (or at least with poor probability) and thereby be considered excluded from these baselines?<BR>
<BR>
Thanks,<BR>
Mark<BR>
<BR>
<BR>
<BR>
<BR>
-----Original Message-----<BR>
From: Sebastien Devillard [<A HREF="mailto:sebastien.devillard@univ-lyon1.fr">mailto:sebastien.devillard@univ-lyon1.fr</A>]<BR>
Sent: Tue 11/12/2013 09:30<BR>
To: Jombart, Thibaut; Mark Coulson; adegenet-forum@lists.r-forge.r-project.org<BR>
Subject: Re: identification of hybrids<BR>
<BR>
hi,<BR>
<BR>
just a small add to the Thibaut's answer.<BR>
 From my own unpublished experience in comparing /interpreting results<BR>
from STRUCTURE and DAPC in identifying hybrids of different generations<BR>
(simulated microsatellite genotypes), I recorded a clear tendancy of<BR>
having a less continous distribution of "individual introgression"<BR>
coefficients (namely q score in STRUCTURE and membership probability in<BR>
DAPC) in DAPC. In other words, higher scores to one of the parental<BR>
populations are more often found in DAPC than in STRUCTURE, hence, the<BR>
population hybridization rate tends to be lower in DAPC than in<BR>
STRUCTURE (although I never made simulations to check whether STRUCTURE<BR>
or DAPC is closer to the truth) . As Thibaut underlined, there is in<BR>
STRUCTURE a genetic model which is not present in DAPC and it is likely<BR>
the origin of the difference.<BR>
<BR>
Hope this helps<BR>
<BR>
Sébastien<BR>
<BR>
Le 11/11/2013 16:06, Jombart, Thibaut a écrit :<BR>
> Hi again,<BR>
><BR>
> there can be multiple explanation for the overfitting patterns you observe, so of which could well lie within the data themself (e.g. outliers, or groups defined by few individuals). The main expectation is that there should be a number of PCs which is optimal in terms of prediction; there may be many drivers for the variance in non-optimal solutions.<BR>
><BR>
> As for the second point, yes, this is exactly the projection of supplementary individuals described at the end of the DAPC vignette. You calibrate the DAPC with individuals from known groups, and predict the group membership of the supplementary individuals.<BR>
><BR>
> Cheers<BR>
> Thibaut<BR>
><BR>
><BR>
> ________________________________________<BR>
> From: Mark Coulson [M.Coulson@MARLAB.AC.UK]<BR>
> Sent: 11 November 2013 12:47<BR>
> To: Jombart, Thibaut; adegenet-forum@lists.r-forge.r-project.org<BR>
> Cc: sebastien.devillard@univ-lyon1.fr<BR>
> Subject: RE: identification of hybrids<BR>
><BR>
> Hi Dr. Jombart,<BR>
><BR>
> Many thanks for your quick reply and I will try out the xvalDapc option, however, I have a question on this. I did the example for this option provided and found that both fewer and many more components had a higher variance in success than say ~ 50-70. Why would more components have a higher variance, as I would have thought this many might actually overfit the data?<BR>
><BR>
> furthermore, I should clarify that I have three known baselines (and these will routinely be used to compare individuals of unknown origin to identify possible hybrids. Therefore is it possible to bring in the unknowns as a separate file and to have them be imposed upon the discriminant space provided by the baseline (i.e. similar to pre-specifying the origin of some individuals to assist with clustering of unknowns in STRUCTURE).<BR>
><BR>
> Many thanks,<BR>
><BR>
> Mark<BR>
><BR>
><BR>
><BR>
><BR>
><BR>
> -----Original Message-----<BR>
> From: Jombart, Thibaut [<A HREF="mailto:t.jombart@imperial.ac.uk">mailto:t.jombart@imperial.ac.uk</A>]<BR>
> Sent: Mon 11/11/2013 10:17<BR>
> To: Mark Coulson; adegenet-forum@lists.r-forge.r-project.org<BR>
> Cc: sebastien.devillard@univ-lyon1.fr<BR>
> Subject: RE: identification of hybrids<BR>
><BR>
> Hello,<BR>
><BR>
> STRUCTURE uses a mixture model to partition each genotype into membership to the different populations, which is probably what one is looking for when investigating hybridization. However, this is pending that STRUCTURE actually detects the population structuring in the first place, which it may fail to do, especially when the system departs from a standard island model.<BR>
><BR>
> DAPC is usually better at finding the existing population structure, but the group membership probabilities are not derived from a population genetic model. These values are derived from the position of the genotypes on the discriminant factors. This can be practical, but is slightly less satisfying from a theoretical point of view. Still, one expects hybrids to fall between their parental groups, so it should work.<BR>
><BR>
> The important point one needs to be careful about is the fact that these will change if the discriminant functions change (i.e. if different numbers of PCA axes are retained). I strongly recommend using cross validation for this purpose (see function xvalDapc). Then, if you can find a DAPC giving satisfying group prediction, the compoplot should indeed point out hybrids.<BR>
><BR>
> Sébastien Devillard has worked on exactly these issues, but I am unsure if the paper has been published - I'll leave him comment on that.<BR>
><BR>
> Best<BR>
> Thibaut<BR>
><BR>
> --<BR>
> ######################################<BR>
> Dr Thibaut JOMBART<BR>
> MRC Centre for Outbreak Analysis and Modelling<BR>
> Department of Infectious Disease Epidemiology<BR>
> Imperial College - School of Public Health<BR>
> St Mary's Campus<BR>
> Norfolk Place<BR>
> London W2 1PG<BR>
> United Kingdom<BR>
> Tel. : 0044 (0)20 7594 3658<BR>
> t.jombart@imperial.ac.uk<BR>
> <A HREF="http://sites.google.com/site/thibautjombart/">http://sites.google.com/site/thibautjombart/</A><BR>
> <A HREF="http://adegenet.r-forge.r-project.org/">http://adegenet.r-forge.r-project.org/</A><BR>
> ________________________________________<BR>
> From: adegenet-forum-bounces@lists.r-forge.r-project.org [adegenet-forum-bounces@lists.r-forge.r-project.org] on behalf of Mark Coulson [M.Coulson@MARLAB.AC.UK]<BR>
> Sent: 11 November 2013 09:50<BR>
> To: adegenet-forum@lists.r-forge.r-project.org<BR>
> Subject: [adegenet-forum] identification of hybrids<BR>
><BR>
> Hello,<BR>
><BR>
> I am attempting to use adegenet in a similar fashion to how one may use STRUCTURE to identify hybrids/admixed individuals. I know the compoplot function will allow for a STRUCTURE-like bar plot but my question is given the differences between STRUCTURE and compoplot, can one still make the same inferences about the identification of hybrids? In STRUCTURE I have been using a q-value cut-off from known individuals to identify possible hybrids (also simulating known hybrids) so that individuals falling below the q-value for 'pure species membership' would fall into this category. Given compoplot is a probability rather than a membership coefficient, is this type of an approach valid?<BR>
><BR>
> Best,<BR>
><BR>
> Mark<BR>
><BR>
><BR>
> ______________________________________________________________________<BR>
> This email has been scanned by the Symantec Email Security.cloud service.<BR>
> For more information please visit <A HREF="http://www.symanteccloud.com">http://www.symanteccloud.com</A><BR>
> ______________________________________________________________________<BR>
><BR>
> ______________________________________________________________________<BR>
> This email has been scanned by the Symantec Email Security.cloud service.<BR>
> For more information please visit <A HREF="http://www.symanteccloud.com">http://www.symanteccloud.com</A><BR>
> ______________________________________________________________________<BR>
><BR>
><BR>
> ______________________________________________________________________<BR>
> This email has been scanned by the Symantec Email Security.cloud service.<BR>
> For more information please visit <A HREF="http://www.symanteccloud.com">http://www.symanteccloud.com</A><BR>
> ______________________________________________________________________.<BR>
><BR>
<BR>
<BR>
--<BR>
<BR>
SébastienDevillard, PhD, Associate Professor<BR>
<BR>
UMR 5558 "Biometry and Evolutionary Biology"<BR>
<BR>
43 bd du 11 novembre 1918,<BR>
<BR>
69622 Villeurbanne cedex<BR>
<BR>
France<BR>
<BR>
Phone :+33 (0)4 72 44 81 70<BR>
<BR>
Fax : +33 (0)4 72 43 13 88<BR>
<BR>
sebastien.devillard@univ-lyon1.fr <<A HREF="mailto:sebastien.devillard@univ-lyon1.fr">mailto:sebastien.devillard@univ-lyon1.fr</A>><BR>
<BR>
<A HREF="http://lbbe.univ-lyon1.fr/-Devillard-Sebastien-.html">http://lbbe.univ-lyon1.fr/-Devillard-Sebastien-.html</A><BR>
<BR>
<A HREF="http://sebastien.devillard.perso.sfr.fr">http://sebastien.devillard.perso.sfr.fr</A><BR>
<<A HREF="http://sebastien.devillard.perso.sfr.fr/">http://sebastien.devillard.perso.sfr.fr/</A>><BR>
<BR>
<BR>
<BR>
______________________________________________________________________<BR>
This email has been scanned by the Symantec Email Security.cloud service.<BR>
For more information please visit <A HREF="http://www.symanteccloud.com">http://www.symanteccloud.com</A><BR>
______________________________________________________________________<BR>
<BR>
</FONT>
</P>

<br clear="both">
______________________________________________________________________<BR>
This email has been scanned by the Symantec Email Security.cloud service.<BR>
For more information please visit http://www.symanteccloud.com<BR>
______________________________________________________________________<BR>
</BODY>
</HTML>