<html dir="ltr">
<head>
<meta http-equiv="Content-Type" content="text/html; charset=iso-8859-1">
<style id="owaParaStyle" type="text/css">P {margin-top:0;margin-bottom:0;}</style>
</head>
<body ocsi="0" fpstyle="1">
<div style="direction: ltr;font-family: Tahoma;color: #000000;font-size: 10pt;"><br>
<div>Dear Mac, <br>
<br>
In your case the two types of data provide only partly congruent information. It seems you've worked out the discrepancies already, and probably pooling the data is not the best option. I'm afraid you'll have to consider two separate analyses and then comment
 on the differences. For demographic inference I would tend to trust nuclear DNA more.<br>
<br>
As a side note about the correlation between SNPs in mtDNA, I am not sure they should be so highly correlated. Can you check the distribution of these correlations? You can use NA.replace to replace missing values in the genind, and then something like:<br>
plot(density(cor(foo@tab)^2,na.rm=TRUE))<br>
<br>
Cheers<br>
<br>
Thibaut<br>
<br>
<br>
<br>
</div>
<div style="font-family: Times New Roman; color: rgb(0, 0, 0); font-size: 16px;">
<hr tabindex="-1">
<div style="direction: ltr;" id="divRpF781077"><font color="#000000" face="Tahoma" size="2"><b>From:</b> Mac Campbell [macampbell2@alaska.edu]<br>
<b>Sent:</b> 19 April 2011 18:01<br>
<b>To:</b> valeria montano<br>
<b>Cc:</b> Jombart, Thibaut; adegenet-forum@r-forge.wu-wien.ac.at<br>
<b>Subject:</b> Re: [adegenet-forum] Combining mtDNA and Nuclear Data for find.clusters() and DAPC<br>
</font><br>
</div>
<div></div>
<div>Hi All,
<div><br>
</div>
<div>Yes, I have observed a strong congruence between a representation of the mtDNA data in a phylogenetic framework and also here with the DAPC using mtDNA SNP's. &nbsp;</div>
<div><br>
</div>
<div>What is an issue with this (&quot;my&quot;) data set while encoding the mtDNA as SNP's is that there are five major mitochondrial lineages present in the fish I study. &nbsp;Three of these lineages (say, 1-3) occur in low nuclear and mtDNA diversity populations where
 three separate geographic areas have one each of the three lineages. &nbsp;However, the remaining two lineages (say, 4 &amp; 5) are split amongst and within the remaining sampling locations. &nbsp;So, from a certain sampling location, some fish may have a mtDNA sequence
 from lineage 4 and some may have lineage 5, with a relatively moderate level of distinction from each other.&nbsp; Nuclear data from fishes with mt lineage 4 or 5 supports pooling those sampling populations where the two mt lineages occur. &nbsp; So it seems that the
 divergent mtDNA lines from within a sampling location are a big issue here and argue against mixing the two types of data.</div>
<div><br>
</div>
<div>I was under the impression that since all the mtDNA SNP's would be highly correlated, that their weight would diminish in a DAPC analysis. &nbsp;As Thibaut mentioned before, there is no assumption about independence and multivariate analyses are used to hand
 redundancy. &nbsp;Any more thoughts on this one?<br>
<br>
</div>
<div>For the case with this data set, what then is my best option... I would like to combine the mtDNA and nuclear data in an IM style analysis to look at migration rates and divergence times.&nbsp; I don't seem to have a way to mostly objectively define groups
 of fish to pool for populations.&nbsp; <br>
<br>
Mac<br>
</div>
<div><br>
</div>
<div><br>
</div>
<div><br>
</div>
<div><br>
</div>
<div><br>
</div>
<div><br>
<br>
<div class="gmail_quote">On Mon, Apr 18, 2011 at 4:46 AM, valeria montano <span dir="ltr">
&lt;<a href="mailto:mirainoshojo@gmail.com" target="_blank">mirainoshojo@gmail.com</a>&gt;</span> wrote:<br>
<blockquote class="gmail_quote" style="margin: 0pt 0pt 0pt 0.8ex; border-left: 1px solid rgb(204, 204, 204); padding-left: 1ex;">
Hi, <br>
<br>
thanks for the answer. Of course, I agree that it makes sense to retrieve haplogroups with a multivariate analysis on mtDNA sequences. My main point is about the aim for which the method is used. With &quot;artefactual&quot; populations I meant that those are not biological
 populations but phylogentic ones, which means that the method is correctly interpreting the data according to the way it is provided. If my aim was to use mtDNA to infer population structure (since I am forced to use this locus, yeah it's not a very good excuse,
 but that's the way it is) with a method like DAPC, I guess the only thing that I can do is to use a matrix of haplogroup frequencies for populations and hope the reviewers won't have anything too bad against that (strictly speaking). In any case, I wouldn't
 merge a multilocus autosomal dataset with a one of mtDNA for individuals. <br>
<br>
I hope you will agree with that or I will have to throw away the paper I'm working on (I don't mean to make you feel responsible, of course).<br>
<br>
Best <br>
<font color="#888888"><br>
Valeria &nbsp; &nbsp; <br>
</font>
<div>
<div></div>
<div><br>
<div class="gmail_quote">On 18 April 2011 13:34, Jombart, Thibaut <span dir="ltr">
&lt;<a href="mailto:t.jombart@imperial.ac.uk" target="_blank">t.jombart@imperial.ac.uk</a>&gt;</span> wrote:<br>
<blockquote class="gmail_quote" style="margin: 0pt 0pt 0pt 0.8ex; border-left: 1px solid rgb(204, 204, 204); padding-left: 1ex;">
<div>
<div style="direction: ltr; font-family: Tahoma; color: rgb(0, 0, 0); font-size: 10pt;">
Hi again, <br>
<div><br>
thanks for joining the discussion. To comment quickly on this, I would not say that running a multivariate analysis on mtDNA implies independent loci. There is no theoretical/numerical constraint in that respect. On the contrary, multivariate analyses are often
 use to handle redundancy. So it is not clear what kind of bias this would induce, but I suspect a very mild one to none. This being said, I agree that mtDNA should be analysed as one locus (with lots of alleles).<br>
<br>
As for what can be inferred from mtDNA, well... it does make sense to me that the multivariate analysis of mtDNA data will retrieve mtDNA haplogroups. I am not sure we should call this 'artefactual', this is merely what is contained in the data (and possibly
 not much more). mtDNA for demographic or phylogenetic inference strikes me as limited, at best. I can only recommend reading this short and fun comment on the topic by Francois Balloux in Heredity, called &quot;The worm in the fruit of the mitochondrial DNA tree&quot;:<br>
<a href="http://www.nature.com/hdy/journal/v104/n5/full/hdy2009122a.html" target="_blank">http://www.nature.com/hdy/journal/v104/n5/full/hdy2009122a.html</a><br>
<br>
All the best<br>
<br>
Thibaut<br>
<br>
</div>
<div style="font-family: Times New Roman; color: rgb(0, 0, 0); font-size: 16px;">
<hr>
<div style="direction: ltr;"><font color="#000000" face="Tahoma" size="2"><b>From:</b> valeria montano [<a href="mailto:mirainoshojo@gmail.com" target="_blank">mirainoshojo@gmail.com</a>]<br>
<b>Sent:</b> 17 April 2011 19:28<br>
<b>To:</b> Jombart, Thibaut<br>
<b>Cc:</b> Mac Campbell; <a href="mailto:adegenet-forum@r-forge.wu-wien.ac.at" target="_blank">
adegenet-forum@r-forge.wu-wien.ac.at</a><br>
<b>Subject:</b> Re: [adegenet-forum] Combining mtDNA and Nuclear Data for find.clusters() and DAPC<br>
</font><br>
</div>
<div>
<div></div>
<div>
<div></div>
<div>Hi all,
<div><br>
</div>
<div>sorry for the participation a&nbsp;bit off-topic, it's just to do a few considerations which may be interesting for you (I hope so).&nbsp;</div>
<div><br>
</div>
<div>Regarding mtDNA, using the individual sequence in a multivariate analysis as PCs implies that the sequence is considered as composed by independent loci, which is&nbsp;actually&nbsp;not so.&nbsp;Performing a cluster analysis on individuals, what one would detect is a
 structure related to haplogroup phylogeny. It is intuitive that an undividual with a certain haplogroup will be closer to another one&nbsp;presenting a sequence of the same haplogroup but belonging to&nbsp;a different population than to an individual of the same population
 characterized by a haplotype&nbsp;phylogenetically&nbsp;more distant.&nbsp;&nbsp;That would mean to obtain artifactual haplogroup-driven populations&nbsp;(in this paper&nbsp;<a href="http://www.springerlink.com/content/q225678542442u22/" target="_blank">http://www.springerlink.com/content/q225678542442u22/</a>&nbsp;there
 is a quite clear example since they applied PCs analysis to mtDNA complete sequences to investigate phylogenetic relations among haplogroups).</div>
<div>
<div>
<div class="gmail_quote"><br>
</div>
<div class="gmail_quote">It's definitely cool to have a method like DAPC to use unilinear loci as mtDNa and Y chromosome for structure analysis, but, theoretically speaking,&nbsp;I think that to correctly do it one should use the matrix of haplogroup frequencies
 calculated for populations, when these are previously known, since that is the only way to treat the data as a multiallelic single locus. Otherwise that would be better to avoid using them.</div>
<div class="gmail_quote"><br>
</div>
<div class="gmail_quote">Another concern is about sex biased dispersal. If this phenomenon strongly occurs in the species under study, it's possible that&nbsp;autosomal loci and mtDNA present a different spatial distribution and consequently a different population
 structure, since mtDNA would probably keep the information regarding&nbsp;only&nbsp;the distribution of female individuals. It could be interesting to verify if it is actually mirrored by population structure depending on the dataset considered. After assigning individuals
 to populations with autosomal loci,&nbsp;the matrix of population allelic frequencies for both mtDNA and autosomal can be calculated and then the population genetic relations compared through a simple approach like Fst.&nbsp;</div>
<div class="gmail_quote"><br>
</div>
<div class="gmail_quote">Ok...sorry again for the invasion, I hope you won't find it too dull. I'd be glad to know your opinion about these considetations, since mtDNA and Y chomosome will be my cross for&nbsp;still&nbsp;a bit of time and I wouldn't like to have made
 a blunter on the whole line (would be fun but unpleasent...).</div>
<div class="gmail_quote"><br>
</div>
<div class="gmail_quote">Best regards</div>
<div class="gmail_quote"><br>
</div>
<div class="gmail_quote">Valeria</div>
<div class="gmail_quote"><br>
</div>
<div class="gmail_quote">On 15 April 2011 15:11, Jombart, Thibaut <span dir="ltr">
&lt;<a href="mailto:t.jombart@imperial.ac.uk" target="_blank">t.jombart@imperial.ac.uk</a>&gt;</span> wrote:<br>
<blockquote class="gmail_quote" style="margin: 0pt 0pt 0pt 0.8ex; border-left: 1px solid rgb(204, 204, 204); padding-left: 1ex;">
<div>
<div style="direction: ltr; font-family: Tahoma; color: rgb(0, 0, 0); font-size: 10pt;">
<br>
<div>Hello, <br>
<br>
to combine these data, you can use scaleGen to get scaled allele frequencies and then use cbind to obtain one general matrix.<br>
<br>
The more concerning problem is that you may be merging information of different nature by doing so. Also, it is likely that the results will mainly be driven by the dataset with the most variability. That may be fine (&quot;I want to take the information where it
 is.&quot;) or not (&quot;I want both types of data to contribute equally to the analysis&quot;), depending on what you want to do.<br>
<br>
I would advise at least checking that the analysis done on the entire dataset matches the results of the separate analyses. Running two separate PCAs and checking for similarities between them using coinertia analysis (function coinertia in ade4) should also
 be useful.<br>
<br>
All the best<br>
<br>
Thibaut<br>
</div>
<div style="font-family: Times New Roman; color: rgb(0, 0, 0); font-size: 16px;">
<hr>
<div style="direction: ltr;"><font color="#000000" face="Tahoma" size="2"><b>From:</b>
<a href="mailto:adegenet-forum-bounces@r-forge.wu-wien.ac.at" target="_blank">adegenet-forum-bounces@r-forge.wu-wien.ac.at</a> [<a href="mailto:adegenet-forum-bounces@r-forge.wu-wien.ac.at" target="_blank">adegenet-forum-bounces@r-forge.wu-wien.ac.at</a>] on
 behalf of Mac Campbell [<a href="mailto:macampbell2@alaska.edu" target="_blank">macampbell2@alaska.edu</a>]<br>
<b>Sent:</b> 15 April 2011 04:20<br>
<b>To:</b> <a href="mailto:adegenet-forum@r-forge.wu-wien.ac.at" target="_blank">
adegenet-forum@r-forge.wu-wien.ac.at</a><br>
<b>Subject:</b> [adegenet-forum] Combining mtDNA and Nuclear Data for find.clusters() and DAPC<br>
</font><br>
</div>
<div>
<div></div>
<div>
<div></div>
<div>Hi,<br>
<br>
I have searched for an answer to this, but haven't found one.&nbsp; Would someone be able to help me the following?<br>
<br>
I have two data sets, mitochondrial and nuclear.&nbsp; I have created two Genind objects (X and Y, pasted below) with the same individuals in the same order.<br>
<br>
Is it reasonable to combine the two data sets for use in find.clusters() and DAPC?&nbsp; Is there a way to combine two genind objects within adegenet easily?&nbsp; I've tried several general approaches for S4 objects.<br>
<br>
Thanks in advance,<br>
<br>
Mac<br clear="all">
&gt; X<br>
<br>
&nbsp;&nbsp; #####################<br>
&nbsp;&nbsp; ### Genind object ### <br>
&nbsp;&nbsp; #####################<br>
- genotypes of individuals - <br>
<br>
S4 class:&nbsp; genind<br>
@call: df2genind(X = x[, -1], ind.names = x[, 1], ploidy = 1)<br>
<br>
@tab:&nbsp; 72 x 121 matrix of genotypes<br>
<br>
@ind.names: vector of&nbsp; 72 individual names<br>
@loc.names: vector of&nbsp; 67 locus names<br>
@loc.nall: number of alleles per locus<br>
@loc.fac: locus factor for the&nbsp; 121 columns of @tab<br>
@all.names: list of&nbsp; 67 components yielding allele names for each locus<br>
@ploidy:&nbsp; 1<br>
@type:&nbsp; codom<br>
<br>
Optionnal contents: <br>
@pop:&nbsp; - empty -<br>
@pop.names:&nbsp; - empty -<br>
<br>
@other: - empty -<br>
<br>
&gt; Y<br>
<br>
&nbsp;&nbsp; #####################<br>
&nbsp;&nbsp; ### Genind object ### <br>
&nbsp;&nbsp; #####################<br>
- genotypes of individuals - <br>
<br>
S4 class:&nbsp; genind<br>
@call: df2genind(X = y[, -1], sep = &quot;/&quot;, ind.names = x[, 1])<br>
<br>
@tab:&nbsp; 72 x 32 matrix of genotypes<br>
<br>
@ind.names: vector of&nbsp; 72 individual names<br>
@loc.names: vector of&nbsp; 18 locus names<br>
@loc.nall: number of alleles per locus<br>
@loc.fac: locus factor for the&nbsp; 32 columns of @tab<br>
@all.names: list of&nbsp; 18 components yielding allele names for each locus<br>
@ploidy:&nbsp; 2<br>
@type:&nbsp; codom<br>
<br>
Optionnal contents: <br>
@pop:&nbsp; - empty -<br>
@pop.names:&nbsp; - empty -<br>
<br>
@other: - empty -<br>
<br>
<br>
<br>
-- <br>
Matthew A Campbell<br>
Department of Biology and Wildlife<br>
University of Alaska, Fairbanks<br>
</div>
</div>
</div>
</div>
</div>
</div>
<br>
_______________________________________________<br>
adegenet-forum mailing list<br>
<a href="mailto:adegenet-forum@lists.r-forge.r-project.org" target="_blank">adegenet-forum@lists.r-forge.r-project.org</a><br>
<a href="https://lists.r-forge.r-project.org/cgi-bin/mailman/listinfo/adegenet-forum" target="_blank">https://lists.r-forge.r-project.org/cgi-bin/mailman/listinfo/adegenet-forum</a><br>
<br>
</blockquote>
</div>
<br>
</div>
</div>
</div>
</div>
</div>
</div>
</div>
</div>
</blockquote>
</div>
<br>
</div>
</div>
</blockquote>
</div>
<br>
<br clear="all">
<br>
-- <br>
Matthew A Campbell<br>
Department of Biology and Wildlife<br>
University of Alaska, Fairbanks<br>
</div>
</div>
</div>
</div>
</body>
</html>