<div dir="ltr">Hi,<div><br></div><div>Just following up on RMach's question with a bit on an example and further explanation since this is something i've always wondered about. </div><div><br></div><div>I often find myself trying to compute pairwise distances on a series of rows. For each we have a keyed data.table that has 5000 columns and 10,000 row, which equates to (n*n-1)/2 comparisons ~ about 50 million in this case. The basic data structure and design looks like this:</div><div><br></div><div>library(reshape2)</div><div>a<-data.frame(ID=1:10,Site1=rbinom(1,1,.5),Site2=rbinom(10,1,.5),Site3=rbinom(10,1,0.5))</div><div><br></div><div>dista<-dist(a[,-1])</div><div><br></div><div>pairwise<-melt(as.matrix(dista))</div><div><br></div><div>colnames(pairwise)<-c("To","From","Dist")</div><div><br></div><div>head(pairwise)</div><div><br></div><div><br></div><div> We use a parallel computing strategy to chunk pieces, but its a real mess keeping track. The goal would be to find a data.table solution, especially one that does not repeat pairwise comparisons. For example, comparing row 4 to row 9 is the same as 9 to 4. </div><div><br></div><div>The same could be done for any dist metric, including the vegdist vegan function.</div><div><br></div><div>Thanks for your thoughts,</div><div><br></div><div>Ben</div></div><div class="gmail_extra"><br><div class="gmail_quote">On Tue, Apr 14, 2015 at 4:24 AM, RMach <span dir="ltr"><<a href="mailto:rdpmachado@gmail.com" target="_blank">rdpmachado@gmail.com</a>></span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">Hi all,<br>
<br>
how should the input matrix structure be in order to use vegdist(vegan) to<br>
compute jaccard index.<br>
<br>
thanks in advance.<br>
RMach<br>
<br>
<br>
<br>
--<br>
View this message in context: <a href="http://r.789695.n4.nabble.com/jaccard-index-calculation-tp4705824.html" target="_blank">http://r.789695.n4.nabble.com/jaccard-index-calculation-tp4705824.html</a><br>
Sent from the datatable-help mailing list archive at Nabble.com.<br>
_______________________________________________<br>
datatable-help mailing list<br>
<a href="mailto:datatable-help@lists.r-forge.r-project.org">datatable-help@lists.r-forge.r-project.org</a><br>
<a href="https://lists.r-forge.r-project.org/cgi-bin/mailman/listinfo/datatable-help" target="_blank">https://lists.r-forge.r-project.org/cgi-bin/mailman/listinfo/datatable-help</a><br>
</blockquote></div><br><br clear="all"><div><br></div>-- <br><div class="gmail_signature">Ben Weinstein<br>PhD Candidate <br>Ecology and Evolution<br>Stony Brook University<br><br><a href="http://benweinstein.weebly.com/">http://benweinstein.weebly.com/</a><br><br></div>
</div>