<html><head><style>body{font-family:Helvetica,Arial;font-size:13px}</style></head><body style="word-wrap: break-word; -webkit-nbsp-mode: space; -webkit-line-break: after-white-space; "><div id="bloop_customfont" style="font-family:Helvetica,Arial;font-size:13px; color: rgba(0,0,0,1.0); margin: 0px; line-height: auto;">Chris,</div><div id="bloop_customfont" style="font-family:Helvetica,Arial;font-size:13px; color: rgba(0,0,0,1.0); margin: 0px; line-height: auto;"><br></div><div id="bloop_customfont" style="font-family:Helvetica,Arial;font-size:13px; color: rgba(0,0,0,1.0); margin: 0px; line-height: auto;">You're 100% right. That's what we've conversed with Hadley as well. For this data, we decided to stick to this, as we weren't lagging behind "dplyr".</div><div id="bloop_customfont" style="font-family:Helvetica,Arial;font-size:13px; color: rgba(0,0,0,1.0); margin: 0px; line-height: auto;">This is also why I made the point that "<span style="color: rgb(85, 85, 85); font-family: 'Helvetica Neue', Helvetica, Arial, sans-serif; font-size: 14px; line-height: 20px; ">However, when benchmarking one should be benchmarking the equivalent of an operation in each tool, not how one </span><em style="box-sizing: border-box; color: rgb(85, 85, 85); font-family: 'Helvetica Neue', Helvetica, Arial, sans-serif; font-size: 14px; line-height: 20px; ">thinks</em><span style="color: rgb(85, 85, 85); font-family: 'Helvetica Neue', Helvetica, Arial, sans-serif; font-size: 14px; line-height: 20px; "> the design should be."</span></div><div id="bloop_customfont" style="font-family:Helvetica,Arial;font-size:13px; color: rgba(0,0,0,1.0); margin: 0px; line-height: auto;"><span style="color: rgb(85, 85, 85); font-family: 'Helvetica Neue', Helvetica, Arial, sans-serif; font-size: 14px; line-height: 20px; ">This is so that the next time we benchmark, we can do it the data.table way and dplyr way and not dplyr's data.table way.</span></div><div id="bloop_customfont" style="font-family:Helvetica,Arial;font-size:13px; color: rgba(0,0,0,1.0); margin: 0px; line-height: auto;"><span style="color: rgb(85, 85, 85); font-family: 'Helvetica Neue', Helvetica, Arial, sans-serif; font-size: 14px; line-height: 20px; "><br></span></div><div id="bloop_customfont" style="font-family:Helvetica,Arial;font-size:13px; color: rgba(0,0,0,1.0); margin: 0px; line-height: auto;"><span style="color: rgb(85, 85, 85); font-family: 'Helvetica Neue', Helvetica, Arial, sans-serif; font-size: 14px; line-height: 20px; "><br></span></div> <div id="bloop_sign_1390421914744303104" class="bloop_sign"><div style="font-family:helvetica,arial;font-size:13px">Arun</div></div> <div style="color:gray"><hr style="style:linear">From: <span style="color:black">Chris Neff</span> <a href="mailto:caneff@gmail.com">Chris Neff</a><br>Reply: <span style="color:black">Chris Neff</span> <a href="mailto:caneff@gmail.com">caneff@gmail.com</a><br>Date: <span style="color:black">January 22, 2014 at 9:17:49 PM</span><br>To: <span style="color:black">Arunkumar Srinivasan</span> <a href="mailto:aragorn168b@gmail.com">aragorn168b@gmail.com</a><br>Subject: <span style="color:black"> Re: [datatable-help] Response to dplyr baseball vignette benchmarks <br></span></div> <blockquote type="cite" class="clean_bq"><span><div><div>


<title></title>


<div dir="ltr">When you do use larger data sets where it will
matter, I think more strongly highlighting the in-place vs. copying
differences will be key. There is also the notion that yes, you
should compare things as closely as possible when just doing
standard benchmarking, but I think this is selling data.table a bit
short by mimicking dplyr with copying.  You show this a bit in
the mutate example, but even in the arrange example the copy is
slowing things down.  It is so small that it wouldn't really
make a ton of difference in this case, but with 10m rows the
copying gets to be a large noticeable difference between data.table
and standard data.frame methods like setnames vs names<-
<div><br></div>
<div><br></div>
</div>
<div class="gmail_extra"><br>
<br>
<div class="gmail_quote">On Wed, Jan 22, 2014 at 3:09 PM, Arunkumar
Srinivasan <span dir="ltr"><<a href="mailto:aragorn168b@gmail.com" target="_blank">aragorn168b@gmail.com</a>></span> wrote:<br>
<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">
<div style="word-wrap:break-word">
<div style="font-family:Helvetica,Arial;font-size:13px;color:rgba(0,0,0,1.0);margin:0px;line-height:auto">
Chris,</div>
<div style="font-family:Helvetica,Arial;font-size:13px;color:rgba(0,0,0,1.0);margin:0px;line-height:auto">
<br></div>
<div style="font-family:Helvetica,Arial;font-size:13px;color:rgba(0,0,0,1.0);margin:0px;line-height:auto">
Thanks. Yes that's the plan (the last line in the link). Once the
next version of data.table is out on CRAN, the benchmarks should
come out.</div>
<div style="font-family:Helvetica,Arial;font-size:13px;color:rgba(0,0,0,1.0);margin:0px;line-height:auto">
<br></div>
<div>
<div style="font-family:helvetica,arial;font-size:13px">Arun</div>
</div>
<div style="color:gray">
<hr>
From: <span style="color:black">Chris Neff</span> <a href="mailto:caneff@gmail.com" target="_blank">Chris Neff</a><br>
Reply: <span style="color:black">Chris Neff</span> <a href="mailto:caneff@gmail.com" target="_blank">caneff@gmail.com</a><br>
Date: <span style="color:black">January 22, 2014 at 9:07:34
PM</span><br>
To: <span style="color:black">Arunkumar Srinivasan</span>
<a href="mailto:aragorn168b@gmail.com" target="_blank">aragorn168b@gmail.com</a><br>
Subject:  <span style="color:black">Re: [datatable-help]
Response to dplyr baseball vignette benchmarks<br></span></div>
<div>
<div class="h5">
<blockquote type="cite">
<div>
<div>
<div dir="ltr"><span>Thank you for responding to this so fast to
get out ahead of the misleading aspects.</span>
<div><span><br></span></div>
<div><span>As another comparison, it would definitely be
constructive to also use a data set that is larger than 10 MB.
 Something in the 1m+ row range perhaps.</span></div>
</div>
<div class="gmail_extra"><span><br>
<br></span>
<div class="gmail_quote"><span>On Wed, Jan 22, 2014 at 2:54 PM,
Arunkumar Srinivasan <span dir="ltr"><<a href="mailto:aragorn168b@gmail.com" target="_blank">aragorn168b@gmail.com</a>></span> wrote:<br></span>
<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">
<div style="word-wrap:break-word">
<div style="font-family:Helvetica,Arial;font-size:13px;color:rgba(0,0,0,1.0);margin:0px;line-height:auto">
Hello,</div>
<div style="font-family:Helvetica,Arial;font-size:13px;color:rgba(0,0,0,1.0);margin:0px;line-height:auto">
<br></div>
<div style="font-family:Helvetica,Arial;font-size:13px;color:rgba(0,0,0,1.0);margin:0px;line-height:auto">
Matthew and I have redone the benchmarks and posted a response to
the dplyr's </div>
<div style="font-family:Helvetica,Arial;font-size:13px;color:rgba(0,0,0,1.0);margin:0px;line-height:auto">
baseball vignette benchmark here: <a href="http://arunsrinivasan.github.io/dplyr_benchmark/" target="_blank">http://arunsrinivasan.github.io/dplyr_benchmark/</a></div>
<div style="font-family:Helvetica,Arial;font-size:13px;color:rgba(0,0,0,1.0);margin:0px;line-height:auto">
<br></div>
Have a look and let us know what you think!
<div><br>
<div>
<div style="font-family:helvetica,arial;font-size:13px">Arun</div>
</div>
</div>
</div>
<br>
_______________________________________________<br>
datatable-help mailing list<br>
<a href="mailto:datatable-help@lists.r-forge.r-project.org" target="_blank">datatable-help@lists.r-forge.r-project.org</a><br>
<a href="https://lists.r-forge.r-project.org/cgi-bin/mailman/listinfo/datatable-help" target="_blank">https://lists.r-forge.r-project.org/cgi-bin/mailman/listinfo/datatable-help</a><br>
</blockquote>
</div>
<br></div>
</div>
</div>
</blockquote>
</div>
</div>
</div>
</blockquote>
</div>
<br></div>


</div></div></span></blockquote></body></html>