<div dir="ltr"><br><div class="gmail_extra"><div class="gmail_quote"><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div dir="ltr"><div>On a 4 core machine (8 with hyperthreading) I'm observing a 10x speedup. The parallel related speedup is 4x. There is an additional 2.5x speedup which appears to be related to the lower level access to the Matrix memory done by RMatrix<T> (and perhaps some elimination of copying).<br>
</div></div></blockquote><div><br></div><div>It turns out that the additional slowdown in the serial version was due to repeatedly calling Vector::length as a loop termination condition. I re-wrote the serial version using iterators and now the speedup from parallel is about 5x (more in line with expectations).</div>
<div><br></div><div><br></div></div></div></div>