<html><head></head><body bgcolor="#FFFFFF"><div></div><span class="Apple-style-span" style><div>Data-table experts,</div><div><br></div><div>Thanks to this stack-overflow post</div><div>(<a href="http://stackoverflow.com/questions/10748253/idiomatic-r-code-for-partitioning-a-vector-by-an-index-and-performing-an-operati">http://stackoverflow.com/questions/10748253/idiomatic-r-code-for-partitioning-a-vector-by-an-index-and-performing-an-operati</a>) <span class="Apple-style-span" style>i am convinced that my projects may be sped up via use of data table.</span></div>
<div><span class="Apple-style-span" style><br></span></div><div><span class="Apple-style-span" style>At least i hope.</span></div><div><br></div><div>I have read the introduction, and it is not clear if it is possible to do<span class="Apple-style-span" style> time series sub-setting. I presently use XTS, and find that </span><span class="Apple-style-span" style>it is decently quick for my large data sets which contain observations <span class="Apple-style-span" style>each second. Most importantly XTS is robust.</span></span></div>
<div><span class="Apple-style-span" style><span class="Apple-style-span" style><br></span></span></div><div><span class="Apple-style-span" style>My XTS sets have date/time strings that are formatted </span></div><div><span class="Apple-style-span" style>“%Y-%m-%d %H:%M:%S”, and i wish to sub set across these:</span></div>
<div><span class="Apple-style-span" style><br></span></div><div><span class="Apple-style-span" style>A typical data frame might be formatted as follows:</span></div><div><span class="Apple-style-span" style><br></span></div>
<div><span class="Apple-style-span" style>>Names(dfx) = c(’price’, ’volume’)</span></div><div><span class="Apple-style-span" style><br></span></div><div><span class="Apple-style-span" style>>Head(dfx) </span></div><div>
<span class="Apple-style-span" style><br></span></div><div><span class="Apple-style-span" style>2012-06-01 09:07:34 97.55 60</span></div><span class="Apple-style-span" style>2012-06-01 09:07:36 97.58 150</span><div><span class="Apple-style-span" style>2012-06-01 09:07:36 97.56 10</span></div>
<div><span class="Apple-style-span" style>2012-06-01 09:07:36 97.57 19</span></div><div><span class="Apple-style-span" style>2012-06-01 09:07:39 97.58 100</span></div><div><span class="Apple-style-span" style>2012-06-01 09:07:40 97.55 40</span><br>
<div><span class="Apple-style-span" style><br></span></div><div><span class="Apple-style-span" style>I would like to perform the following sub setting operations: for example, the minute after 9:07am (on a single date or all dates); the first ten hours on each monday; 12 to 16 on the first friday of each month; all days in June for years 2001 to 2011; all mondays in 2008. </span></div>
<div><span class="Apple-style-span" style><br></span></div><div><span class="Apple-style-span" style>Additionally, i would like to sub-set such that i obtain a table showing the volume of trades at each price on a given time interval. </span></div>
<div><span class="Apple-style-span" style><br></span></div><div><span class="Apple-style-span" style>For example, the printed data above would present as:</span></div><div><span class="Apple-style-span" style><br></span></div>
<div><span class="Apple-style-span" style>Price volume</span></div><div><span class="Apple-style-span" style>97.55 100</span></div><div><span class="Apple-style-span" style>97.56 10</span></div><div><span class="Apple-style-span" style>97.57 19</span></div>
<div><span class="Apple-style-span" style>97.58 250</span></div><div><span class="Apple-style-span" style><br></span></div><div><span class="Apple-style-span" style>Are such sub-setting operations possible in data.table?</span></div>
<div><br></div><div>I anticipate that the time series sub-setting in data.table may be <span class="Apple-style-span" style>more restrictive, but as my data sets are very large and the reported </span><span class="Apple-style-span" style><span class="Apple-style-span" style>speed up relative to most methods is huge in big-data cases, i am hopeful that a modest amount of <span class="Apple-style-span" style>trouble will bring large performance gains.  </span></span></span></div>
<div><span class="Apple-style-span" style><span class="Apple-style-span" style><span class="Apple-style-span" style><br></span></span></span></div><div><span class="Apple-style-span" style><span class="Apple-style-span" style><span class="Apple-style-span" style>Is this the case?</span></span></span></div>
<div><br></div><div>Sorry for the long question - an answer in the affirmative and link to <span class="Apple-style-span" style>a manual that i have missed would suffice.</span></div><div><br></div><div>Thanks + best regards</div>
<div><br></div><div>matt johnson</div></div><div><br></div></span></body></html>