<html xmlns:v="urn:schemas-microsoft-com:vml" xmlns:o="urn:schemas-microsoft-com:office:office" xmlns:w="urn:schemas-microsoft-com:office:word" xmlns:m="http://schemas.microsoft.com/office/2004/12/omml" xmlns="http://www.w3.org/TR/REC-html40">
<head>
<meta http-equiv="Content-Type" content="text/html; charset=us-ascii">
<meta name="Generator" content="Microsoft Word 14 (filtered medium)">
<style><!--
/* Font Definitions */
@font-face
        {font-family:Calibri;
        panose-1:2 15 5 2 2 2 4 3 2 4;}
@font-face
        {font-family:Tahoma;
        panose-1:2 11 6 4 3 5 4 4 2 4;}
@font-face
        {font-family:Verdana;
        panose-1:2 11 6 4 3 5 4 4 2 4;}
/* Style Definitions */
p.MsoNormal, li.MsoNormal, div.MsoNormal
        {margin:0in;
        margin-bottom:.0001pt;
        font-size:11.0pt;
        font-family:"Calibri","sans-serif";}
a:link, span.MsoHyperlink
        {mso-style-priority:99;
        color:blue;
        text-decoration:underline;}
a:visited, span.MsoHyperlinkFollowed
        {mso-style-priority:99;
        color:purple;
        text-decoration:underline;}
span.EmailStyle17
        {mso-style-type:personal;
        font-family:"Calibri","sans-serif";
        color:windowtext;}
span.EmailStyle18
        {mso-style-type:personal-reply;
        font-family:"Calibri","sans-serif";
        color:#1F497D;}
.MsoChpDefault
        {mso-style-type:export-only;
        font-size:10.0pt;}
@page WordSection1
        {size:8.5in 11.0in;
        margin:1.0in 1.0in 1.0in 1.0in;}
div.WordSection1
        {page:WordSection1;}
--></style><!--[if gte mso 9]><xml>
<o:shapedefaults v:ext="edit" spidmax="1026" />
</xml><![endif]--><!--[if gte mso 9]><xml>
<o:shapelayout v:ext="edit">
<o:idmap v:ext="edit" data="1" />
</o:shapelayout></xml><![endif]-->
</head>
<body lang="EN-US" link="blue" vlink="purple">
<div class="WordSection1">
<p class="MsoNormal"><span style="color:#1F497D">Just to follow up in case anyone other than me is using Unicode in R:  Rcpp does not support Unicode, or really any encoding other than 7 bit ascii.  Internally R marks every string with an encoding, typically
 UTF8, Latin1 or ASCII.  When using as<string> Rcpp just copies the bytes over ignoring the encoding.  This means that if you take a string that was utf8 and then later wrap it again, the encoding info is lost and the characters get corrupted.  In particular,
 never use Rcpp::as<std::wstring> because the string gets widened without being converted to Unicode.<o:p></o:p></span></p>
<p class="MsoNormal"><span style="color:#1F497D"><o:p> </o:p></span></p>
<p class="MsoNormal"><span style="color:#1F497D">If you want (or need) to support Unicode text in an R plugin, you need to use Rf_translateCharUTF8(…) to get a string.  Regardless of what encoding it was originally, R will make sure it is encoded as UTF-8. 
 In order to set a string into a R object you have to use the corresponding Rf_mkCharLenCE(p, len, CE_UTF8) function – which tells R that the data you have is UTF-8.<o:p></o:p></span></p>
<p class="MsoNormal"><span style="color:#1F497D"><o:p> </o:p></span></p>
<p class="MsoNormal"><span style="color:#1F497D">Ned.<o:p></o:p></span></p>
<p class="MsoNormal"><span style="color:#1F497D"><o:p> </o:p></span></p>
<div>
<div style="border:none;border-top:solid #B5C4DF 1.0pt;padding:3.0pt 0in 0in 0in">
<p class="MsoNormal"><b><span style="font-size:10.0pt;font-family:"Tahoma","sans-serif"">From:</span></b><span style="font-size:10.0pt;font-family:"Tahoma","sans-serif""> rcpp-devel-bounces@lists.r-forge.r-project.org [mailto:rcpp-devel-bounces@lists.r-forge.r-project.org]
<b>On Behalf Of </b>Ned Harding<br>
<b>Sent:</b> Wednesday, June 26, 2013 11:54 AM<br>
<b>To:</b> rcpp-devel@lists.r-forge.r-project.org<br>
<b>Subject:</b> [Rcpp-devel] Unicode on windows<o:p></o:p></span></p>
</div>
</div>
<p class="MsoNormal"><o:p> </o:p></p>
<p class="MsoNormal">I am having issues with the wide string conversion to and from Rcpp.  When taking in a string from R that is encoding UTF-8, I would expect as<wstring> to have converted the utf-8 to a wide string.  Instead, it is just widening all the
 characters and leaving the UTF-8 encoding.  I have no issue with UTF-8, but my issue is that Rcpp doesn’t seem to be able to tell me what encoding the source is so I don’t know if I should convert or not.<o:p></o:p></p>
<p class="MsoNormal"><o:p> </o:p></p>
<p class="MsoNormal">Similarly, I would expect that wrap<wstring> would produce a UTF-8 encoding SEXP, but instead the encoding in R comes back “Unknown” and the data can’t print.  See The C++ & R sources below along with the output.<o:p></o:p></p>
<p class="MsoNormal"><o:p> </o:p></p>
<p class="MsoNormal">C++ function<o:p></o:p></p>
<p class="MsoNormal">----------------------------------------<o:p></o:p></p>
<p class="MsoNormal">RcppExport SEXP TestWide(SEXP _strIn)<o:p></o:p></p>
<p class="MsoNormal">{<o:p></o:p></p>
<p class="MsoNormal">                std::wstring strIn = Rcpp::as<std::wstring>(_strIn);<o:p></o:p></p>
<p class="MsoNormal">                for (const wchar_t *p = strIn.c_str(); *p; ++p)<o:p></o:p></p>
<p class="MsoNormal">                                Rprintf("%x\n", *p);<o:p></o:p></p>
<p class="MsoNormal">                std::wstring str = L"a\x02a5c";<o:p></o:p></p>
<p class="MsoNormal">                return Rcpp::wrap(str);<o:p></o:p></p>
<p class="MsoNormal">}<o:p></o:p></p>
<p class="MsoNormal"><o:p> </o:p></p>
<p class="MsoNormal">R Script<o:p></o:p></p>
<p class="MsoNormal">----------------------------------------<o:p></o:p></p>
<p class="MsoNormal">test <- "a\u02a5b"<o:p></o:p></p>
<p class="MsoNormal">a<-.Call( "TestWide", test, PACKAGE = "AlteryxRDataX" )<o:p></o:p></p>
<p class="MsoNormal">print(Encoding(a))<o:p></o:p></p>
<p class="MsoNormal">print(a)<o:p></o:p></p>
<p class="MsoNormal"><o:p> </o:p></p>
<p class="MsoNormal">R Output<o:p></o:p></p>
<p class="MsoNormal">----------------------------------------<o:p></o:p></p>
<p class="MsoNormal" style="text-autospace:none"><span style="font-size:10.0pt;font-family:"Verdana","sans-serif";color:black">R version 3.0.0 (2013-04-03) - x86_64
<o:p></o:p></span></p>
<p class="MsoNormal" style="text-autospace:none"><span style="font-size:10.0pt;font-family:"Verdana","sans-serif";color:black">rgeos version: 0.2-16, (SVN revision 389)<o:p></o:p></span></p>
<p class="MsoNormal" style="text-autospace:none"><span style="font-size:10.0pt;font-family:"Verdana","sans-serif";color:black">GEOS runtime version: 3.3.6-CAPI-1.7.6
<o:p></o:p></span></p>
<p class="MsoNormal" style="text-autospace:none"><span style="font-size:10.0pt;font-family:"Verdana","sans-serif";color:black">Polygon checking: TRUE
<o:p></o:p></span></p>
<p class="MsoNormal" style="text-autospace:none"><span style="font-size:10.0pt;font-family:"Verdana","sans-serif";color:black">61<o:p></o:p></span></p>
<p class="MsoNormal" style="text-autospace:none"><span style="font-size:10.0pt;font-family:"Verdana","sans-serif";color:black">ffca<o:p></o:p></span></p>
<p class="MsoNormal" style="text-autospace:none"><span style="font-size:10.0pt;font-family:"Verdana","sans-serif";color:black">ffa5<o:p></o:p></span></p>
<p class="MsoNormal" style="text-autospace:none"><span style="font-size:10.0pt;font-family:"Verdana","sans-serif";color:black">62<o:p></o:p></span></p>
<p class="MsoNormal" style="text-autospace:none"><span style="font-size:10.0pt;font-family:"Verdana","sans-serif";color:black">"unknown"<o:p></o:p></span></p>
<p class="MsoNormal" style="text-autospace:none"><span style="font-size:10.0pt;font-family:"Verdana","sans-serif";color:black">"a?"<o:p></o:p></span></p>
<p class="MsoNormal"><o:p> </o:p></p>
<p class="MsoNormal">Thanks,<o:p></o:p></p>
<p class="MsoNormal"><o:p> </o:p></p>
<p class="MsoNormal"><b><span style="font-size:9.0pt;font-family:"Verdana","sans-serif";color:#1F497D">Ned Harding</span></b><span style="font-size:9.0pt;font-family:"Verdana","sans-serif";color:#1F497D"><o:p></o:p></span></p>
<p class="MsoNormal"><span style="color:navy">Alteryx<o:p></o:p></span></p>
<p class="MsoNormal"><span style="color:navy">CTO<o:p></o:p></span></p>
<p class="MsoNormal"><span style="color:navy">3825 Iris Avenue, Suite 150<o:p></o:p></span></p>
<p class="MsoNormal"><span style="color:navy">Boulder, CO 80301<o:p></o:p></span></p>
<p class="MsoNormal"><span style="color:navy">Phone:  720-259-0541<o:p></o:p></span></p>
<p class="MsoNormal"><span style="color:navy">eMail:   <a href="mailto:ned@alteryx.com">
ned@alteryx.com</a><o:p></o:p></span></p>
<p class="MsoNormal"><o:p> </o:p></p>
</div>
</body>
</html>