Getting the actual length of a UTF-8 encoded std::string?(获取 UTF-8 编码的 std::string 的实际长度?)
问题描述
我的 std::string 显然是 utf-8 编码的,str.length() 返回了错误的结果.
my std::string is utf-8 encoded so obviously, str.length() returns the wrong result.
我找到了此信息,但我不确定如何使用它来执行此操作:
I found this information but I'm not sure how I can use it to do this:
以下字节序列是用来表示一个字符.这顺序是使用取决于字符的 UCS 代码编号:
The following byte sequences are used to represent a character. The sequence to be used depends on the UCS code number of the character:
0x00000000 - 0x0000007F:
0xxxxxxx
0x00000080 - 0x000007FF:
110xxxxx 10xxxxxx
0x00000800 - 0x0000FFFF:
1110xxxx 10xxxxxx 10xxxxxx
0x00010000 - 0x001FFFFF:
11110xxx 10xxxxxx 10xxxxxx 10xxxxxx
如何找到 UTF-8 编码的 std::string 的实际长度?谢谢
How can I find the actual length of a UTF-8 encoded std::string? Thanks
推荐答案
计算所有首字节(与 10xxxxxx 不匹配的字节).
Count all first-bytes (the ones that don't match 10xxxxxx).
int len = 0;
while (*s) len += (*s++ & 0xc0) != 0x80;
这篇关于获取 UTF-8 编码的 std::string 的实际长度?的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持编程学习网!
本文标题为:获取 UTF-8 编码的 std::string 的实际长度?
基础教程推荐
- 初始化列表*参数*评估顺序 2021-01-01
- 为什么 RegOpenKeyEx() 在 Vista 64 位上返回错误代码 2021-01-01
- 通过引用传递 C++ 迭代器有什么问题? 2022-01-01
- 为什么 typeid.name() 使用 GCC 返回奇怪的字符以及如 2022-09-16
- 如果我为无符号变量分配负值会发生什么? 2022-01-01
- GDB 显示调用堆栈上函数地址的当前编译二进制文 2022-09-05
- 为什么派生模板类不能访问基模板类的标识符? 2021-01-01
- 我应该对 C++ 中的成员变量和函数参数使用相同的名称吗? 2021-01-01
- 非静态 const 成员,不能使用默认赋值运算符 2022-10-09
- CString 到 char* 2021-01-01
