C++实现高性能转换大小写算法示例

时间:2021-05-20

简述

最近工作中遇到一个需求,是需要将URL中的 query 参数的key全部转换为小写或者大写,键值对的数量有点多,但全部都是英文字母,无需考虑非字母的情况。

实现比较快的做法是使用STL或C标准库中的转换接口,如下:

#include <string> #include <cctype> #include <algorithm>// 字符串中的大写字符转小写std::string strtolower(std::string s){ transform(s.begin(), s.end(), s.begin(), ::tolower); return s;}// 字符串中的小写字符转大写std::string strtoupper(std::string s){ transform(s.begin(), s.end(), s.begin(), ::toupper); return s;}

这个方法虽然很好,但是效率不是很高。

分析了一下ascii码的码值,发现大小写字母的ascii码之间是有规律的。

原理

英文字母的ASCII码值表示如下


对比一下其二进制形式


从对比的结果可以看出,大写字母与小写字母的差别仅是一个比特位的不同

因为它们的这个规律,可以写出下面的转换函数(如果输入不是字母,转出的结果会有错误)

可以查看数字 0-9 的ascii码值,可以看出它们的第6位都是0,所以转为小写的算法不会影响数字的值。

转小写算法中受到影响的,只有ascii码二进制表示中第六位为0的部分。其中非字母部分如下表


#include <iostream>#include <string>#include <stdint.h>// 更优化std::string strtoupper(std::string s){ if(s.empty()){return s;} size_t len = s.size() + 1; size_t alignlen = len + 8 - (len % 8); s.resize(alignlen); size_t ec = alignlen / 8; uint64_t* p8 = (uint64_t*)s.data(); for(size_t i=0;i<ec;++i){ p8[i] &= 0xDFDFDFDFDFDFDFDF; } s.resize(len-1); return s;}// 未做进一步优化std::string strtolower(std::string s){ size_t len = s.size(); size_t ec = len /8; uint64_t* p8 = (uint64_t*)s.data(); for(size_t i=0;i<ec;++i){ p8[i] |= 0x2020202020202020; } uint8_t* p1 = (uint8_t*)(p8 + ec); len %= 8; for(size_t i=0;i<len;++i){ p1[i] |= 0x20; } return s;}

性能测试

测试代码如下:

int main(){ //std::cout << "Hello, world!\n"; for(size_t i=0;i<1000000;++i){ std::string s = strtoupper("qwertyuiopasdfghjklzxcvbnm````````QWERTYUIOPASDFGHJKLZXCVBNM"); //std::cout<<s<<std::endl; s = strtolower("qwertyuiopasdfghjklzxcvbnm\t\t\t\t\t\t\t\tQWERTYUIOPASDFGHJKLZXCVBNM"); //std::cout<<s<<std::endl; } return 0;}

-- 编译时候请勿优化,否则可能被优化掉! --

测试结果如下:

使用STL算法

STL算法部分主要由头文件<algorithm>,<numeric>,<functional>组成。要使用 STL中的算法函数必须包含头文件<algorithm>,对于数值算法须包含<numeric>,<functional>中则定义了一些模板类,用来声明函数对象。

STL中算法大致分为四类:

1、非可变序列算法:指不直接修改其所操作的容器内容的算法。

2、可变序列算法:指可以修改它们所操作的容器内容的算法。

3、排序算法:包括对序列进行排序和合并的算法、搜索算法以及有序序列上的集合操作。

4、数值算法:对容器内容进行数值计算。

结果如下

time ./teststl./teststl 7.88s user 0.03s system 100% cpu 7.904 total

自写代码测试结果如下

time ./test./test 0.93s user 0.00s system 99% cpu 0.928 total

可以看到,其性能有差异。(应用场景有限)

总结

以上就是这篇文章的全部内容了,希望本文的内容对大家的学习或者工作具有一定的参考学习价值,如果有疑问大家可以留言交流,谢谢大家对的支持。

声明:本页内容来源网络,仅供用户参考;我单位不保证亦不表示资料全面及准确无误,也不保证亦不表示这些资料为最新信息,如因任何原因,本网内容或者用户因倚赖本网内容造成任何损失或损害,我单位将不会负任何法律责任。如涉及版权问题,请提交至online#300.cn邮箱联系删除。

相关文章