登录注册

做网站
做推广
做电商

服务支持
应用与服务
关于中企

中企商学院

查看更多

核心必备

数字门户内贸营销版

全球营销版行业解决方案版

通用版企业域名

企业邮箱

行业应用

外贸客户洞察平台产品导入

数字名片

视觉设计

VR全景视频制作

图片拍摄

网络安全

等保认证 SSL证书

查看更多

核心必备

全球SEO 百度首屏展位

Yandex推广 Google海外推广

解决方案

外贸推广解决方案

查看更多

核心必备

全网商城移动商城

装修服务

电商产品拍摄

解决方案

零售行业OMO解决方案政府采购电商平台解决方案

查看更多

查看更多

查看更多

帮助中心

数字门户产品服务保障服务中心

设计师信息化讲堂

解决方案

外贸数字营销解决方案企业视频直播解决方案

企业安全等保解决方案品牌数字化营销解决方案

品牌零售数字商业解决方案智慧园区解决方案

B2B电商平台建设解决方案数字化政务门户解决方案

开拓型外贸企业解决方案成长型外贸企业解决方案

行业解决方案

实战应用

产品剖析律所行业专家

行业解读

学习中心

电商运营学院网站建设学院

查看更多

应用与服务

VR智能全景个性化场景定制服务

网站安全服务云定制

企业视频直播 Banner设计

产品主图设计图片处理

查看更多

企业概况

关于我们企业文化

发展历程数码庄园

法律隐私

资质荣誉

企业资质所获荣誉

新闻中心

新闻公告媒体报道

社会公益视频中心

行业资讯

联系我们

联系我们工作机会

查看更多

查看更多

Python实现敏感词过滤的4种方法

时间：2021-05-22

在我们生活中的一些场合经常会有一些不该出现的敏感词，我们通常会使用*去屏蔽它，例如：尼玛 -> **，一些骂人的敏感词和一些政治敏感词都不应该出现在一些公共场合中，这个时候我们就需要一定的手段去屏蔽这些敏感词。下面我来介绍一些简单版本的敏感词屏蔽的方法。

（我已经尽量把脏话做成图片的形式了，要不然文章发不出去）

方法一：replace过滤

replace就是最简单的字符串替换，当一串字符串中有可能会出现的敏感词时，我们直接使用相应的replace方法用*替换出敏感词即可。

缺点：

文本和敏感词少的时候还可以，多的时候效率就比较差了

import datetimenow = datetime.datetime.now()print(filter_sentence, " | ", now)

如果是多个敏感词可以用列表进行逐一替换

for i in dirty: speak = speak.replace(i, '*')print(speak, " | ", now)

方法二：正则表达式过滤

正则表达式算是一个不错的匹配方法了，日常的查询中，机会都会用到正则表达式，包括我们的爬虫，也都是经常会使用到正则表达式的，在这里我们主要是使用“|”来进行匹配，“|”的意思是从多个目标字符串中选择一个进行匹配。写个简单的例子：

import redef sentence_filter(keywords, text): return re.sub("|".join(keywords), "***", text)print(sentence_filter(dirty, speak))

方法三：DFA过滤算法

DFA的算法，即Deterministic Finite Automaton算法，翻译成中文就是确定有穷自动机算法。它的基本思想是基于状态转移来检索敏感词，只需要扫描一次待检测文本，就能对所有敏感词进行检测。（实现见代码注释）

#!/usr/bin/env python# -*- coding:utf-8 -*-# @Time：2020/4/15 11:40# @Software：PyCharm# article_add: https:///qloog/sensitive_words

以上就是Python实现敏感词过滤的4种方法的详细内容，更多关于python 敏感词过滤的资料请关注其它相关文章！

声明：本页内容来源网络，仅供用户参考；我单位不保证亦不表示资料全面及准确无误，也不保证亦不表示这些资料为最新信息，如因任何原因，本网内容或者用户因倚赖本网内容造成任何损失或损害，我单位将不会负任何法律责任。如涉及版权问题，请提交至online#300.cn邮箱联系删除。

相关文章

Copyright © 1999-2026 中企动力科技股份有限公司（300.cn）All Rights Reserved

京公网安备11030102010293号京ICP证010249-2

代理域名注册服务机构：中网瑞吉思（天津）科技有限公司北京新网数码信息技术有限公司

域名注册服务机构许可证编号：京D3-20220007

中企动力域名投诉处理：400-660-5555-9 service4006@300.cn

中国互联网络信息中心（受理范围：“.CN”和“.中国”域名）投诉处理 010-58813000 service@cnnic.cn

电话沟通

400-660-5555

QQ咨询

我们联系您

扫一扫添加动力姐姐微信

微信扫码关注动力小姐姐X