编程 Python

Python使用DFA算法过滤内容敏感词

Posted in Python onApril 22, 2022

DFA 算法是通过提前构造出一个树状查找结构，之后根据输入在该树状结构中就可以进行非常高效的查找。

设我们有一个敏感词库，词酷中的词汇为：

我爱你
我爱他
我爱她
我爱你呀
我爱他呀
我爱她呀
我爱她啊

那么就可以构造出这样的树状结构：

设玩家输入的字符串为：白菊我爱你呀哈哈哈

我们遍历玩家输入的字符串 str，并设指针 i 指向树状结构的根节点，即最左边的空白节点：

str[0] = ‘白’ 时，此时 tree[i] 没有指向值为 ‘白’ 的节点，所以不满足匹配条件，继续往下遍历
str[1] = ‘菊’，同样不满足匹配条件，继续遍历
str[2] = ‘我’，此时 tree[i] 有一条路径连接着 ‘我’ 这个节点，满足匹配条件，i 指向 ‘我’ 这个节点，然后继续遍历
str[3] = ‘爱’，此时 tree[i] 有一条路径连着 ‘爱’ 这个节点，满足匹配条件，i 指向 ‘爱’，继续遍历
str[4] = ‘你’，同样有路径，i 指向 ‘你’，继续遍历
str[5] = ‘呀’，同样有路径，i 指向 ‘呀’

此时，我们的指针 i 已经指向了树状结构的末尾，即此时已经完成了一次敏感词判断。我们可以用变量来记录下这次敏感词匹配开始时玩家输入字符串的下标，和匹配结束时的下标，然后再遍历一次将字符替换为 * 即可。

结束一次匹配后，我们把指针 i 重新指向树状结构的根节点处。

此时我们玩家输入的字符串还没有遍历到头，所以继续遍历：

str[6] = ‘哈’，不满足匹配条件，继续遍历

str[7] = ‘哈’ …

str[8] = ‘哈’ …

可以看出我们遍历了一次玩家输入的字符串，就找到了其中的敏感词汇。

Python使用DFA算法过滤内容敏感词

DFA算法python实现

class DFA:
    """DFA 算法
       敏感字中“*”代表任意一个字符
    """

    def __init__(self, sensitive_words: list, skip_words: list):  # 对于敏感词sensitive_words及无意义的词skip_words可以通过数据库、文件或者其他存储介质进行保存
        self.state_event_dict = self._generate_state_event(sensitive_words)
        self.skip_words = skip_words

    def __repr__(self):
        return '{}'.format(self.state_event_dict)

    @staticmethod
    def _generate_state_event(sensitive_words) -> dict:
        state_event_dict = {}
        for word in sensitive_words:
            tmp_dict = state_event_dict
            length = len(word)
            for index, char in enumerate(word):
                if char not in tmp_dict:
                    next_dict = {'is_end': False}
                    tmp_dict[char] = next_dict
                    tmp_dict = next_dict
                else:
                    next_dict = tmp_dict[char]
                    tmp_dict = next_dict
                if index == length - 1:
                    tmp_dict['is_end'] = True
        return state_event_dict

    def match(self, content: str):
        match_list = []
        state_list = []
        temp_match_list = []

        for char_pos, char in enumerate(content):
            if char in self.skip_words:
                continue
            if char in self.state_event_dict:
                state_list.append(self.state_event_dict)
                temp_match_list.append({
                    "start": char_pos,
                    "match": ""
                })
            for index, state in enumerate(state_list):
                is_match = False
                state_char = None
                if '*' in state: # 对于一些敏感词，比如大傻X，可能是大傻B，大傻×，大傻...，采用通配符*，一个*代表一个字符
                    state_list[index] = state['*']
                    state_char = state['*']
                    is_match = True
                if char in state:
                    state_list[index] = state[char]
                    state_char = state[char]
                    is_match = True
                if is_match:
                    if state_char["is_end"]:
                        stop = char_pos + 1
                        temp_match_list[index]['match'] = content[
                                                          temp_match_list[index]['start']:stop]
                        match_list.append(copy.deepcopy(temp_match_list[index]))
                        if len(state_char.keys()) == 1:
                            state_list.pop(index)
                            temp_match_list.pop(index)
                else:
                    state_list.pop(index)
                    temp_match_list.pop(index)
        for index, match_words in enumerate(match_list):
            print(match_words['start'])
        return match_list

_generate_state_event方法生成敏感词的树状结构，（以字典保存），对于上面的例子，生成的树状结构保存如下：

if __name__ == '__main__':
    dfa = DFA(['我爱你', '我爱他', '我爱她', '我爱你呀', '我爱他呀', '我爱她呀', '我爱她啊'], skip_words=[])  # 暂时不配置skip_words
    print(dfa)

结果：

{'我': {'is_end': False, '爱': {'is_end': False, '你': {'is_end': True, '呀': {'is_end': True}}, '他': {'is_end': True, '呀': {'is_end': True}}, '她': {'is_end': True, '呀': {'is_end': True}, '啊': {'is_end': True}}}}}

然后调用match方法，输入内容进行敏感词匹配：

if __name__ == '__main__':
    dfa = DFA(['我爱你', '我爱他', '我爱她', '我爱你呀', '我爱他呀', '我爱她呀', '我爱她啊'], ['\n', '\r\n', '\r'])
    # print(dfa)
    print(dfa.match('白菊我爱你呀哈哈哈'))

结果：

[{'start': 2, 'match': '我爱你'}, {'start': 2, 'match': '我爱你呀'}]

而对于一些敏感词，比如大傻X，可能是大傻B，大傻×，大傻...，那是不是可以通过一个通配符*来解决？

见代码：48 ~51行

if '*' in state: # 对于一些敏感词，比如大傻X，可能是大傻B，大傻×，大傻...，采用通配符*，一个*代表一个字符
 state_list[index] = state['*']
 state_char = state['*']
 is_match = True

验证一下：

if __name__ == '__main__':
    dfa = DFA(['大傻*'], [])
    print(dfa)
    print(dfa.match('大傻X安乐飞大傻B'))

{'大': {'is_end': False, '傻': {'is_end': False, '*': {'is_end': True}}}}
[{'start': 0, 'match': '大傻X'}, {'start': 6, 'match': '大傻B'}]

上列中如果输入的内容中，“大傻X安乐飞大傻B”写成“大%傻X安乐飞大&傻B”，看看是否能识别出敏感词呢？识别不出了！

if __name__ == '__main__':
    dfa = DFA(['大傻*'], [])
    print(dfa)
    print(dfa.match('大%傻X安乐飞大&傻B'))

结果：

{'大': {'is_end': False, '傻': {'is_end': False, '*': {'is_end': True}}}}
[

诸如“,&,!,！,@,#,$,￥,*,^,%,?,？,<,>,《,》"，这些特殊符号无实际意义，但是可以在敏感词中间插入而破坏敏感词的结构规避敏感词检查

进行无意义词配置，再进行敏感词检查，如下，可见对于被破坏的敏感词也能识别

if __name__ == '__main__':
    dfa = DFA(['大傻*'], ['%', '&'])
    print(dfa)
    print(dfa.match('大%傻X安乐飞大&傻B'))

结果：

{'大': {'is_end': False, '傻': {'is_end': False, '*': {'is_end': True}}}}
[{'start': 0, 'match': '大%傻X'}, {'start': 7, 'match': '大&傻B'}]

以上就是Python基于DFA算法实现内容敏感词过滤的详细内容！

Python使用DFA算法过滤内容敏感词

- Author -

fdzwdt

- Original Sources -

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Tags in this post...

DFA(1)

Python 相关文章推荐

使用python的chardet库获得文件编码并修改编码

Jan 22 Python

python统计文本字符串里单词出现频率的方法

May 26 Python

利用python批量检查网站的可用性

Sep 09 Python

Python 模块EasyGui详细介绍

Feb 19 Python

Python中Django发送带图片和附件的邮件

Mar 31 Python

python中安装Scrapy模块依赖包汇总

Jul 02 Python

python xlsxwriter库生成图表的应用示例

Mar 16 Python

Python+selenium 获取浏览器窗口坐标、句柄的方法

Oct 14 Python

python 将json数据提取转化为txt的方法

Oct 26 Python

PyQt5图形界面播放音乐的实例

Jun 17 Python

Python多线程threading创建及使用方法解析

Jun 17 Python

python3实现无权最短路径的方法

May 12 Python

python游戏开发之pygame实现接球小游戏

Apr 22 #Python

python游戏开发Pygame框架

Apr 22 #Python

python中的random模块和相关函数详解

Apr 22 #Python

Python写情书? 10行代码展示如何把情书写在她的照片里

Apr 21 #Python

微信小程序调用python模型

Apr 21 #Python

使用python绘制分组对比柱状图

使用python将HTML转换为PDF pdfkit包(wkhtmltopdf) 的使用方法

Apr 21 #Python

任命书(51) 检举信(8) 协议书(568) 口号(179) 报告(147) 党团范文(807) 工作总结(1972) 公证书(45) 标语(336) 说明书(38)

You might like

php实现比较两个字符串日期大小的方法

2015/05/12 PHP

WordPress中获取页面链接和标题的相关PHP函数用法解析

2015/12/17 PHP

在html页面中包含共享页面的方法

2008/10/24 Javascript

JS对URL字符串进行编码/解码分析

2008/10/25 Javascript

javascript中的107个基础知识收集整理推荐

2010/03/29 Javascript

基于jquery的Repeater实现代码

2010/07/17 Javascript

JS注册/移除事件处理程序(ExtJS应用程序设计实战)

2013/05/07 Javascript

js window.print实现打印特定控件或内容

2013/09/16 Javascript

jquery.idTabs 选项卡使用示例代码

2014/09/03 Javascript

JS实现下拉菜单赋值到文本框的方法

2015/08/18 Javascript

微信小程序 http请求详细介绍

2016/10/09 Javascript

完美实现js焦点轮播效果(二)（图片可滚动）

2017/03/07 Javascript

使用vue.js在页面内组件监听scroll事件的方法

2018/09/11 Javascript

node.js使用yargs处理命令行参数操作示例

2020/02/11 Javascript

使用TS来编写express服务器的方法步骤

2020/10/29 Javascript

[02:25]DOTA2英雄基础教程熊战士

2014/01/03 DOTA

python 多进程通信模块的简单实现

2014/02/20 Python

Python简单连接MongoDB数据库的方法

2016/03/15 Python

apache部署python程序出现503错误的解决方法

2017/07/24 Python

pandas or sql计算前后两行数据间的增值方法

2018/04/20 Python

Python类和对象的定义与实际应用案例分析

2018/12/27 Python

简单了解django缓存方式及配置

2019/07/19 Python

python 自定义装饰器实例详解

2019/07/20 Python

pytorch程序异常后删除占用的显存操作

2020/01/13 Python

python 实现压缩和解压缩的示例

2020/09/22 Python

python爬虫使用scrapy注意事项

2020/11/23 Python

利用html5 canvas破解简单验证码及getImageData接口应用

2013/01/25 HTML / CSS

HTML5之SVG 2D入门5—颜色的表示及定义方式

2013/01/30 HTML / CSS

html5模拟平抛运动(模拟小球平抛运动过程)

2013/07/25 HTML / CSS

HTML5语音识别标签写法附图

2013/11/18 HTML / CSS

详解HTML5布局和HTML5标签

2020/10/26 HTML / CSS

全陪导游欢迎词

2014/01/17 职场文书

舞蹈专业大学生职业规划范文

2014/03/12 职场文书

乡镇计划生育工作汇报

2014/10/28 职场文书

新员工辞职信范文

2015/05/12 职场文书

2015年挂职锻炼个人总结

2015/10/22 职场文书